top 29 data engineer interview questions
Llista de preguntes i respostes més freqüents sobre l'entrevista de l'enginyer de dades per ajudar-vos a preparar la propera entrevista:
Avui en dia, l’enginyeria de dades és el camp més buscat després del desenvolupament de programari i s’ha convertit en una de les opcions laborals amb més creixement al món. Els entrevistadors volen els millors enginyers de dades per al seu equip i per això solen entrevistar els candidats a fons. Busquen certes habilitats i coneixements. Per tant, heu d’estar preparats en conseqüència per complir les seves expectatives.
Què aprendreu:
- Responsabilitats d’un enginyer de dades
- Habilitats d’un enginyer de dades
- Preguntes freqüents sobre l’entrevista de l’enginyer de dades
- Conclusió
Responsabilitats d’un enginyer de dades
Les responsabilitats inclouen:
- Manejar i supervisar les dades dins de l’empresa.
- Mantenir i gestionar el sistema d'origen de les dades i les àrees d'intervenció.
- Simplifiqueu la neteja de les dades juntament amb la construcció posterior i millorant la reduplicació de les dades.
- Posar a disposició i executar la transformació de dades i el procés ETL.
- Extracció i realització de consultes de dades ad-hoc.
Habilitats d’un enginyer de dades
Amb les qualificacions, també necessiteu certes habilitats. Tots dos són crucials quan es prepara per al lloc d’enginyer de dades. Aquí, enumerem les 5 millors habilitats, sense cap ordre en concret, que haureu de convertir-vos en un enginyer de dades amb èxit.
- Habilitats en visualització de dades.
- Python i SQL.
- Coneixements de modelització de dades tant per a Big Data com per a Data Warehousing
- Matemàtiques
- Coneixements en ETL
- Experiència espacial de Big Data
Per tant, heu de treballar per millorar aquests conjunts d’habilitats abans de començar a preparar la vostra entrevista. I quan hàgiu polit les vostres habilitats, aquí teniu algunes preguntes sobre les entrevistes que podeu preparar perquè els entrevistadors us notin i també us contractin.
Preguntes freqüents sobre l’entrevista de l’enginyer de dades
Preguntes generals d’entrevistes
P # 1) Per què vau estudiar enginyeria de dades?
Resposta: Aquesta pregunta té com a objectiu conèixer la vostra educació, experiència laboral i antecedents. Podria haver estat una opció natural en la continuació del vostre títol en Sistemes d’Informació o Informàtica. O bé, potser heu treballat en un camp similar o és possible que feu una transició des d’una àrea de treball completament diferent.
Sigui quina sigui la vostra història, no patiu ni defugiu. I mentre compartiu, continueu ressaltant les habilitats que heu après al llarg del camí i l’excel·lent feina que heu fet.
Tot i això, no comenceu a narrar històries. Comenceu una mica amb la vostra formació educativa i, a continuació, arribeu a la part que sabíeu que voleu ser enginyer de dades. I després continueu com arribeu aquí.
P # 2) Què és el més difícil segons vostè per ser enginyer de dades?
Resposta: Heu de respondre honestament a aquesta pregunta. No tots els aspectes de totes les feines són fàcils i l’entrevistador ho sap. L’objectiu d’aquesta pregunta no és identificar la vostra debilitat, sinó conèixer com treballeu les coses que us resulten difícils d’afrontar.
Podeu dir alguna cosa així com: “Com a enginyer de dades, em costa completar la sol·licitud de tots els departaments d’una empresa on la majoria solen presentar demandes contradictòries. Per tant, sovint em resulta difícil equilibrar-los en conseqüència.
Però m’ha aportat una valuosa informació sobre el funcionament dels departaments i el paper que tenen en l’estructura global de l’empresa '. I aquest és només un exemple. Vostè pot i ha de posar el seu punt de vista.
P # 3) Expliqueu-nos un incident en què se suposava que havíeu de reunir dades de diverses fonts però que teníeu problemes inesperats i com ho vau resoldre?
Resposta: Aquesta pregunta és una oportunitat per demostrar les vostres habilitats de resolució de problemes i com us adapteu als canvis bruscos del pla. La qüestió es podria abordar de manera general o específica amb context a l'enginyeria de dades. Si no heu viscut aquesta experiència, podeu donar una resposta hipotètica.
Heus aquí una mostra de resposta: “En la meva anterior empresa franquiciadora, jo i el meu equip havíem de recopilar dades de diverses ubicacions i sistemes. Però una de les franquícies va canviar el seu sistema sense avisar-nos prèviament. Això va donar lloc a un grapat de problemes per a la recollida i el processament de dades.
Per resoldre-ho, primer vam haver de trobar una solució ràpida a curt termini per incorporar les dades essencials al sistema de l’empresa. I després d'això, hem desenvolupat una solució a llarg termini per evitar que es tornin a repetir aquests problemes '.
Q # 4) En què es diferencia la feina d'un enginyer de dades de la d'un arquitecte de dades?
Resposta: Aquesta pregunta vol comprovar si enteneu que hi ha diferències dins l’equip d’un magatzem de dades. No us podeu equivocar amb la resposta. Les responsabilitats de tots dos es superposen o varien en funció del que necessiti el departament de manteniment de bases de dades o l’empresa.
Podeu dir que “segons la meva experiència, la diferència entre els rols d’un enginyer de dades i un arquitecte de dades varia d’una empresa a l’altra. Tot i que treballen molt junts, hi ha diferències en les seves responsabilitats generals.
Gestionar els servidors i construir l’arquitectura del sistema de dades d’una empresa és responsabilitat d’un arquitecte de dades. I la feina d’un enginyer de dades consisteix a provar i mantenir aquesta arquitectura. Juntament amb això, nosaltres, enginyers de dades, ens assegurem que les dades que es posen a disposició dels analistes siguin d'alta qualitat i fiables '.
Preguntes d’entrevistes tècniques
P # 5) Quins són els quatre V de Big Data?
(imatge font )
Resposta:
Les quatre V de Big Data són:
- La primera V és Velocitat que es refereix a la velocitat amb què es genera el Big Data al llarg del temps. Per tant, es pot considerar que analitza les dades.
- La segona V és la Varietat de diverses formes de Big Data, ja sigui en imatges, fitxers de registre, fitxers multimèdia i enregistraments de veu.
- La tercera V és la Volum de les dades. Podria estar en el nombre d'usuaris, el nombre de taules, la mida de les dades o el nombre de registres.
- La quarta V és Veracitat relacionat amb la incertesa o certesa de les dades. En altres termes, decideix la seguretat que podeu tenir sobre la precisió de les dades.
P # 6) En què es diferencien les dades estructurades de les dades no estructurades?
Resposta: La taula següent explica les diferències:
Dades estructurades | Dades no estructurades | |
---|---|---|
7) | Les dades agregades es contenen en una única dimensió. | Les dades es divideixen en diferents taules de dimensions. |
1) | Es pot emmagatzemar a MS Access, Oracle, SQL Server i altres sistemes de bases de dades tradicionals similars. | No es pot emmagatzemar en un sistema de base de dades tradicional. |
2) | Es pot emmagatzemar dins de diferents columnes i files. | No es pot emmagatzemar en files i columnes. |
3) | Un exemple de dades estructurades són les transaccions d’aplicacions en línia. | Exemples de dades no estructurades són els tuits, les cerques a Google, els likes de Facebook, etc. |
4) | Es pot definir fàcilment dins del model de dades. | No es pot definir segons el model de dades. |
5) | Inclou una mida i un contingut fixos. | Es presenta en diverses mides i continguts. |
P # 7) Quines eines ETL coneixeu?
Resposta: Anomeneu totes les eines ETL amb què heu treballat. Podeu dir: 'He treballat amb SAS Data Management, IBM Infosphere i SAP Data Services. Però el meu preferit és PowerCenter d'Informatica. És eficient, té un rendiment extremadament alt i és flexible. En resum, té totes les propietats importants d’una bona eina ETL.
Gestionen sense problemes les operacions de dades empresarials i garanteixen l'accés a les dades fins i tot quan hi ha canvis en el negoci o la seva estructura. ' Assegureu-vos que només parleu dels que heu treballat i dels que us agrada treballar. O bé, podria entregar la vostra entrevista més tard.
Q # 8) Parleu-nos sobre esquemes de disseny de modelatge de dades.
Resposta: El modelatge de dades inclou dos tipus d’esquemes de disseny.
S'expliquen de la següent manera:
- El primer és el Horari estrella , que es divideix en dues parts: la taula de fets i la taula de dimensions. Aquí, les dues taules estan connectades. L’esquema d’estrelles és l’estil d’esquema de data mart més senzill i també s’aborda més. Es diu així perquè la seva estructura s’assembla a una estrella.
- El segon és el Esquema de flocs de neu que és l'extensió de l'esquema estel·lar. Afegeix dimensions addicionals i s’anomena floc de neu perquè la seva estructura s’assembla a la d’un floc de neu.
P # 9) Quina diferència hi ha entre l’esquema d’estrelles i l’esquema de floc de neu?
(imatge font )
Resposta: La taula següent explica les diferències:
Horari d’estrelles | Esquema de flocs de neu | |
---|---|---|
1) | La taula de dimensions conté les jerarquies de les dimensions. | Hi ha taules separades per a jerarquies. |
2) | Aquí les taules de dimensions envolten una taula de dades. | Les taules de dimensions envolten una taula de dades i, a continuació, estan envoltades de taules de dimensions. |
3) | Una taula de dades i qualsevol taula de dimensions es connecten amb una única unió. | Per obtenir les dades, calen moltes combinacions. |
4) | Ve amb un disseny de base de dades senzill. | Té un complex disseny de bases de dades. |
5) | Funciona bé fins i tot amb consultes i estructures de dades desnormalitzades. | Funciona només amb l'estructura de dades normalitzada. |
6) | Redundància de dades: alta. | Redundància de dades: molt baixa. |
8) | Processament de cubs més ràpid. | La combinació complexa alenteix el processament del cub. |
Q # 10) Quina diferència hi ha entre el magatzem de dades i la base de dades operativa?
Resposta: La taula següent explica les diferències:
Magatzem de dades | Base de dades operativa | |
---|---|---|
7) | Admet un grapat d'OLTP com a clients concurrents. | Admet molts clients simultanis. |
1) | Estan dissenyats per donar suport al processament analític de gran volum. | Aquests suporten el processament de transaccions de gran volum. |
2) | Les dades històriques afecten un magatzem de dades. | Les dades actuals afecten la base de dades operativa. |
3) | S’afegeixen noves dades no volàtils regularment, però poques vegades es canvien. | Les dades s’actualitzen periòdicament a mesura que sorgeixi la necessitat. |
4) | Està dissenyat per analitzar les mesures empresarials per atributs, àrees temàtiques i categories. | Està dissenyat per al processament i negocis en temps real. |
5) | Optimitzat per a càrregues pesades i consultes complexes que accedeixen a moltes files de cada taula. | Optimitzat per a un conjunt senzill de transaccions, com ara recuperar i afegir una fila a la vegada per a cada taula. |
6) | Està ple d’informació vàlida i coherent i no necessita cap validació en temps real. | S'ha millorat per validar la informació entrant i utilitza taules de dades de validació. |
8) | Els seus sistemes estan orientats principalment a temes. | Els seus sistemes estan orientats principalment a processos. |
9) | Dades fora. | Data In. |
10) | Es pot accedir a un gran nombre de dades. | Es pot accedir a un nombre limitat de dades. |
11) | Creat per a OLAP, Processament analític en línia. | Creat per a OLTP, processament de transaccions en línia. |
Q # 11) Assenyaleu la diferència entre OLTP i OLAP.
Resposta: La taula següent explica les diferències:
OLTP | OLAP | |
---|---|---|
7) | El volum de dades no és molt gran. | Té un gran volum de dades. |
1) | S’utilitza per gestionar dades operatives. | S’utilitza per gestionar dades informatives. |
2) | El fan servir clients, empleats i professionals de la informàtica. | Els gerents, analistes, executius i altres treballadors del coneixement l’utilitzen. |
3) | Està orientat al client. | Està orientat al mercat. |
4) | Gestiona les dades actuals, extremadament detallades i que s’utilitzen per a la presa de decisions. | Gestiona una gran quantitat de dades històriques. També proporciona facilitats per a l’agregació i el resum, a més de gestionar i emmagatzemar dades a diferents nivells de granularitat. Per tant, les dades es fan més còmodes per utilitzar-les en la presa de decisions. |
5) | Té una mida de base de dades de 100 MB-GB. | Té una mida de base de dades de 100 GB-TB. |
6) | Utilitza un model de dades ER (relació entitat) juntament amb un disseny de base de dades orientat a aplicacions. | OLAP utilitza un model de floc de neu o estrella juntament amb un disseny de base de dades orientat al tema. |
8) | Mode d'accés: lectura / escriptura. | El mode d’accés és principalment d’escriptura. |
9) | Completament normalitzat. | Parcialment normalitzat. |
10) | La seva velocitat de processament és molt ràpida. | La seva velocitat de processament depèn del nombre de fitxers que conté, de consultes complexes i de l'actualització de dades per lots |
Q # 12) Expliqueu el concepte principal darrere del Framework d'Apache Hadoop.
Resposta: Es basa en l'algorisme MapReduce. En aquest algorisme, per processar un enorme conjunt de dades, s’utilitzen operacions de mapatge i reducció. Mapa, filtra i ordena les dades mentre Redueix, resumeix les dades. L’escalabilitat i la tolerància a fallades són els punts clau d’aquest concepte. Podem aconseguir aquestes funcions a Apache Hadoop implementant eficientment MapReduce i Multi-threading.
P # 13) Heu treballat mai amb Hadoop Framework?
(imatge font )
Resposta: Molts gestors de contractació pregunten sobre l’eina Hadoop a l’entrevista per saber si coneixeu les eines i els idiomes que utilitza l’empresa. Si heu treballat amb Hadoop Framework, expliqueu-los els detalls del vostre projecte per aportar informació sobre els vostres coneixements i habilitats amb l’eina i les seves capacitats. I si mai no hi heu treballat, també funcionaran algunes investigacions per demostrar una certa familiaritat amb els seus atributs.
Pots dir, per exemple, “Mentre treballava en un projecte d’equip, he tingut l’oportunitat de treballar amb Hadoop. Ens vam centrar a augmentar l'eficiència del processament de dades, de manera que, a causa de la seva capacitat per augmentar la velocitat del processament de dades sense comprometre la qualitat durant el processament distribuït, vam decidir utilitzar Hadoop.
I com la meva empresa anterior esperava un augment considerable del processament de dades durant els propers mesos, la seva escalabilitat també va ser útil. Hadoop també és una xarxa de codi obert basada en Java, que la converteix en la millor opció per als projectes amb recursos limitats i fàcil d’utilitzar sense cap formació addicional ”.
programari de virtualització gratuït per a Windows 10
Q # 14) Esmenta algunes característiques importants d’Hadoop.
Resposta: Les funcions són les següents:
- Hadoop és un marc de codi obert gratuït on podem modificar el codi font segons el nostre requisit.
- Admet el processament de dades més ràpidament distribuït. HDFS Hadoop emmagatzema dades de manera distribuïda i utilitza MapReduce per processar les dades en paral·lel.
- Hadoop és molt tolerant i, per defecte, en diferents nodes, permet a l'usuari crear tres rèpliques de cada bloc. Per tant, si un dels nodes no funciona, podem recuperar les dades d’un altre node.
- També és escalable i és compatible amb molts maquinari.
- Des que Hadoop emmagatzemava dades en clústers, independentment de totes les altres operacions. Per tant, és fiable. Les dades emmagatzemades no es veuran afectades pel mal funcionament de les màquines. I, per tant, també està molt disponible.
P # 15) Com podeu augmentar els ingressos empresarials analitzant el Big Data?
Resposta: L’anàlisi de dades massives és una part vital de les empreses, ja que els ajuda a diferenciar-se entre ells i augmentar els ingressos. L'anàlisi de dades massives ofereix suggeriments i recomanacions personalitzats a les empreses mitjançant l'anàlisi predictiu.
També ajuda les empreses a llançar nous productes en funció de les preferències i necessitats dels clients. Això ajuda les empreses a guanyar significativament més, aproximadament un 5-20% més. Empreses com Bank of America, LinkedIn, Twitter, Walmart, Facebook, etc. utilitzen Big Data Analysis per augmentar els seus ingressos.
P.16) Mentre desplegueu una solució Big Data, quins passos heu de seguir?
Resposta: cal seguir tres passos mentre es desplega una solució Big Data:
- Ingestió de dades És el primer pas per desplegar una solució Big Data. És l'extracció de dades de diverses fonts com SAP, MYSQL, Salesforce, fitxers de registre, base de dades interna, etc. La ingestió de dades es pot produir a través de transmissions en temps real o treballs per lots.
- Emmagatzematge de dades- Un cop ingerides les dades, les dades extretes s’han d’emmagatzemar en algun lloc. O s’emmagatzema en bases de dades HDFS o NoSQL. HDFS funciona bé per a l'accés seqüencial mitjançant HBase per a l'accés de lectura o escriptura aleatòria.
- Processament de dades- Aquest és el tercer i el pas final per implementar una solució de Big Data. Després de l’emmagatzematge, les dades es processen a través d’un dels marcs principals com MapReduce o Pig.
P # 17) Què és un escàner de blocs a HDFS?
Resposta: Un bloc és la quantitat mínima de dades que es poden escriure o llegir en HDFS. 64 MB és la mida per defecte d’un bloc.
L’escàner de blocs és un programa que fa un seguiment periòdic del nombre de blocs d’un DataNode juntament amb la verificació de possibles errors de suma de comprovació i danys de dades.
P # 18) Quins són els reptes als quals heu enfrontat mentre introduïu noves aplicacions d'anàlisi de dades si n'heu introduït alguna vegada?
Resposta: Si mai no heu introduït noves analítiques de dades, simplement ho podeu dir. Perquè són bastant cars i, per tant, les empreses no solen fer això. Però si una empresa decideix invertir-hi, pot ser un projecte extremadament ambiciós. Necessitaria empleats altament formats per instal·lar, connectar-se, utilitzar i mantenir aquestes eines.
Per tant, si heu passat pel procés, expliqueu-los quins obstacles heu trobat i com els heu superat. Si no ho heu fet, expliqueu-los detalladament què en sabeu del procés. Aquesta pregunta determina si teniu el coneixement bàsic per superar els problemes que podrien sorgir durant la introducció de noves aplicacions d’anàlisi de dades.
Resposta de mostra; “He estat part de la introducció de noves analítiques de dades a la meva empresa anterior. Tot el procés és elaborat i necessita un procés ben planificat per a una transició el més fluïda possible.
Tot i això, fins i tot amb una planificació immaculada, no sempre podem evitar circumstàncies i problemes imprevistos. Un d’aquests problemes era la demanda increïblement elevada de llicències d’usuari. Va anar més enllà del que esperàvem. Per obtenir les llicències addicionals, l’empresa va haver de reassignar els recursos financers.
A més, s’havia de planificar la formació de manera que no obstaculitzés el flux de treball. A més, vam haver d’optimitzar la infraestructura per donar suport a l’alt nombre d’usuaris ”.
P # 19) Què passa si NameNode es bloqueja al clúster HDFS?
Resposta: El clúster HDFS només té un NameNode i manté les metadades de DataNode. Tenir només un NameNode proporciona als clústers HDFS un únic punt d’error.
Per tant, si NameNode falla, és possible que els sistemes no estiguin disponibles. Per evitar-ho, podem especificar un NameNode secundari que pren els punts de control periòdics en sistemes de fitxers HDFS, però no és una còpia de seguretat del NameNode. Però el podem utilitzar per recrear NameNode i reiniciar.
Q # 20) Diferència entre NAS i DAS al clúster Hadoop.
Resposta: Al NAS, les capes d’emmagatzematge i càlcul estan separades i, a continuació, l’emmagatzematge es distribueix entre diversos servidors de la xarxa. Mentre es troba a DAS, l’emmagatzematge se sol adjuntar al node de càlcul. Apache Hadoop es basa en el principi del processament a prop d’una ubicació específica de dades.
Per tant, el disc d’emmagatzematge hauria de ser local per al càlcul. DAS us ajuda a obtenir rendiment en un clúster Hadoop i es pot utilitzar en maquinari bàsic. En paraules simples, és més rendible. Es prefereix l’emmagatzematge NAS amb un ample de banda elevat d’uns 10 GbE.
P # 21) És millor construir una base de dades NoSQL que construir una base de dades relacional?
(imatge font )
Resposta: Per respondre a aquesta pregunta, heu de mostrar el vostre coneixement sobre les dues bases de dades. A més, haureu de fer una còpia de seguretat amb un exemple de la situació que demostri com haureu aplicat el coneixement en un projecte real.
La vostra resposta podria ser una cosa així: 'En algunes situacions, pot ser beneficiós crear una base de dades NoSQL. A la meva última empresa, quan el sistema de franquícies augmentava de manera exponencial, vam haver d’escalar ràpidament per aprofitar al màxim totes les dades d’operacions i vendes que teníem.
Millorar l’ampliació que l’ampliació amb servidors més grans quan s’encarrega l’augment de la càrrega de processament de dades És rendible i més fàcil d’aconseguir amb les bases de dades NoSQL, ja que pot tractar fàcilment grans volums de dades. Això és útil quan cal respondre ràpidament a canvis de càrrega de dades considerables en el futur.
Tot i que les bases de dades relacionals tenen una millor connectivitat amb qualsevol eina d’anàlisi. Però les bases de dades NoSQL tenen molt a oferir ”.
P # 22) Què feu quan trobeu un problema inesperat de manteniment de dades? Heu provat alguna solució per a això?
Resposta: Inevitablement, de tant en tant sorgeixen problemes inesperats en totes les tasques rutinàries, fins i tot mentre es mantenen les dades. Aquesta pregunta pretén saber si podeu fer front a situacions d’alta pressió i com fer-ho.
Podeu dir alguna cosa així com 'el manteniment de dades pot ser una tasca rutinària, però és vital vigilar de prop les tasques específiques, inclòs assegurar-vos que els scripts s'executin amb èxit.
Una vegada, mentre realitzava la comprovació d’integritat, em vaig trobar amb un índex corrupte que podria haver causat problemes greus en el futur. És per això que vaig plantejar una nova tasca de manteniment per evitar l’addició d’índexs corruptes a la base de dades de l’empresa '.
P # 23) Alguna vegada heu format algú al vostre camp? Si és així, què us ha semblat més difícil?
Resposta: Normalment es necessiten enginyers de dades per formar els seus companys de feina en sistemes o processos nous que heu creat o formar nous empleats en sistemes i arquitectura ja existents. Per tant, amb aquesta pregunta, el vostre entrevistador vol saber si podeu fer-ho. Si no heu tingut l'oportunitat de formar algú mateix, parleu sobre els reptes que algú es va formar o sabeu que heu tingut.
Una mostra de la resposta ideal serà una cosa així. “Sí, he tingut l'oportunitat de formar grups petits i grans de col·laboradors. La formació de nous empleats amb experiència important en una altra empresa és la tasca més difícil que he trobat. Sovint estan tan acostumats a abordar les dades des d’una perspectiva diferent que lluiten per acceptar la nostra manera de fer les coses.
Sovint, són extremadament opinats i pensen que ho saben tot bé, i per això els costa molt de temps adonar-se que un problema pot tenir més d’una solució. Intento animar-los a obrir les seves ments i acceptar possibilitats alternatives posant èmfasi en l’èxit que han tingut la nostra arquitectura i processos ”.
P # 24) Quins són els pros i els contres de treballar en computació en núvol?
(imatge font )
Resposta:
Pros:
- Sense cost d’infraestructura.
- Gestió mínima.
- No hi ha molèsties quant a la gestió i administració.
- De fàcil accés.
- Pagueu pel que feu servir.
- És fiable.
- Ofereix control de dades, còpia de seguretat i recuperació.
- Emmagatzematge enorme.
Contres:
- Necessita una bona connexió a Internet amb un ample de banda igual de bo per funcionar bé.
- Té el seu temps d'inactivitat.
- El control de la infraestructura serà limitat.
- Hi ha poca flexibilitat.
- Té certs costos continuats.
- Pot haver-hi problemes de seguretat i tècnics.
Q # 25) El treball dels enginyers de dades sol ser 'entre bastidors'. Us sentiu còmode treballant lluny del ‘focus’?
Resposta: El vostre responsable de contractació vol saber si us agrada el protagonisme o podeu treballar bé en ambdues situacions. La vostra resposta els hauria de dir que, tot i que us agrada la projecció, també esteu còmode treballant en segon pla.
'El que m'importa és que sigui un expert en el meu camp i contribuir al creixement de la meva empresa. Si he de treballar en el punt de mira, també estic còmode fent-ho. Si hi ha un problema que els executius han d’abordar, no dubtaré en alçar la veu i posar-la en coneixement ”.
P # 26) Què passa quan l'escàner Block detecta un bloc de dades malmès?
Resposta: Primer de tot, els informes DataNode a NameNode. A continuació, NameNode comença a crear una nova rèplica mitjançant la rèplica del bloc malmès. El bloc de dades malmès no se suprimirà si el recompte de rèpliques de les rèpliques adequades coincideix amb el factor de rèplica.
P # 27) Heu trobat mai un nou ús innovador de dades ja existents? Va afectar positivament l’empresa?
Resposta: Aquesta pregunta està pensada perquè puguin esbrinar si esteu automotivats i amb moltes ganes de contribuir a l’èxit dels projectes. Si és possible, responeu a la pregunta amb un exemple on us heu encarregat d’un projecte o se us va ocórrer una idea. I si alguna vegada heu presentat una solució nova a un problema, tampoc no us la perdeu.
Exemple de resposta: “En el meu darrer treball, vaig participar per esbrinar per què tenim una elevada taxa de rotació d’empleats. Vaig observar les dades de prop de diversos departaments on vaig trobar dades altament correlacionades en àrees clau com finances, màrqueting, operacions, etc. i la taxa de rotació dels empleats.
Va col·laborar amb els analistes del departament per a una millor comprensió d’aquestes correlacions. Amb la nostra comprensió, vam fer alguns canvis estratègics que van afectar positivament la taxa de rotació dels empleats ”.
P # 28) Quines habilitats no tècniques creieu que són útils com a enginyer de dades?
Resposta: Intenteu evitar les respostes més evidents, com ara habilitats comunicatives o interpersonals. Podeu dir: “La priorització i la multitarea han estat molt útils a la meva feina. Tenim diverses tasques en un dia perquè treballem amb diferents departaments. I, per tant, es fa vital que els donem prioritat. Ens facilita la feina i ens ajuda a acabar-los de manera eficient ”.
P # 29) Quins són alguns dels problemes més habituals que heu tingut com a enginyer de dades?
Resposta: Aquests són:
- Integració contínua i en temps real.
- Emmagatzemar grans quantitats de dades i informació d’aquestes dades.
- Restriccions de recursos.
- Tenint en compte quines eines utilitzar i quines poden obtenir els millors resultats.
Conclusió
L’enginyeria de dades pot semblar un treball avorrit de rutina, però hi ha moltes facetes interessants. Això és evident a partir dels possibles escenaris que es podrien fer els enquestadors. Hauríeu d’estar preparats per respondre no només a preguntes tècniques de llibres, sinó també a qüestions de situació, com les anteriors. Només així podreu demostrar que podeu fer bé la vostra feina i que la mereixeu.
Tot el millor!!
Lectura recomanada
- Preguntes i respostes de l’entrevista
- Preguntes i respostes de l'entrevista de proves ETL
- Top 32 de les millors preguntes i respostes d’entrevistes de dades
- Preguntes i respostes principals de l’entrevista JSON
- Preguntes i respostes principals de l'entrevista de Teradata
- Top 24 de les preguntes d’entrevistes sobre modelització de dades amb respostes detallades
- Top 50 de les preguntes i respostes de les entrevistes a la base de dades
- Top 30 de les preguntes i respostes de l’entrevista SAS