top 24 data modeling interview questions with detailed answers
Llista de preguntes i respostes de les entrevistes de modelització de dades més freqüents per ajudar-vos a preparar la propera entrevista:
Aquí compartiré algunes preguntes d’entrevistes sobre modelatge de dades i respostes detallades basades en la meva pròpia experiència durant les interaccions d’entrevistes en algunes reconegudes multinacionals de TI.
A continuació, les respostes a preguntes poden ser de gran ajuda si teniu l'oportunitat d'enfrontar-vos o fer una entrevista sobre Modelització de dades.
Preguntes més freqüents sobre l'entrevista sobre modelització de dades
Comencem!
P # 1) Què enteneu per modelització de dades?
Resposta: Modelització de dades és la representació diagramàtica que mostra com es relacionen les entitats entre elles. És el pas inicial cap al disseny de bases de dades. Primer creem el model conceptual, després el model lògic i finalment passem al model físic.
Generalment, els models de dades es creen en la fase d’anàlisi i disseny de dades del cicle de vida del desenvolupament de programari.
Q # 2) Expliqueu la vostra comprensió de diferents models de dades?
Resposta: Hi ha tres tipus de models de dades: conceptuals, lògics i físics. El nivell de complexitat i detall augmenta de model conceptual a lògic a un model de dades físic.
El model conceptual mostra un nivell de disseny molt bàsic, mentre que el model de dades físiques mostra una visió molt detallada del disseny.
- Model conceptual només representarà noms d’entitats i relacions d’entitats. La figura 1 que es mostra a la part posterior d’aquest article representa un model conceptual.
- Model lògic mostrarà noms d'entitats, relacions d'entitats, atributs, claus primàries i claus externes a cada entitat. La figura 2 que es mostra a la pregunta 4 d’aquest article representa un model lògic.
- Model de dades físiques mostrarà claus primàries, claus externes, noms de taules, noms de columnes i tipus de dades de columna. Aquesta vista realment explica com s’implementarà el model a la base de dades.
Q # 3) Voleu donar una mica de llum sobre la vostra experiència en Modelització de dades respecte a projectes en què heu treballat fins ara?
Nota: Aquesta va ser la primera pregunta en una de les meves entrevistes de Modelatge de Dades. Per tant, abans d’entrar al debat de l’entrevista, hauríeu de tenir una imatge molt clara de com s’adapta el modelatge de dades a les tasques que heu treballat.
Resposta: He treballat en un projecte per a una companyia proveïdora d'assegurances mèdiques on tenim interfícies integrades Informatica que transforma i processa les dades obtingudes de la base de dades de Facets i envia informació útil als proveïdors.
Nota: Facets és una solució de punta a punta per gestionar tota la informació per a la indústria sanitària. La base de dades de facetes del meu projecte es va crear amb SQL Server 2012.
Teníem diferents entitats que estaven lligades entre elles. Aquestes entitats eren subscriptors, membres, proveïdors d’atenció mèdica, reclamació, factura, inscripció, grup, elegibilitat, pla / producte, comissió, capitació, etc.
A continuació es mostra el model conceptual de dades que mostra l'aspecte del projecte a un nivell alt
Figura 1:
Cadascuna de les entitats de dades té els seus propis atributs de dades. Per exemple, un atribut de dades del proveïdor serà el número d’identificació del proveïdor, pocs atributs de dades de la pertinença seran identificador de subscriptor, identificador de membre, un dels atributs de dades de reclamació tindrà identificació de reclamació, cada producte o pla sanitari tindrà un identificador de producte únic i així successivament.
Q # 4) Quins són els diferents esquemes de disseny en Modelització de dades? Explica amb elexemple?
Resposta: Hi ha dos tipus diferents d’esquemes en la modelització de dades
- Horari d’estrelles
- Esquema de flocs de neu
Ara, explicaré cadascun d’aquests esquemes un per un.
El més simple dels esquemes és l’esquema en estrelles, on tenim una taula de dades al centre que fa referència a diverses taules de dimensions al seu voltant. Totes les taules de dimensions estan connectades a la taula de dades. La clau principal de totes les taules de dimensions actua com a clau externa a la taula de dades.
El Diagrama IS (vegeu la figura 2) d’aquest esquema s’assembla a la forma d’una estrella i és per això que aquest esquema s’anomena esquema estel·lar.
Figura 2:
L'esquema estel·lar és bastant senzill, flexible i està desnormalitzat.
En un esquema de flocs de neu, el nivell de normalització augmenta. La taula de fets aquí continua sent la mateixa que en l’esquema d’estrelles. Tot i això, les taules de dimensions es normalitzen. A causa de diverses capes de taules de dimensions, sembla un floc de neu i, per tant, s’anomena esquema de flocs de neu.
com reproduir fitxers swf a Windows 7
Figura 3:
P # 5) Quin esquema heu utilitzat al vostre projecte i per què?
P # 6) Quin esquema és millor: estrella o floc de neu?
Resposta: (combinada per a les preguntes núm. 5 i 6): L'elecció d'un esquema sempre depèn dels requisits i escenaris del projecte.
Com que l'esquema estel·lar està desnormalitzat, necessiteu menys combinacions per a una consulta. La consulta és senzilla i s’executa més ràpidament en un esquema d’estrelles. En arribar a l’esquema de flocs de neu, ja que està en forma normalitzada, requerirà un nombre de combinacions en comparació amb un esquema d’estrelles, la consulta serà complexa i l’execució serà més lenta que l’esquema d’estrelles.
Una altra diferència significativa entre aquests dos esquemes és que l’esquema de flocs de neu no conté dades redundants i, per tant, és fàcil de mantenir. Per contra, l’esquema estel·lar té un alt nivell de redundància i, per tant, és difícil de mantenir.
Ara, quin triar per al vostre projecte? Si el propòsit del vostre projecte és fer més anàlisi de dimensions, hauríeu de buscar un esquema de flocs de neu. Per exemple, si ho necessiteu 'Quants subscriptors estan vinculats a un pla concret que està actiu actualment?' - anar amb el model de floc de neu.
Si el propòsit del vostre projecte és fer més anàlisis de mètriques, hauríeu d’anar amb un esquema d’estrelles. Per exemple, si ho necessiteu 'Quin és l'import de la reclamació pagat a un subscriptor concret?' - anar amb un esquema d’estrelles.
Al meu projecte, vam utilitzar un esquema de flocs de neu perquè havíem de fer anàlisis de diverses dimensions i generar informes resum per a l’empresa. Una altra de les raons per utilitzar l’esquema de flocs de neu és que es tracta d’un menor consum de memòria.
P # 7) Què enteneu per dimensió i atribut?
Resposta: Les dimensions representen dades qualitatives. Per exemple, pla, producte, classe són totes dimensions.
Una taula de dimensions conté atributs textuals o descriptius. Per exemple, la categoria de producte i el nom del producte són els atributs de la dimensió del producte.
Q # 8) Què és una taula de fets i fets?
Resposta: Els fets representen dades quantitatives.
Per exemple, l’import net degut és un fet. Una taula de dades conté dades numèriques i claus externes de taules dimensionals relacionades. Un exemple de la taula de fets es pot veure a la figura 2 que es mostra més amunt.
P # 9) Quins són els diferents tipus de dimensions que heu trobat? Expliqueu cadascun d’ells amb detall amb un exemple?
Resposta: Normalment hi ha cinc tipus de dimensions.
a) Dimensions conformades : Una dimensió que s'utilitza com a part de diferents àrees s'anomena dimensió conformada. Es podria utilitzar amb diferents taules de dades en una única base de dades o en nombrosos magatzems o màrqueting de dades.
Per exemple, si la dimensió de subscriptor està connectada a dues taules de dades: facturació i reclamació, la dimensió de subscriptor es tractaria com una dimensió conformada.
b) Dimensió brossa : És una taula de dimensions que inclou atributs que no tenen cap lloc a la taula de dades ni a cap de les taules de dimensions actuals. En general , es tracta de propietats com a indicadors o indicadors.
Per exemple, pot ser un indicador d'elegibilitat dels membres establert com a 'Y' o 'N' o qualsevol altre conjunt d'indicadors com a vertader / fals, comentaris específics, etc. si mantenim tots aquests atributs d'indicador a la taula de dades, la seva mida augmentarà. Tan , combinem tots aquests atributs i col·loquem una taula de dimensions única anomenada dimensió brossa que té identificadors de brossa únics amb una possible combinació de tots els valors dels indicadors.
c) Dimensió del rol : Són les dimensions que s'utilitzen per a diversos propòsits a la mateixa base de dades.
Per exemple, es pot utilitzar una dimensió de data per a 'Data de la reclamació', 'Data de facturació' o 'Data del termini del pla'. Tan , aquesta dimensió s'anomenarà dimensió de rol. La clau principal de la dimensió Data s’associarà a diverses claus externes de la taula de dades.
d) Dimensió que canvia lentament (SCD): Aquests són els més importants entre totes les dimensions. Aquestes són les dimensions en què els valors dels atributs varien amb el temps. A continuació es mostren els diferents tipus de SCD
- Tipus 0: Aquestes són les dimensions en què el valor de l'atribut es manté constant amb el temps. Per exemple, El DOB del subscriptor és un SCD de tipus 0 perquè sempre es mantindrà igual independentment del temps.
- Tipus 1: Aquestes són les dimensions en què el valor anterior de l'atribut se substitueix pel valor actual. No es conserva cap historial a la dimensió de tipus 1. Per exemple, L'adreça del subscriptor (on l'empresa requereix mantenir l'única adreça actual del subscriptor) pot ser una dimensió de tipus 1.
- Tipus 2: Aquestes són les dimensions on es conserva la història il·limitada. Per exemple, Adreça del subscriptor (on l’empresa requereix tenir un registre de totes les adreces anteriors del subscriptor). En aquest cas, s'inseriran diverses files per a un subscriptor a la taula amb les seves diferents adreces. Hi haurà algunes columnes que identificaran l’adreça actual. Per exemple, 'Data d'inici' i 'Data de finalització'. La fila on el valor de 'Data de finalització' estarà en blanc contindrà l'adreça actual del subscriptor i la resta de files tindran adreces anteriors del subscriptor.
- Tipus 3: Aquests són el tipus de dimensions on es conserva una història limitada. I fem servir una columna addicional per mantenir l'historial. Per exemple, L'adreça del subscriptor (on l'empresa requereix tenir un registre de l'adreça actual i només una anterior). En aquest cas, podem dissoldre la columna 'adreça' en dues columnes diferents: 'adreça actual' i 'adreça anterior'. Per tant, en lloc de tenir diverses files, només tindrem una fila que mostra l’actual i l’adreça anterior del subscriptor.
- Tipus 4: En aquest tipus de dimensió, les dades històriques es conserven en una taula independent. La taula de dimensions principal només conté les dades actuals. Per exemple, la taula de dimensions principal només tindrà una fila per subscriptor que mantindrà la seva adreça actual. La resta d'adreces anteriors del subscriptor es conservaran a la taula d'historial independent. Aquest tipus de dimensió gairebé no s’utilitza mai.
e) Dimensió degenerada: Una dimensió degenerada és una dimensió que no és un fet, sinó que es presenta a la taula de fets com a clau principal. No té la seva pròpia taula de dimensions. També el podem anomenar com a taula de dimensions d’un atribut únic.
Però , en lloc de mantenir-lo per separat en una taula de dimensions i posar una unió addicional, posem aquest atribut a la taula de dades directament com a clau. Com que no té la seva pròpia taula de dimensions, mai no pot actuar com a clau estrangera a la taula de dades.
P # 10) Doneu la vostra idea sobre fets reals? I per què l’utilitzem?
Resposta: La taula de fets sense fets és una taula de fets que no conté cap mesura de fets. Només té les claus de dimensió.
De vegades, poden sorgir determinades situacions al negoci en què cal tenir una taula de fets reals.
qa preguntes i respostes d'entrevistes per a estudiants de primer any
Per exemple, suposem que manteniu un sistema de registre d'assistència dels empleats, podeu tenir una taula de fets reals que tingui tres claus.
ID_empleat |
ID_departament |
ID_hora |
Podeu veure que la taula anterior no conté cap mesura. Ara bé, si voleu respondre a la següent pregunta, podeu fer-ho fàcilment utilitzant la taula de fets senzills i anteriors en lloc de tenir dues taules de fets separades:
'Quants empleats d'un departament concret hi eren presents un dia concret?'
Per tant, la taula de fets reals ofereix flexibilitat al disseny.
Q # 11) Distingir entre OLTP i OLAP?
Resposta: OLTP significa ' Sistema de processament de transaccions en línia & OLAP significa ' Sistema de processament analític en línia . OLTP manté les dades transaccionals del negoci i, en general, està altament normalitzada. Per contra, OLAP té finalitats d’anàlisi i d’informació i es troba en forma desnormalitzada.
Aquesta diferència entre OLAP i OLTP també us permetrà triar el disseny de l’esquema. Si el vostre sistema és OLTP, hauríeu d’anar amb el disseny d’esquemes en estrella i, si el vostre sistema és OLAP, hauríeu d’anar amb un esquema de flocs de neu.
P # 12) Què enteneu per data mart?
Resposta: Els marts de dades estan destinats en la seva major part a una branca empresarial solitària. Estan dissenyats per als departaments individuals.
Per exemple, Abans treballava per a una companyia proveïdora d’assegurances mèdiques que tenia diferents departaments, com ara Finances, Informes, Vendes, etc.
Teníem un magatzem de dades que contenia la informació pertanyent a tots aquests departaments i, aleshores, tenim poques bases de dades construïdes a sobre d’aquest magatzem de dades. Aquests DataMart eren específics per a cada departament. En paraules simples, es pot dir que un DataMart és un subconjunt d’un magatzem de dades.
P # 13) Quins són els diferents tipus de mesures?
Resposta: Tenim tres tipus de mesures, a saber
- Mesures no additives
- Mesures semiadditives
- Mesures additives
Les mesures no additives són aquelles sobre les quals no es pot aplicar cap funció d’agregació. Per exemple, una ràtio o una columna percentual; una bandera o una columna indicadora present en una taula de dades que conté valors com S / N, etc. no és una mesura additiva.
Les mesures semiadditives són les que es poden aplicar algunes (però no totes) funcions d'agregació. Per exemple, taxa de comissió o saldo del compte.
Les mesures additives són aquelles sobre les quals es poden aplicar totes les funcions d’agregació. Per exemple, unitats comprades.
P # 14) Què és una clau substitutòria? En què es diferencia d'una clau primària?
Resposta: La clau substitutòria és un identificador únic o una clau de número de seqüència generada pel sistema que pot actuar com a clau principal. Pot ser una columna o una combinació de columnes. A diferència d'una clau principal, no es recull als camps de dades de l'aplicació existents.
P # 15) És cert que totes les bases de dades haurien d'estar en 3NF?
Resposta: No és obligatori que una base de dades estigui a 3NF. malgrat això , si el vostre propòsit és el manteniment fàcil de les dades, menys redundància i accés eficient, hauríeu d’anar amb una base de dades desnormalitzada.
P # 16) Us heu trobat mai amb l’escenari de relacions recursives? Si és així, com ho vau fer?
Resposta: Es produeix una relació recursiva en el cas en què una entitat està relacionada amb ella mateixa. Sí, m'he trobat amb aquest escenari.
Parlant del domini de la salut, és possible que un proveïdor d’assistència sanitària (per exemple, un metge) sigui pacient de qualsevol altre proveïdor d’assistència sanitària. Perquè , si el propi metge cau malalt i necessita cirurgia, haurà de visitar algun altre metge per obtenir el tractament quirúrgic.
Tan , en aquest cas, l'entitat - proveïdor d'atenció mèdica es relaciona amb ella mateixa. Una clau estrangera del número del proveïdor d’assegurança mèdica haurà de presentar-se al registre de cada membre (pacient).
P # 17) Enumereu alguns dels errors més freqüents trobats durant el modelatge de dades?
Resposta: Pocs errors comuns que es produeixen durant el modelatge de dades són:
- Construint models de dades massius : Els models de dades grans tenen més errors de disseny. Proveu de restringir el vostre model de dades a un màxim de 200 taules.
- Manca de propòsit : Si no sabeu per a què està destinada la vostra solució comercial, és possible que tingueu un model de dades incorrecte. Per tant, tenir claredat sobre el propòsit empresarial és molt important per arribar al model de dades adequat.
- Ús inadequat de claus substitutives : La clau substitutòria no s'ha d'utilitzar innecessàriament. Utilitzeu la clau substitutòria només quan la clau natural no pot complir el propòsit d'una clau primària.
- Desnormalització innecessària : No desnormalitzeu fins que i tret que tingueu una raó empresarial sòlida i clara per fer-ho, ja que la desnormalització crea dades redundants difícils de mantenir.
P # 18) Quin és el nombre de taules filles que es poden crear a partir d'una taula principal única?
programari espia de telèfons mòbils per a Android
Resposta: El nombre de taules filles que es poden crear a partir de la taula principal única és igual al nombre de camps / columnes de la taula principal que no són claus.
P # 19) El proveïdor d’atenció mèdica amaga els detalls de la salut dels empleats al seu empresari. Quin nivell d’amagatall de dades és aquest? Conceptual, física o externa?
Resposta: Aquest és l'escenari d'un nivell extern d'amagatall de dades.
P # 20) Quina és la forma de taula de fets i taula de dimensions?
Resposta: En general, la taula de fets es troba en forma normalitzada i la taula de dimensions en forma desnormalitzada.
P # 21) Quins detalls necessitareu per elaborar un model conceptual en un projecte de domini assistencial?
Resposta: Per a un projecte d’assistència sanitària, els detalls següents serien suficients per dissenyar un model conceptual bàsic
- Diferents categories de productes i plans d'assistència sanitària.
- Tipus de subscripció (grupal o individual).
- Conjunt de proveïdors d’atenció mèdica.
- Visió general del procés de reclamació i facturació.
Q # 22) Tricky one: Si s'aplica una restricció única a una columna, generarà un error si intenteu inserir-hi dos nuls?
Resposta: No, no generarà cap error en aquest cas perquè un valor nul és desigual a un altre valor nul. Per tant, s’inserirà més d’un valor nul a la columna sense cap error.
P # 23) Podeu citar un exemple d'una entitat de subtipus i supertipus?
Resposta: Sí, diguem que tenim aquestes diferents entitats: vehicle, cotxe, bicicleta, cotxe econòmic, cotxe familiar, cotxe esportiu.
Aquí, un vehicle és una entitat de super tipus. El cotxe i la bicicleta són els seus subtipus. A més, els cotxes econòmics, els esportius i els familiars són entitats de subtipus del seu supercar.
Una entitat de super tipus és la que es troba a un nivell superior. Les entitats de subtipus són aquelles que s'agrupen en funció de certes característiques. Per exemple, totes les bicicletes són de dues rodes i tots els cotxes són de quatre rodes. I com que tots dos són vehicles, la seva entitat de tipus super és 'vehicle'.
P # 24) Quina és la importància de les metadades?
Resposta: Les metadades són dades sobre dades. T’indica quin tipus de dades s’emmagatzema realment al sistema, quin és el seu propòsit i per a qui es destina.
Conclusió
- Comprensió pràctica del Modelització de dades El concepte i com s'ajusta a les tasques realitzades per vosaltres és molt necessari per trencar una entrevista de modelització de dades.
- Els temes més freqüents de Modelització de dades l’entrevista és: diferents tipus de models de dades, tipus d’esquemes, tipus de dimensions i normalització.
- Estigueu ben preparats per a preguntes basades en escenaris.
Suggeriria que sempre que respongueu una pregunta a l’entrevistador, és millor que expliqueu la idea a través d’un exemple. Això demostraria que heu treballat en aquesta àrea i que enteneu molt bé el nucli del concepte.
Tot el millor!!