metadata data warehouse explained with examples
Aquest tutorial explica el paper de les metadades a ETL, exemples i tipus de metadades, dipòsit de metadades i reptes en la gestió de metadades:
Data Mart a ETL es va explicar amb detall al nostre tutorial anterior.
El concepte de metadades és molt important a ETL i aquest tutorial explicarà tot sobre les metadades.
Cobreix el paper de les metadades, exemples de metadades, així com els seus tipus, dipòsit de metadades, com es poden gestionar les metadades d’emmagatzematge de dades, reptes per a la gestió de metadades.
També coneixereu què és l’ETL basat en metadades i la diferència entre dades i metadades.
=> Llegiu aquí la sèrie de formació gratuïta sobre magatzem de dades.
Públic objectiu
- Desenvolupadors i provadors de magatzem de dades / ETL.
- Professionals de bases de dades amb coneixements bàsics sobre conceptes de bases de dades.
- Administradors de bases de dades / experts en big data que vulguin entendre les àrees de magatzem de dades / ETL.
- Llicenciats / perfeccionats que busquen feina en magatzem de dades.
Què aprendreu:
Preguntes sobre entrevistes sql per a persones amb experiència
Metadades a ETL
Els usuaris de l'equip de magatzem de dades (o) poden utilitzar metadades en diverses situacions per construir, mantenir i gestionar el sistema. La definició bàsica de metadades al magatzem de dades és: 'Són dades sobre dades' .
Les metadades poden contenir tota mena d’informació sobre dades de DW, com ara:
- Font de les dades extretes.
- Ús d’aquestes dades DW.
- Qualsevol tipus de dades i els seus valors.
- Característiques de les dades.
- Lògica de transformació de dades extretes.
- Taules DW i els seus atributs.
- Objectes DW
- Marques de temps
Les metadades actuen com una taula de contingut de les dades del sistema DW, que mostra la tècnica amb més detalls sobre aquestes dades. En paraules simples, es pot pensar en un índex de qualsevol llibre que faci de metadades per al contingut d’aquest llibre.
De la mateixa manera, les metadades funcionen com a índex del contingut DW. Totes aquestes metadades s’emmagatzemen en un dipòsit. En passar per metadades, els usuaris finals saben des d’on poden començar a analitzar el sistema DW. Altrament, és difícil que els usuaris finals sàpiguen per on començar l’anàlisi de dades en un sistema DW tan enorme.
Paper de les metadades al magatzem de dades
Els primers dies, les metadades es creaven i es mantenien com a documents. Però, en el món digital actual, diverses eines han facilitat aquesta tasca mitjançant la gravació de metadades a cada nivell del procés DW.
Les metadades creades per una eina es poden estandarditzar (és a dir, les dades es poden incorporar a un format únic) i es poden reutilitzar a través de les altres eines a qualsevol lloc del sistema DW.
Com que som conscients que els sistemes operatius mantenen les dades actuals, els sistemes DW mantenen les dades històriques i actuals.
Les metadades han de fer un seguiment de tots els canvis que es produeixen en els sistemes font, en els mètodes d’extracció / transformació de dades i en l’estructura (o) contingut de les dades que sorgiran en aquest procés. Les metadades mantindran diverses versions per fer un seguiment de tots aquests canvis al llarg de diversos anys.
Les metadades suficients proporcionades al dipòsit ajudaran qualsevol usuari a analitzar el sistema de manera més eficient i independent. En entendre les metadades, podeu executar qualsevol tipus de consulta a les dades de DW per obtenir els millors resultats.
Representació pictòrica del paper de les metadades:
Exemples de metadades en termes simples
A continuació es detallen alguns exemples de metadades.
- Les metadades d’una pàgina web poden contenir l’idioma en què es codifica, les eines que s’utilitzen per crear-la, donar suport als navegadors, etc.
- Les metadades d’una imatge digital poden contenir la mida de la imatge, la resolució, la intensitat del color, la data de creació de la imatge, etc.
- Les metadades d’un document poden contenir la data de creació del document, la data de la darrera modificació, la mida, l’autor, la descripció, etc.
Comparació entre dades i meta dades
S.No | Dades | Metadades |
---|---|---|
1 | Les dades són un conjunt d’informació. | Les metadades són informació sobre dades. |
2 | Es poden (o) no processar dades. | Les metadades sempre són dades processades. |
Tipus de metadades
La classificació de les metadades en diversos tipus ens ajudarà a entendre-les millor. Aquesta classificació es pot basar en el seu ús (o) dels usuaris, etc.
A continuació, expliquem els diferents tipus de metadades:
# 1) Metadades de la cambra posterior: Dirigeix els DBA (o) els usuaris finals als processos d’extracció, neteja i càrrega.
# 2) Metadades de la sala frontal: Dirigeix els usuaris finals a treballar amb informes i eines de BI.
# 3) Processar metadades: Emmagatzema les metadades del procés ETL, com ara el nombre de files carregades, rebutjades, processades i el temps de càrrega en un sistema DW, etc. Aquesta informació també pot ser accessible per als usuaris finals.
Al mateix temps, les estadístiques de les taules de prova també són importants per a l’equip d’ETL. Aquestes metadades emmagatzemaran les dades del procés de les taules de prova, com ara el nombre de files carregades, rebutjades, processades i el temps necessari per carregar-se a cada taula de prova.
# 4) Llinatge de dades: Emmagatzema la transformació lògica de cada element del sistema font a l'element de destinació DW.
# 5) Definicions empresarials: El context de les taules DW s’ha derivat de les definicions empresarials. Tots els atributs d’una taula s’associen a una definició de negoci. Per tant, s'han d'emmagatzemar com a metadades (o) qualsevol altre document per a futures consultes. Tant els usuaris finals com l'equip ETL depenen d'aquestes definicions empresarials.
# 6) Definicions tècniques: Les definicions tècniques s’utilitzen exclusivament a l’àrea de distribució de dades més que les definicions empresarials. L’objectiu principal és reduir l’ambigüitat mentre es creen taules de prova i reutilitzar les taules existents. Les definicions tècniques emmagatzemaran els detalls de cada taula de fases, com ara la seva ubicació i estructura.
Aquí es documenta tècnicament cada taula de prova, si no es documenta, significa que la taula de prova no existeix. Això evita la recreació de la mateixa taula de posada en escena.
# 7) Metadades empresarials: Les dades s’emmagatzemaran en termes empresarials per al benefici dels usuaris finals / analistes / gestors / usuaris. Les metadades empresarials són proxy de les dades del sistema d’origen, és a dir, no s’hi farà cap manipulació. Es pot derivar de qualsevol document empresarial i regles empresarials.
# 8) Metadades tècniques: S'emmagatzemaran dades tècniques com ara atributs de taules, els seus tipus de dades, mida, atributs de clau primària, atributs de clau externa i qualsevol índex. Això està més estructurat en comparació amb les metadades empresarials.
el millor anti spyware gratuït de Windows 10
Les metadades tècniques estan destinades principalment a que l'equip de DW, com ara desenvolupadors / verificadors / analistes / DBA, construeixi o mantingui el sistema. Això també és utilitzat significativament pels administradors per supervisar les càrregues de les bases de dades i les còpies de seguretat de dades, etc.
# 9) Metadades operatives: Com sabem, les dades del sistema DW provenen de molts sistemes operatius amb diversos tipus de dades i camps. Els extractes DW transformen aquestes dades en el tipus únic i carreguen totes aquestes dades al sistema.
Al mateix temps, ha de poder vincular les dades a les dades del sistema d'origen. Les metadades que emmagatzemen tota aquesta informació de fonts de dades operatives es coneixen com a metadades operatives.
# 10) Informació del sistema d'origen:
Podeu recollir les metadades següents de diversos sistemes font:
- Sistema de fitxers de base de dades (o): D’aquesta manera s’emmagatzemaran els noms de fitxers o bases de dades del sistema font.
- Especificacions de la taula: Això emmagatzemarà tots els detalls sobre taules com ara el nom de la taula, el seu propòsit, mida, atributs, claus primàries i claus externes.
- Regles de tractament d'excepcions: D’aquesta manera s’emmagatzemaran diferents mètodes de recuperació del sistema en cas d’errors del sistema.
- Definicions empresarials: D’aquesta manera s’emmagatzemaran definicions empresarials per obtenir una comprensió breu de les dades.
- Normes empresarials: Això emmagatzemarà un conjunt de regles perquè cada taula entengui les seves dades i eviti inconsistències.
Les metadades del sistema font estalvien molt temps a l’equip de DW mentre analitzen les dades.
# 11) Metadades de treball ETL: Les metadades de treballs ETL són molt importants, ja que emmagatzemen els detalls de tots els treballs a processar a la programació, per carregar el sistema ETL.
Aquestes metadades emmagatzemen la informació següent:
- Nom del treball: Nom del treball ETL.
- Finalitat de la feina: El propòsit d’executar el treball.
- Taules / fitxers d'origen: Proporciona els noms i la ubicació de totes les taules i fitxers dels quals provenen les dades d’aquest treball ETL. Això pot tenir més d'un nom de fitxer de taula (o).
- Taules / fitxers objectiu: Proporciona els noms i la ubicació de totes les taules i fitxers als quals les dades s'estan transformant mitjançant aquest treball ETL. Això pot tenir més d'un nom de fitxer de taula (o).
- Dades rebutjades: Proporciona els noms i la ubicació de totes les taules i fitxers des dels quals no s'han carregat a la destinació les dades d'origen previstes.
- Processos previs: Proporciona els treballs (o) noms d'escriptura dels quals depèn la feina actual. Significa que s'han d'executar correctament abans d'executar el treball actual.
- Post processos: Proporciona els treballs (o) els noms dels scripts que s’han d’executar immediatament després del treball actual per completar el procés.
- Freqüència: Proporciona informació sobre la freqüència amb què s’ha d’executar la feina, és a dir, diàriament, setmanalment (o) mensualment.
# 12) Metadades de transformació: Les metadades de transformació emmagatzemen tota la informació de construcció relacionada amb el procés ETL. Cada manipulació de dades en el procés ETL es coneix com transformació de dades.
Qualsevol conjunt de funcions, procediments emmagatzemats, cursors, variables i bucles del procés ETL es poden considerar transformacions. Però aquestes transformacions no es poden documentar per separat com a metadades.
com utilitzar assert en selenium webdriver
Tot el procés ETL es basa en transformacions de dades. Poques transformacions en ETL es poden predefinir i utilitzar a tot el sistema DW. Els desenvolupadors d'ETL dediquen el seu temps a construir (o) tornar a processar totes les transformacions de dades. Reutilitzar les transformacions predefinides durant el desenvolupament del procés ETL accelerarà el treball.
Llegiu les transformacions de dades següents que podeu trobar a ETL:
- Extraccions de dades d'origen: Això implica transformacions de dades per llegir-les a partir de dades del sistema d'origen, com ara una consulta SQL Select (o) FTP (o) llegir dades XML / mainframe.
- Generadors de claus substituts: El nou número de seqüència que s'hauria de generar per a cada fila de la taula de base de dades s'emmagatzema com a metadades.
- Cerques: Les cerques es poden formar amb totes les instruccions IN, combinacions interiors i combinacions externes. S’utilitzen principalment per mantenir les claus substitutives de totes les taules de dimensions respectives mentre es carrega un fet.
- Filtres: Es recomanen els filtres per ordenar les dades que s'han d'extreure, carregar i rebutjar en el procés ETL. Una bona pràctica és filtrar les dades en les primeres etapes del sistema ETL. Els filtres s'apliquen en funció de les restriccions o regles empresarials.
- Agregats: Depenent del nivell de granularitat de les dades, es poden utilitzar les metadades relacionades amb les funcions agregades, com ara suma, recompte, mitjana, etc.
- Estratègies d'actualització: Aquestes són les regles aplicades a un registre mentre s’actualitzen les dades. Si hi ha alguna modificació a les dades existents, això indicarà si s'hauria d'afegir, suprimir (o) actualitzar un registre.
- Carregador de destinacions: El carregador de destinacions emmagatzemarà els detalls de la base de dades, els noms de les taules i els noms de columnes en què s'han de carregar les dades mitjançant el procés ETL. A més, també emmagatzemarà els detalls de la utilitat de càrrega massiva, si n'hi ha, que es realitza mentre es carreguen dades al sistema ETL.
Totes les transformacions es poden anomenar distintivament amb una breu nota sobre el seu propòsit.
Alguns exemples de convencions de noms s’inclouen aquí per a la llista de transformacions anterior.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Dipòsit de metadades a ETL
Un dipòsit de metadades és un lloc on s’emmagatzema qualsevol tipus de metadades en una base de dades local (o) en una base de dades virtual. Cada tipus de metadades, com ara metadades empresarials (o) metadades tècniques, es poden separar lògicament en un dipòsit.
A més dels dos tipus anteriors, el dipòsit també té un component més anomenat Navegador d'informació.
El navegador d'informació es pot utilitzar per realitzar les tasques següents:
- Eina d'interfície des de la consulta: Això proporciona una interfície per a les eines de consulta per accedir a metadades DW.
- Per a més detalls: Això permet a l'usuari analitzar les metadades per obtenir informació més detallada. Com a exemple, al primer nivell, l'usuari pot obtenir una definició de taula de dades. En aprofundir, pot obtenir els atributs de la taula al següent nivell. En analitzar les dades més, pot obtenir els detalls de cada atribut, etc.
- Reviseu informes i consultes predefinits: Això permet a l'usuari revisar consultes i informes predefinits. Això fa de referència per emmarcar consultes per si mateix amb paràmetres adequats, etc.
Representació pictòrica del dipòsit de metadades:
Com es poden gestionar les metadades d’emmagatzematge de dades?
Les persones, els processos i les eines són les fonts clau per gestionar les metadades.
- La gent hauria d’entendre les metadades per fer-ne un ús adequat.
- El procés incorporarà metadades al dipòsit d'eines (o) amb el progrés del cicle de vida de DW per al seu ús futur.
- Després, les metadades es poden gestionar mitjançant eines.
Reptes per a la gestió de metadades
Un cop creades les metadades, és possible que hàgiu d’afrontar els reptes següents tot integrant i gestionant les metadades al sistema.
- La incorporació de diversos formats de metadades a un format estàndard pot requerir més esforç si s’utilitzen diverses eines al sistema DW, ja que les metadades es poden emmagatzemar en fulls de càlcul, aplicacions (o) bases de dades.
- Els formats de metadades no tenen cap estàndard establert a tota la indústria. Amb aquesta manca de procés estandarditzat, és difícil passar metadades a través de diversos nivells del sistema i eines DW.
- Mantenir constants diverses versions de metadades històriques és una tasca complexa.
Què és l'ETL basat en metadades?
ETL impulsat per metadades estableix una capa per simplificar el procés de càrrega de dades en un sistema DW. Podeu decidir si processeu les dades al sistema (o) en funció de les metadades. Per tant, es pot anomenar ETL basat en metadades.
Conclusió
En aquest tutorial s’explica detalladament el paper significatiu de les metadades a l’hora de determinar l’èxit (o) l’error d’un sistema DW.
També vam explorar detalladament el significat, el paper, els exemples, els tipus i els desafiaments de les metadades juntament amb la representació pictòrica en qüestió.
Esperem que aquests tutorials informatius d'aquesta sèrie Data Warehouse enriqueixin el vostre coneixement sobre Data Warehousing i conceptes relacionats.
Bona lectura !!
=> Visiteu aquí per aprendre l’emmagatzematge de dades des de zero.
Lectura recomanada
- Tutorial de proves de magatzem de dades amb exemples | Guia de proves ETL
- Tutorial de proves de magatzem de dades de proves ETL (una guia completa)
- Model de dades dimensionals a Data Warehouse: tutorial amb exemples
- Tutorial de Data Mart: tipus, exemples i implementació de Data Mart
- Què és el procés ETL (extracció, transformació, càrrega) a Data Warehouse?
- 10 millors eines de mapatge de dades útils en el procés ETL [LLISTA 2021]
- Exemples de mineria de dades: aplicacions més habituals de mineria de dades 2021
- Preguntes i respostes d’entrevistes de proves ETL