what is etl extract
Aquest tutorial detallat sobre el procés ETL explica els passos i el flux del procés implicats en el procés ETL (extracció, transformació i càrrega) a Data Warehouse:
Aquest tutorial de la sèrie explica: Què és el procés ETL? Extracció de dades, transformació, càrrega, fitxers plans, què és la posada en escena? Cicle ETL, etc.
Comencem!!
=> Consulteu aquí la guia de formació sobre emmagatzematge de dades perfectes.
Què aprendreu:
- Fonaments del procés ETL (Extreure, Transformar, Carregar)
- Conclusió
Fonaments del procés ETL (Extreure, Transformar, Carregar)
Públic objectiu
- Desenvolupadors i provadors de magatzem de dades / ETL.
- Professionals de bases de dades amb coneixements bàsics sobre conceptes de bases de dades.
- Administradors de bases de dades / experts en big data que vulguin entendre les àrees de magatzem de dades / ETL.
- Graduats universitaris / estudiants de primer any que busquen feina en magatzem de dades.
Què és el procés ETL a Data Warehouse?
Tots sabem que Data warehouse és una col·lecció d’enormes volums de dades, per proporcionar informació als usuaris empresarials amb l’ajut d’eines de Business Intelligence.
Per complir aquest propòsit, s'ha de carregar DW a intervals regulars. Les dades del sistema es recopilen d’un o més sistemes operatius, fitxers plans, etc. El procés que porta les dades a DW es coneix com a procés ETL . L’extracció, la transformació i la càrrega són tasques d’ETL.
# 1) Extracció: S'identifiquen i extreuen totes les dades preferides de diversos sistemes d'origen, com ara bases de dades, aplicacions i fitxers plans. L'extracció de dades es pot completar executant feines durant l'horari laboral.
# 2) Transformació: La majoria de les dades extretes no es poden carregar directament al sistema de destinació. Basant-se en les regles empresarials, es poden fer algunes transformacions abans de carregar les dades.
Per exemple, les dades d'una columna de destinació poden esperar que hi hagi dues dades d'origen concatenades com a entrada. De la mateixa manera, pot haver-hi una lògica complexa per a la transformació de dades que necessiti experiència. Algunes dades que no necessiten cap transformació es poden traslladar directament al sistema objectiu.
El procés de transformació també corregeix les dades, elimina les dades incorrectes i corregeix els errors de les dades abans de carregar-les.
# 3) Carregant: Tota la informació recollida es carrega a les taules de Data Warehouse de destinació.
Extracció de dades
L’extracció de dades té un paper important en el disseny d’un sistema DW amb èxit. Els diferents sistemes font poden tenir diferents característiques de les dades, i el procés ETL gestionarà aquestes diferències de manera efectiva mentre extreu les dades.
' Mapa de dades lògiques 'És un document base per a l'extracció de dades. Això mostra quines dades d'origen han d'anar a quina taula de destinació i com els mapes d'origen es mapen als camps de taula de destinació respectius del procés ETL.
A continuació es mostren els passos a realitzar durant el disseny de mapes de dades lògiques:
- Un arquitecte de magatzem de dades dissenya el document del mapa de dades lògiques.
- En fer referència a aquest document, el desenvolupador ETL crearà feines ETL i els verificadors ETL crearan casos de prova.
- En aquest document s’esmentaran totes les fonts de dades específiques i els elements de dades respectius que donen suport a les decisions empresarials. Aquests elements de dades actuaran com a entrades durant el procés d'extracció.
- S’analitzen les dades de tots els sistemes d’origen i es documenta qualsevol tipus d’anomalia de les dades de manera que això ajudi a dissenyar les regles empresarials correctes per deixar d’extreure dades equivocades a DW. Aquestes dades es rebutgen aquí mateix.
- Una vegada que els arquitectes ETL i els analistes empresarials han dissenyat el model de dades final i de destinació final, poden fer un passeig amb els desenvolupadors ETL i els provadors. D’aquesta manera, obtindran una comprensió clara de com s’han de realitzar les regles empresarials en cada fase d’extracció, transformació i càrrega.
- En revisar les regles de mapatge d’aquest document, els arquitectes, desenvolupadors i verificadors d’ETL haurien de comprendre bé com flueixen les dades de cada taula com a dimensions, fets i qualsevol altra taula.
- Aquí també s’esmenta qualsevol tipus de regla o fórmula de manipulació de dades per evitar l’extracció de dades incorrectes. Per exemple, extreu només els darrers 40 dies de dades, etc.
- És responsabilitat de l’equip d’ETL analitzar les dades segons els requisits empresarials, mostrar tots els sistemes font útils, taules i columnes que es carreguin a DW.
El document de mapes de dades lògiques és generalment un full de càlcul que mostra els components següents:
(taula “” no trobada /)Diagrama de flux d'extracció:
Indiqueu amb antelació la finestra de temps per executar els treballs a cada sistema d'origen, de manera que no es perdin les dades d'origen durant el cicle d'extracció.
Amb els passos anteriors, l'extracció aconsegueix l'objectiu de convertir dades de diferents formats de diferents fonts en un sol format DW, cosa que beneficia tots els processos ETL. Aquestes dades col·locades lògicament són més útils per a una millor anàlisi.
Mètodes d'extracció a Data Warehouse
En funció de l'entorn de dades d'origen i de destinació i de les necessitats empresarials, podeu seleccionar el mètode d'extracció adequat per al vostre DW.
# 1) Mètodes d'extracció lògica
L'extracció de dades en un sistema de magatzem de dades pot ser una càrrega completa única que es fa inicialment (o) pot ser càrregues incrementals que es produeixen cada vegada amb actualitzacions constants.
què és una bona aplicació de descàrrega de mp3 per a Android
- Extracció completa: Com el seu propi nom indica, les dades del sistema font s’extreuen completament a la taula de destinació. Cada vegada que aquest tipus d'extracció carrega tota la informació actual del sistema d'origen sense tenir en compte els darrers segells de temps extrets. Preferiblement, podeu utilitzar l'extracció completa per a les càrregues inicials o les taules amb menys dades.
- Extracció incremental: Les dades que s’afegeixin o modifiquin a partir d’una data específica es consideraran per a l’extracció incremental. Aquesta data és específica de l'empresa com a última data extreta (o) última data de comanda, etc. Podem fer referència a una columna de marca de temps de la mateixa taula d'origen (o) es pot crear una taula independent per fer un seguiment només dels detalls de la data d'extracció. La referència a la marca de temps és un mètode significatiu durant l'extracció incremental. Les lògiques sense marca de temps poden fallar si la taula DW té dades grans.
# 2) Mètodes d’extracció física
En funció de les capacitats dels sistemes d’origen i de les limitacions de les dades, els sistemes d’origen poden proporcionar les dades físicament per a l’extracció com a extracció en línia i extracció fora de línia. Això admet qualsevol tipus d'extracció lògica.
- Extracció en línia :: Podem connectar-nos directament a qualsevol base de dades del sistema d'origen amb les cadenes de connexió per extreure dades directament de les taules del sistema d'origen.
- Extracció fora de línia :: Aquí no ens connectarem directament a la base de dades del sistema d'origen, sinó que el sistema d'origen proporciona dades explícitament en una estructura predefinida. Els sistemes d'origen poden proporcionar dades en forma de fitxers plans, fitxers de bolcat, registres d'arxiu i espais de taula.
Les eines ETL són les més adequades per realitzar extraccions de dades complexes, moltes vegades per DW, tot i que són costoses.
Extracció de dades modificades
Un cop finalitzada la càrrega inicial, és important considerar com extreure més les dades que es canvien del sistema d'origen. L'equip de processos ETL hauria de dissenyar un pla sobre com implementar l'extracció de les càrregues inicials i les càrregues incrementals, al començament del propi projecte.
Sobretot, podeu considerar l’estratègia de “Columnes d’auditoria” per a la càrrega incremental per captar els canvis de dades. En general, les taules del sistema d'origen poden contenir columnes d'auditoria, que emmagatzemen el segell de temps de cada inserció (o) modificació.
La marca de temps es pot emplenar desencadenants de bases de dades (o) des de la pròpia aplicació. Heu de garantir la precisió de les dades de les columnes d’auditoria, fins i tot si s’estan carregant per qualsevol mitjà, per no perdre les dades modificades per a càrregues incrementals.
Durant la càrrega incremental, podeu considerar la data i l'hora màximes en què s'ha produït l'última càrrega i extreure totes les dades del sistema d'origen amb el segell de temps superior a l'últim segell de temps de càrrega.
En extreure les dades:
- Utilitzeu les consultes de manera òptima per recuperar només les dades que necessiteu.
- No utilitzeu la clàusula Distinct perquè alenteix el rendiment de les consultes.
- Utilitzeu els operadors SET com Union, Minus, Intersect amb cura perquè degraden el rendiment.
- Utilitzeu paraules clau de comparació com ara, entre, etc. en la clàusula where, en lloc de funcions com substr (), to_char (), etc.
Transformació de dades
La transformació és el procés on s'aplica un conjunt de regles a les dades extretes abans de carregar directament les dades del sistema d'origen al sistema de destinació. Les dades extretes es consideren dades brutes.
El procés de transformació amb un conjunt d’estàndards converteix totes les dades diferents de diversos sistemes font en dades utilitzables al sistema DW. La transformació de dades té com a objectiu la qualitat de les dades. Podeu consultar el document de mapatge de dades per a totes les regles de transformació lògica.
Basant-se en les regles de transformació si les dades d'origen no compleixen les instruccions, aquestes dades d'origen es rebutgen abans de carregar-les al sistema DW de destinació i es col·loquen en un fitxer de rebuig o en una taula de rebuig.
Les regles de transformació no s’especifiquen per a les dades de les columnes de càrrega directa (no necessita cap canvi) de la font a la destinació. Per tant, les transformacions de dades es poden classificar com a senzilles i complexes. Les transformacions de dades poden implicar conversions de columnes, reformat de l'estructura de dades, etc.
A continuació es detallen algunes de les tasques a realitzar durant la transformació de dades:
# 1) Selecció: Podeu seleccionar totes les dades de la taula o un conjunt específic de dades de columnes dels sistemes d'origen. La selecció de dades se sol completar a la pròpia extracció.
Pot haver-hi casos en què el sistema d'origen no permeti seleccionar un conjunt específic de dades de columnes durant la fase d'extracció, després extreure totes les dades i fer la selecció en la fase de transformació.
# 2) Dividir / unir: Podeu manipular les dades seleccionades dividint-les o unint-les. Se us demanarà que dividiu encara més les dades d'origen seleccionades durant la transformació.
Per exemple, si l'adreça sencera s'emmagatzema en un sol camp de text gran del sistema d'origen, el sistema DW pot demanar dividir l'adreça en camps separats com a ciutat, estat, codi postal, etc. Això és fàcil per indexar-los i analitzar-los en funció de cadascun. component individualment.
Mentre que la combinació / fusió de dades de dues o més columnes s’utilitza àmpliament durant la fase de transformació del sistema DW. Això no significa fusionar dos camps en un sol camp.
Per exemple, si la informació sobre una entitat determinada prové de diverses fonts de dades, es pot anomenar reunir la informació com una única entitat com a combinació o combinació de les dades.
# 3) Conversió: Les dades del sistema font extret podrien tenir diferents formats per a cada tipus de dades, per tant, totes les dades extretes haurien de convertir-se en un format estandarditzat durant la fase de transformació. El mateix tipus de format és fàcil d'entendre i fàcil d'utilitzar per a les decisions empresarials.
# 4) Resum: En algunes situacions, DW buscarà dades resumides en lloc de dades detallades de baix nivell dels sistemes font. Com que les dades de baix nivell no són les més adequades per a l'anàlisi i la consulta dels usuaris empresarials.
Per exemple, pot ser que el sistema DW no requereixi dades de vendes per a cada compra, ja que és útil la venda diària de subproductes (o) de la botiga a la botiga. Per tant, es pot realitzar un resum de les dades durant la fase de transformació segons els requisits del negoci.
# 5) Enriquiment: Quan es forma una columna DW combinant una o més columnes de diversos registres, l'enriquiment de dades tornarà a organitzar els camps per a una millor visualització de les dades al sistema DW.
# 6) Revisions de format: Les revisions de format es produeixen amb més freqüència durant la fase de transformació. El tipus de dades i la seva longitud es revisen per a cada columna.
Per exemple, una columna en un sistema font pot ser numèrica i la mateixa columna en un altre sistema font pot ser un text. Per estandarditzar-ho, durant la fase de transformació el tipus de dades d'aquesta columna es canvia a text.
# 7) Descodificació de camps: Quan extreu dades de diversos sistemes d'origen, és possible que les dades de diversos sistemes es descodifiquin de manera diferent.
Per exemple, un sistema d'origen pot representar l'estat del client com AC, IN i SU. Un altre sistema pot representar el mateix estat que 1, 0 i -1.
Durant la fase de transformació de dades, heu de descodificar aquests codis en valors adequats que siguin comprensibles pels usuaris empresarials. Per tant, els codis anteriors es poden canviar a Actiu, Inactiu i Suspès.
# 8) Valors calculats i derivats: En considerar les dades del sistema d'origen, DW pot emmagatzemar dades de columna addicionals per als càlculs. Heu de fer els càlculs basats en la lògica empresarial abans d’emmagatzemar-los a DW.
# 9) Conversió de data i hora: Aquest és un dels tipus de dades clau a concentrar-se. El format de data / hora pot ser diferent en diversos sistemes d'origen.
Per exemple, una font pot emmagatzemar la data fins al 10 de novembre de 1997. Una altra font pot emmagatzemar la mateixa data en format 11/10/1997. Per tant, durant la transformació de dades, tots els valors de data / hora s’han de convertir en un format estàndard.
# 10)-duplication: En cas que el sistema d'origen tingui registres duplicats, assegureu-vos que només es carregui un registre al sistema DW.
Diagrama de flux de transformació:
Com implementar la transformació?
En funció de la complexitat de les transformacions de dades, podeu utilitzar mètodes manuals, eines de transformació (o) combinació d’ambdues que siguin efectives.
# 1) Tècniques manuals
Les tècniques manuals són adequades per a sistemes DW petits. Els analistes i desenvolupadors de dades crearan programes i scripts per transformar les dades manualment. Aquest mètode necessita proves detallades per a cada porció del codi.
El cost de manteniment pot arribar a ser elevat a causa dels canvis que es produeixen a les regles empresarials (o) a causa de les possibilitats d’obtenir errors amb l’augment del volum de dades. Heu de tenir cura de les metadades inicialment i també amb tots els canvis que es produeixin a les regles de transformació.
# 2) Eines de transformació
Si voleu automatitzar la major part del procés de transformació, podeu adoptar les eines de transformació en funció del pressupost i del període de temps disponibles per al projecte. Mentre automatitzeu, haureu de passar temps de bona qualitat per seleccionar les eines, configurar-les, instal·lar-les i integrar-les amb el sistema DW.
La transformació pràcticament completa amb les pròpies eines no és possible sense la intervenció manual. Però les dades transformades per les eines són certament eficients i precises.
Per aconseguir-ho, hauríem d’introduir paràmetres, definicions de dades i regles adequades a l’eina de transformació com a entrada. A partir de les entrades donades, la pròpia eina registrarà les metadades i aquestes metadades s’afegiran a les metadades DW generals.
Si hi ha algun canvi a les regles de negoci, només cal que introduïu aquests canvis a l'eina, la resta de modificacions de transformació les tindrà cura la mateixa eina. Per tant, és eficaç utilitzar una combinació d’ambdós mètodes.
preguntes i respostes d’entrevistes de serveis web tranquil·les per a usuaris experimentats
Càrrega de dades
Les dades extretes i transformades es carreguen a les taules DW objectiu durant la fase de càrrega del procés ETL. L’empresa decideix com ha de passar el procés de càrrega de cada taula.
El procés de càrrega es pot fer de la següent manera:
- Càrrega inicial: Carregant les dades per omplir les taules DW respectives per primera vegada.
- Càrrega incremental: Un cop carregades les taules DW, la resta de canvis en curs s'apliquen periòdicament.
- Actualització completa: Si alguna taula que s’utilitza necessita una actualització, les dades actuals d’aquesta taula s’eliminen completament i es tornen a carregar. La recàrrega és similar a la càrrega inicial.
Mireu l'exemple següent per comprendre millor el procés de càrrega a ETL:
Identificador de producte | nom del producte | Data de venda |
---|---|---|
1 | Llibre de gramàtica | 3 de juny de 2007 |
2 | Marcador | 3 de juny de 2007 |
3 | Bossa posterior | 4 de juny de 2007 |
4 | Cap | 4 de juny de 2007 |
5 | Sabates | 5 de juny de 2007 |
# 1) Durant la càrrega inicial, les dades que es venen el 3rdEl juny de 2007 es carrega a la taula de destinació DW perquè són les dades inicials de la taula anterior.
# 2) Durant la càrrega incremental, hem de carregar les dades que es venen després del 3rdJuny de 2007. Hem de considerar tots els registres amb una data de venda superior a (>) la data anterior del dia següent. Per tant, el 4thJuny de 2007, obteniu tots els discos amb data de venda> 3rdJuny de 2007 mitjançant consultes i carregueu només aquests dos registres de la taula anterior.
El 5thJuny de 2007, obteniu tots els discos amb data de venda> 4thJuny de 2007 i carregueu només un registre de la taula anterior.
# 3) Durant l'actualització completa, totes les dades de la taula anterior es carreguen a les taules DW alhora, independentment de la data de venda.
Les dades carregades s’emmagatzemen a les taules de dades de dimensió (o) respectives. Les dades es poden carregar, afegir o combinar a les taules DW de la següent manera:
# 4) Càrrega: Les dades es carreguen a la taula de destinació si estan buides. Si hi ha algunes dades a la taula, les dades existents s'eliminen i es carreguen amb les dades noves.
Per exemple,
Dades de taula existents
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Revanth | Dirigir |
Bob | Ajudant de direcció |
Ronald | Desenvolupador |
Dades modificades
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Rohan | Director |
Xetà | AVP |
El | Vicepresident |
Dades després de carregar-se
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Rohan | Director |
Xetà | AVP |
El | Vicepresident |
# 5) Afegeix: Add és una extensió de la càrrega anterior ja que funciona en taules ja existents de dades. A les taules de destinació, Append afegeix més dades a les dades existents. Si es troba algun registre duplicat amb les dades d'entrada, es pot afegir com a duplicat (o) es pot rebutjar.
Per exemple,
Dades de taula existents
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Revanth | Dirigir |
Dades modificades
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Rohan | Director |
Xetà | AVP |
El | Vicepresident |
Dades després d’afegir-les
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Revanth | Dirigir |
Rohan | Director |
Xetà | AVP |
El | Vicepresident |
# 6) Combinació destructiva: Aquí es comparen les dades entrants amb les dades objectiu existents en funció de la clau principal. Si hi ha coincidències, s'actualitza el registre objectiu existent. Si no es troba cap coincidència, s'insereix un registre nou a la taula de destinació.
Per exemple,
Dades de taula existents
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Revanth | Dirigir |
Dades modificades
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Revanth | Director |
Xetà | AVP |
El | Vicepresident |
Dades després de la fusió constructiva
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Revanth | Director |
Xetà | AVP |
El | Vicepresident |
# 7) Constructiu: A diferència de la combinació destructiva, si hi ha una coincidència amb el registre existent, deixa el registre existent tal com està i insereix el registre entrant i el marca com a dades més recents (marca de temps) respecte a la clau principal.
Per exemple,
Dades de taula existents
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Revanth | Dirigir |
Dades modificades
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Revanth | Director |
Xetà | AVP |
El | Vicepresident |
Dades després de la fusió constructiva
nom d'empleat | Paper |
---|---|
Joan | Gerent |
Revanth | Director *** |
Revanth | Dirigir |
Xetà | AVP |
El | Vicepresident |
Tècnicament, actualitzar és més fàcil que actualitzar les dades. L'actualització necessita una estratègia especial per extreure només els canvis específics i aplicar-los al sistema DW, mentre que Refresh només substitueix les dades. Però actualitzar les dades triga més temps en funció dels volums de dades.
Si teniu aquests treballs d'actualització diaris, és possible que hàgiu de baixar el sistema DW per carregar les dades. En lloc de fer caure tot el sistema DW per carregar dades cada vegada, podeu dividir i carregar dades en forma de pocs fitxers.
Anoteu el temps d'execució de cada càrrega mentre feu la prova. Si cap dada no es pot carregar al sistema DW a causa de desajustaments de claus, etc., doneu-los la manera de gestionar aquest tipus de dades. Assegureu-vos que les dades carregades es comproven a fons.
Carregant el diagrama de flux:
Fitxers plans
Els fitxers plans s’utilitzen àmpliament per intercanviar dades entre sistemes heterogenis, des de diferents sistemes operatius font i des de diferents sistemes de bases de dades font fins a aplicacions de magatzem de dades. Els fitxers plans són també més eficients i fàcils de gestionar per a sistemes homogenis.
Els fitxers plans s’utilitzen principalment per als propòsits següents:
# 1) Lliurament de dades d'origen: Pot haver-hi pocs sistemes font que no permetin als usuaris de DW accedir a les seves bases de dades per motius de seguretat. En aquests casos, les dades es lliuren mitjançant fitxers plans.
De la mateixa manera, les dades provenen de proveïdors externs o sistemes mainframes essencialment en forma de fitxers plans, que seran FTP’d pels usuaris d’ETL.
# 2) Taules de treball / posada en escena: El procés ETL crea taules de prova per a la seva finalitat interna. L’associació de taules de prova amb fitxers plans és molt més fàcil que el SGBD perquè les lectures i escriptures en un sistema de fitxers són més ràpides que la inserció i la consulta d’una base de dades.
# 3) Preparació per a càrregues massives: Un cop fets els processos d'extracció i transformació, si l'eina ETL no admet la càrrega massiva in-stream (o) Si voleu arxivar les dades, podeu crear un fitxer pla. Aquest processador llegeix aquestes dades de fitxer pla i les carrega al sistema DW.
Els fitxers plans es poden crear de dues maneres, com ara 'Fitxers plans de longitud fixa' i 'Fitxers plans delimitats'. Els programadors que treballen per al sistema font poden crear fitxers plans.
Vegem com processem aquests fitxers plans:
Processant fitxers plans de longitud fixa
En general, els fitxers plans tenen columnes de longitud fixa, de manera que també s’anomenen fitxers plans posicionals. A continuació es mostra el disseny d’un fitxer pla que mostra els camps exactes i les seves posicions en un fitxer.
Nom del camp | Llargada | Començar | Final | Tipus | Comentaris |
---|---|---|---|---|---|
Nom | 10 | 1 | 10 | Text | Nom del client |
Segon nom | 5 | 11 | 15 | Text | Nom mitjà del client |
Cognom | 10 | 16 | 25 | Text | Cognom del client |
El disseny conté el fitxer nom del camp, longitud, posició inicial en què comença el caràcter de camp, la posició final en què acaba el caràcter de camp, el tipus de dades com a text, numèric, etc. i, si n'hi ha, comentaris.
Depenent de les posicions de les dades, l'equip de proves ETL validarà la precisió de les dades en un fitxer pla de longitud fixa.
Processant fitxers plans delimitats
Als fitxers plans delimitats, cada camp de dades està separat per delimitadors. Aquest delimitador indica la posició inicial i final de cada camp. En general, s’utilitza una coma com a delimitador, però podeu utilitzar qualsevol altre símbol o un conjunt de símbols.
Els fitxers delimitats poden tenir extensió .CSV (o). Extensió TXT (o) sense extensió. Els desenvolupadors que creen els fitxers ETL indicaran el símbol delimitador real per processar aquest fitxer. Al disseny del fitxer delimitat, la primera fila pot representar els noms de les columnes.
Igual que els fitxers plans posicionals, l'equip de proves ETL validarà explícitament la precisió de les dades del fitxer pla delimitat.
Propòsit de la zona d’escenificació
L’objectiu principal de l’àrea de prova és emmagatzemar dades temporalment per al procés ETL. La zona de posada en escena es coneix com la sala posterior del sistema DW. L’arquitecte ETL decideix si emmagatzemar dades a la zona d’intervenció o no.
La posada en funcionament ajudarà a obtenir les dades dels sistemes d’origen molt ràpidament. Al mateix temps, en cas que falla el sistema DW, no cal que torneu a iniciar el procés mitjançant la recopilació de dades dels sistemes d'origen si ja hi ha dades de prova.
Després del procés d’extracció de dades, a continuació, es detallen els motius per organitzar les dades al sistema DW:
# 1) Recuperabilitat: Les taules d'emmagatzematge progressiu s'emmagatzemaran a la mateixa base de dades DW (o) es poden moure als sistemes de fitxers i es poden emmagatzemar per separat. En algun moment, les dades de prova poden actuar com a dades de recuperació si falla qualsevol pas de transformació o de càrrega.
Pot haver-hi probabilitats que el sistema font hagi sobreescrit les dades utilitzades per ETL, de manera que mantenir les dades extretes en fase de prova ens ajudarà a qualsevol referència.
# 2) Còpia de seguretat: És difícil recuperar un volum enorme de taules de bases de dades DW. Però les còpies de seguretat són imprescindibles per a qualsevol recuperació de desastres. Per tant, si teniu les dades de prova que s’extreuen, podeu executar els treballs per transformar-los i carregar-los, de manera que es poden tornar a carregar les dades bloquejades.
Per fer una còpia de seguretat de les dades de prova, sovint podeu moure les dades de prova a sistemes de fitxers de manera que sigui fàcil de comprimir i emmagatzemar a la xarxa. Sempre que sigui necessari, només heu de descomprimir fitxers, carregueu-los a les taules de prova i executeu les tasques per tornar a carregar les taules DW.
# 3) Auditoria: De vegades, es pot fer una auditoria al sistema ETL per comprovar el vincle de dades entre el sistema origen i el sistema objectiu. Els auditors poden validar les dades d'entrada originals en comparació amb les dades de sortida en funció de les regles de transformació.
Les dades de prova i la seva còpia de seguretat són molt útils fins i tot si el sistema d’origen té o no les dades disponibles. Com que l'auditoria pot passar en qualsevol moment i en qualsevol període de les dades actuals (o) anteriors. L'arquitectura de la zona de posada en escena hauria d'estar ben planificada.
Disseny de l’espai escènic
Al magatzem de dades, les dades de l'àrea de prova es poden dissenyar de la manera següent:
Amb cada nova càrrega de dades a les taules de prova, les dades existents es poden suprimir (o) mantenir com a dades històriques com a referència. Si se suprimeixen les dades, s'anomena 'àrea de transició temporal'.
Si les dades es mantenen com a historial, es denomina 'àrea de permanència permanent'. També podeu dissenyar una àrea de posada en escena amb una combinació dels dos tipus anteriors que és 'Híbrida'.
A continuació, es detallen les regles bàsiques que s’han de conèixer durant el disseny de l’àrea de prova:
- Només l’equip ETL hauria de tenir accés a l’àrea de distribució de dades. La consulta de dades de prova està restringida a altres usuaris.
- L'arquitecte de dades ETL pot afegir, modificar o eliminar les taules de l'àrea de prova sense implicar cap altre usuari. Com que l'àrea de prova no és una àrea de presentació per generar informes, només actua com a banc de treball.
- L'arquitecte ETL hauria d'estimar la mesura d'emmagatzematge de dades de l'àrea de prova per proporcionar la informació als administradors de DBA i SO. Els administradors assignaran espai per a la distribució de bases de dades, sistemes de fitxers, directoris, etc.
Si l'àrea de prova i la base de dades DW utilitzen el mateix servidor, podeu moure fàcilment les dades al sistema DW. Si els servidors són diferents, utilitzeu enllaços de base de dades FTP (o).
Flux de processos ETL
Un cicle ETL estàndard passarà pels següents passos del procés:
- Inicieu el cicle ETL per executar tasques en seqüència.
- Assegureu-vos que totes les metadades estiguin a punt.
- El cicle ETL ajuda a extreure les dades de diverses fonts.
- Valideu les dades extretes.
- Si s’utilitzen taules de posicionament, el cicle ETL carrega les dades a la posició en posició.
- ETL realitza transformacions aplicant regles de negoci, creant agregats, etc.
- Si hi ha errors, el cicle ETL ho farà notar en forma d'informes.
- A continuació, el cicle ETL carrega les dades a les taules de destinació.
- Les dades anteriors que cal emmagatzemar com a referència històrica s’arxiven.
- La resta de dades que no cal emmagatzemar es netegen.
Diagrama de flux de processos ETL:
Conclusió
En aquest tutorial, hem après sobre els conceptes principals del procés ETL a Data Warehouse. A hores d'ara, hauríeu de ser capaços d'entendre què és l'extracció de dades, la transformació de dades, la càrrega de dades i el flux de processos ETL.
Llegiu el proper tutorial per obtenir més informació sobre les proves de magatzem de dades.
=> Visiteu aquí la sèrie exclusiva d’emmagatzematge de dades.
Lectura recomanada
- Tutorial de proves de magatzem de dades amb exemples | Guia de proves ETL
- 10 millors eines de mapatge de dades útils en el procés ETL (LLISTA 2021)
- Tutorial de proves de magatzem de dades de proves ETL (una guia completa)
- Mineria de dades: procés, tècniques i grans qüestions en l’anàlisi de dades
- Procés de mineria de dades: models, passos de procés i reptes implicats
- Preguntes i respostes d’entrevistes de proves ETL
- Top 10 d'eines de proves ETL el 2021
- Top 10 de les eines i tecnologies de proves més populars del magatzem de dades