data mart tutorial types
Aquest tutorial explica els conceptes de Data Mart, incloent la implementació, els tipus, l'estructura de Data Mart, així com les diferències entre Data Warehouse i Data Mart:
En aquest Sèrie completa de formació sobre magatzem de dades , vam fer una ullada als diversos Esquemes de magatzem de dades en detall.
Aquest tutorial us ajudarà a aprendre detalladament els conceptes de Data Mart juntament amb exemples senzills.
Veurem Què és un Data Mart? Quan necessitem un mart de dades? Data marting econòmic, Cost d'un data mart, Tipus de data marts, Passos per implementar un data mart, Estructura d'un data mart, Quan és útil un Data Mart pilot? Inconvenients de Datamart i les diferències entre Data Warehouse i Data Mart.
Públic objectiu
- Desenvolupadors i provadors de magatzem de dades / ETL.
- Professionals de bases de dades amb coneixements bàsics sobre conceptes de bases de dades.
- Administradors de bases de dades / experts en grans dades que volen entendre els conceptes de magatzem de dades / ETL.
- Graduats universitaris / estudiants de primer any que busquen feina en magatzem de dades.
Què aprendreu:
- Què és un Data Mart?
- Comparació de Data Warehouse contra Data Mart
- Tipus de Data Marts
- Passos d'implementació d'un Data Mart
- Estructura d'un Data Mart
- Quan és útil un Data Pilot Mart?
- Inconvenients de Data Mart
- Conclusió
Què és un Data Mart?
Un Data Mart és una petita part del magatzem de dades que es relaciona principalment amb un domini empresarial concret, com ara màrqueting (o) vendes, etc.
Les dades emmagatzemades al sistema DW són enormes, per tant, les dades de dades estan dissenyades amb un subconjunt de dades que pertany a departaments individuals. Així, un grup específic d’usuaris pot utilitzar aquestes dades fàcilment per analitzar-les.
A diferència d’un magatzem de dades que té moltes combinacions d’usuaris, cada data mart tindrà un conjunt concret d’usuaris finals. El menor nombre d’usuaris finals resulta en un millor temps de resposta.
Les dades de dades també són accessibles a les eines d’intel·ligència empresarial (BI). Les dades de dades no contenen dades duplicades (o) no utilitzades. S’actualitzen a intervals regulars. Són bases de dades flexibles i orientades a temes. Cada equip té el dret de desenvolupar i mantenir els seus data marts sense modificar les dades de data warehouse (o) d’altres data mart.
Un Data Mart és més adequat per a petites empreses, ja que costa molt menys que un sistema de magatzem de dades. El temps necessari per construir un Data Mart és també inferior al temps necessari per construir un magatzem de dades.
Representació pictòrica de diversos Data Marts:
llista d’empreses que utilitzen computació en núvol
Quan necessitem Data Mart?
Basant-se en la necessitat, planifiqueu i dissenyeu un data mart per al vostre departament, involucrant els grups d'interès perquè el cost operatiu del data mart pot ser elevat algunes vegades.
Penseu en els motius següents per crear un Data Mart:
- Si voleu particionar les dades amb un conjunt d'estratègies de control d'accés de l'usuari.
- Si un departament en concret vol veure els resultats de la consulta molt més ràpidament en lloc d’escanejar enormes dades DW.
- Si un departament vol que es construeixin dades en altres plataformes de programari de maquinari (o).
- Si un departament vol que les dades es dissenyin de manera adequada a les seves eines.
Data Mart rendible
Es pot crear un Data Mart rendible mitjançant els passos següents:
millors programes d’espionatge per a mòbils
- Identifiqueu les fraccions funcionals: Dividiu les dades de l’organització en dades específiques de cada data mart (departamentals) per complir el seu requisit, sense cap més dependència organitzativa.
- Identifiqueu els requisits de l'eina d'accés a l'usuari: Pot haver-hi diferents eines d’accés d’usuaris al mercat que necessitin estructures de dades diferents. Les dades de dades s’utilitzen per donar suport a totes aquestes estructures internes sense molestar les dades DW. Un Data Mart es pot associar a una eina segons les necessitats de l'usuari. Data Marts també pot proporcionar dades actualitzades a aquestes eines diàriament.
- Identifiqueu problemes de control d'accés: Si diferents segments de dades en un sistema DW necessiten privadesa i un conjunt d’usuaris autoritzats haurien d’accedir a aquestes dades, es poden traslladar a aquestes dades.
Cost de dades Mart
El cost de data mart es pot estimar de la següent manera:
- Cost de maquinari i programari: Qualsevol data mart afegit recentment pot necessitar maquinari, programari, potència de processament, xarxa i espai d'emmagatzematge de disc addicionals per treballar en les consultes sol·licitades pels usuaris finals. Això fa que la transmissió de dades sigui una estratègia cara. Per tant, el pressupost s’hauria de planificar amb precisió.
- Accés a la xarxa: Si la ubicació del data mart és diferent de la del magatzem de dades, totes les dades s’han de transferir amb el procés de càrrega de data mart. Per tant, s'hauria de proporcionar una xarxa per transferir grans volums de dades que poden resultar costosos.
- Restriccions de la finestra temporal: El temps necessari per al procés de càrrega de dades dependrà de diversos factors, com ara la complexitat i els volums de dades, la capacitat de la xarxa, els mecanismes de transferència de dades, etc.
Comparació de Data Warehouse contra Data Mart
S.No | Magatzem de dades | Data Mart |
---|---|---|
1 | Complex i costa més d’implementar. | Simple i més barat d'implementar. |
2 | Funciona a nivell d'organització per a tot el negoci. | L’abast es limita a un departament concret. |
3 | La consulta de DW és difícil per als usuaris empresarials a causa de les enormes dependències de dades. | Consultar el Data Mart és fàcil per als usuaris empresarials a causa de les dades limitades. |
4 | El temps d’implementació és més gran en mesos o anys. | El temps d’implementació és inferior pot ser en dies, setmanes o mesos. |
5 | Recopila dades de diversos sistemes de fonts externes. | Recopila dades d'alguns sistemes d'origen interns (o) externs (o) DW centralitzats. |
6 | Es poden prendre decisions estratègiques. | Es poden prendre decisions empresarials. |
Tipus de Data Marts
Les dades de dades es classifiquen en tres tipus: dependents, independents i híbrids. Aquesta classificació es basa en com s'han poblat, és a dir, des d'un magatzem de dades (o) des de qualsevol altra font de dades.
L’extracció, transformació i transport (ETT) és el procés que s’utilitza per omplir les dades de data mart de qualsevol sistema font.
Fem una ullada a cada tipus en detall !!
# 1) Dependent Data Mart
En un data mart dependent, les dades s’obtenen des del mateix magatzem de dades existent. Es tracta d’un enfocament de dalt a baix perquè la part de les dades reestructurades al data mart s’extreu del magatzem de dades centralitzat.
Un Data Mart pot utilitzar dades DW de forma lògica o física, tal com es mostra a continuació:
- Vista lògica: En aquest escenari, les dades de Data Mart no estan físicament separades de la DW. Es refereix a dades DW a través de visualitzacions virtuals (o) taules de forma lògica.
- Subconjunt físic: En aquest escenari, les dades de Data Mart estan físicament separades de la DW.
Un cop desenvolupats un o més data marts, podeu permetre als usuaris accedir només als data marts (o) per accedir tant a Data Marts com a Data Warehouse.
ETT és un procés simplificat en el cas de dades dependents, ja que les dades utilitzables ja existeixen al DW centralitzat. El conjunt precís de dades resumides només s’ha de traslladar als documents de dades respectius.
A continuació es mostra una imatge de Dependent Data Mart :
# 2) Data Mart independent
Un Data Mart independent és el més adequat per a departaments petits d'una organització. Aquí les dades no s’obtenen del magatzem de dades existent. El Data Mart independent no depèn ni de DW empresarial ni d'altres dades.
Els data marts independents són sistemes independents on les dades s’extreuen, es transformen i es carreguen de fonts de dades internes (o) externes. Aquests són fàcils de dissenyar i mantenir fins que donin suport a necessitats empresarials senzilles.
Heu de treballar amb cada fase del procés ETT en cas de processos de dades independents d'una manera similar a la manera com les dades s'han processat en DW centralitzat. Tanmateix, el nombre de fonts i de dades poblades als data marts pot ser menor.
Representació pictòrica d'un Data Mart independent :
# 3) Data Mart híbrid
En un data mart híbrid, les dades s’integren tant des del DW com des d’altres sistemes operatius. Les dades de dades híbrides són flexibles amb grans estructures d’emmagatzematge. També pot fer referència a altres dades de data marts.
Representació pictòrica d'un Hybrid Data Mart:
Passos d'implementació d'un Data Mart
La implementació de Data Mart, que es considera una mica complexa, s'explica als passos següents:
- Disseny: Atès que els usuaris empresarials sol·liciten una data mart, la fase de disseny implica la recopilació de requisits, la creació de dades adequades a partir de fonts de dades respectives, la creació d’estructures de dades lògiques i físiques i diagrames d’ER.
- Construcció: L’equip dissenyarà totes les taules, visualitzacions, índexs, etc., al sistema de dades de dades.
- Poblant: Les dades s’extreuran, es transformaran i es carregaran a data mart juntament amb les metadades.
- Accedint a: Els usuaris finals poden accedir a les dades de Data Mart. Poden consultar les dades per a la seva anàlisi i informes.
- Gestió: Això implica diverses tasques de gestió, com ara controls d’accés dels usuaris, ajust del rendiment de data mart, manteniment de data marts existents i creació d’escenaris de recuperació de data mart en cas que el sistema falli.
Estructura d'un Data Mart
L'estructura de cada data mart es crea segons el requisit. Les estructures de Data Mart s’anomenen juntes estrella. Aquesta estructura serà diferent d’un mart de dades a un altre.
Les combinacions estel·lars són estructures multidimensionals que es formen amb taules de fets i dimensions per donar suport a grans quantitats de dades. La combinació d’estrelles tindrà una taula de dades al centre envoltada de les taules de dimensions.
Les dades de la taula de fets respectives s’associen a les dades de les taules de dimensions amb una referència de clau externa. Una taula de dades es pot envoltar de 20 a 30 taules de dimensions.
De manera similar al sistema DW, també en les combinacions en estrella, les taules de dades només contenen dades numèriques i les dades textuals respectives es poden descriure en taules de dimensions. Aquesta estructura s’assembla a un esquema d’estrelles en DW.
Representació pictòrica d'una estructura d'unió estel·lar.
Però les dades granulars del DW centralitzat són la base de les dades de qualsevol data mart. Es realitzaran molts càlculs sobre les dades DW normalitzades per transformar-les en dades de dades multidimensionals que es guardin en forma de cubs.
Funciona de manera similar a la forma en què les dades dels sistemes font heretats es transformen en dades DW normalitzades.
converteix char * a int c ++
Quan és útil un Data Pilot Mart?
Es pot desplegar un pilot en un entorn reduït amb un nombre restringit d'usuaris per assegurar-se que el desplegament té èxit abans del desplegament complet. Tot i això, això no és essencial tot el temps. Els desplegaments pilot no serviran de res un cop es compleixi la finalitat.
Heu de tenir en compte els escenaris següents que es recomanen per al desplegament pilot:
- Si els usuaris finals són nous al sistema de magatzem de dades.
- Si els usuaris finals volen sentir-se còmodes per recuperar dades / informes per si mateixos abans d’anar a la producció.
- Si els usuaris finals volen utilitzar les últimes eines (o) tecnologies.
- Si la direcció vol veure els avantatges com una prova de concepte abans de convertir-la en una gran versió.
- Si l'equip vol assegurar-se que tots els components ETL (o) components de la infraestructura funcionin bé abans de la versió.
Inconvenients de Data Mart
Tot i que els data marts tenen alguns avantatges respecte a DW, també tenen alguns inconvenients, tal com s’explica a continuació:
- Les dades no desitjades que s'han creat són difícils de mantenir.
- Les dades de dades estan pensades per a necessitats de petites empreses. L’augment de la mida dels data marts disminuirà el seu rendiment.
- Si esteu creant un nombre més gran de data marts, la direcció hauria de tenir cura de la seva versió, seguretat i rendiment.
- Les publicacions de dades poden contenir dades històriques (o) resumides (o) detallades. Tanmateix, és possible que les actualitzacions de dades DW i dades de data mart no es produeixin al mateix temps a causa de problemes d'incongruència de les dades.
Conclusió
Moltes organitzacions s’estan orientant cap a data marts des d’una perspectiva d’estalvi de costos. Per tant, aquest tutorial s’ha centrat en els aspectes tècnics dels data marts del sistema de magatzem de dades.
Les metadades a ETL s’expliquen amb detall al nostre proper tutorial.
=> Visiteu aquí per veure la sèrie de formació sobre emmagatzematge de dades per a tothom.
Lectura recomanada
- Tutorial de proves de magatzem de dades amb exemples | Guia de proves ETL
- Tipus de dades Python
- Tipus de dades C ++
- Model de dades dimensionals a Data Warehouse: tutorial amb exemples
- Algorisme Apriori en mineria de dades: implementació amb exemples
- Exemples de mineria de dades: aplicacions més habituals de mineria de dades 2021
- Fonaments de l’emmagatzematge de dades: una guia definitiva amb exemples
- Tutorial de proves de volum: exemples i eines de prova de volum