oracle data warehouse
Guia d'Oracle Data Warehouse amb avantatges, arquitectura, riscos i comparació amb el sistema OLTP (Processament de transaccions en línia):
Al tutorial anterior de Guia completa d'Oracle , hem après sobre productes i serveis d'Oracle en diversos dominis, com ara aplicacions, bases de dades, sistema operatiu, etc. Aquest article proporcionarà un coneixement profund d'Oracle Data Warehousing. Abans, però, entenguem primer el concepte de Business Intelligence (BI).
Intel · ligència de negocis
Business Intelligence és un domini de programari que incorpora certs mètodes, tecnologies, eines i aplicacions que ajuda a estructurar, perfeccionar i transformar dades massives en un format intel·ligent i comprensible que els clients poden utilitzar per generar informes personalitzats i que també ajuden a prendre negocis. decisions.
Hi ha diferents opcions disponibles per satisfer aquesta necessitat, com ara Emmagatzematge de dades, OLAP (Processament de transaccions en línia), Mineria de dades, Integració de dades, Enginyeria de decisions, Fulls de càlcul, etc.
L’emmagatzematge de dades empresarials (EDW) és un dels components bàsics de BI que dóna servei a les necessitats d’anàlisi i d’informació de les empreses. Data Warehouse és un sistema de gestió de bases de dades relacionals (RDBMS), que conté dades consolidades rebudes de múltiples fonts per al seu ús posterior.
millor netejador d’ordinadors per a Windows 10
Què aprendreu:
- Descripció general d'Oracle Data Warehouse
- Comparació de OLTP Vs Data Warehouse
- Data Warehouse i Data Mart
- Visió general del procés ETL
- Arquitectura de magatzem de dades
- Conclusió
Descripció general d'Oracle Data Warehouse
Per què s'anomena 'Data Warehouse'?
Intentem recordar el significat de la paraula 'magatzem' per relacionar-nos amb el terme 'magatzem de dades'.
Un magatzem físic és un dipòsit que s’utilitza per emmagatzemar mercaderies rebudes de diverses fonts, que posteriorment es poden subministrar al client en funció de les seves necessitats.
[imatge font ]
De la mateixa manera, el magatzem de dades és un dipòsit de dades rebudes de diversos sistemes font. Aquestes fonts poden ser sistemes d'emmagatzematge com ara dades de fitxers, fitxers plans o dispositius d'emmagatzematge de suports que contenen dades per a diferents dominis empresarials, com ara recursos humans, vendes, operacions, gestió de recursos i màrqueting, etc.
Finalitat de tenir un magatzem de dades
És possible que una empresa hagi sentit a parlar del concepte de magatzem de dades, però no pot estar segur de si hauria d’incloure-la a la seva empresa. Tot i així, sempre hi hauria la necessitat de bolcar dades de diferents fonts en un terreny comú i arxivar-les de manera que es pugui alliberar espai d'emmagatzematge dels sistemes de transaccions. Aquí és on el sistema d’emmagatzematge de dades es converteix en un requisit empresarial.
Per créixer al mercat, la gestió ha de ser bona en la presa de decisions, que només es poden prendre després d’estudiar a fons les tendències passades d’una organització. Per tant, aquestes dades arxivades es mantenen al magatzem de dades en un format ben organitzat i calculat, de manera que es puguin derivar per analitzar-les en el futur.
Avantatges de l’emmagatzematge de dades
Si s’implementa amb èxit, Data Warehouse pot ser beneficiós de les maneres següents:
# 1) Ha simplificat la feina dels analistes oferint una versió millorada de les solucions d’intel·ligència empresarial. Extreu dades de sistemes d'origen múltiples, transforma i emmagatzema que l'empresa pot consultar directament per analitzar-les.
També ofereix diverses eines que admeten el següent:
- Generació d'informes empresarials personalitzats.
- Taulers interactius que mostren la informació necessària.
- Capacitat per aprofundir a través dels taulers només per obtenir els detalls.
- Mineria de dades i anàlisi de tendències.
# 2) Fins i tot després de rebre dades de diversos sistemes d'origen, les dades d'un magatzem de dades es mantenen constants com a resultat de les transformacions que es van produir durant el procés ETL. Les dades consistents donen confiança al que pren decisions en termes de precisió.
# 3) Els magatzems de dades també es defineixen com un estalvi de temps, ja que les dades crítiques que requereixen les parts interessades per prendre decisions empresarials estan disponibles en un sol lloc i es poden recuperar fàcilment.
# 4) Estan dissenyats per contenir dades històriques i, per tant, es poden consultar per estudiar tendències durant diferents períodes de temps. També ajuda els grups d'interès a derivar el futur camí de creixement.
Riscos que comporta l'ús de Data Warehouse
Juntament amb els avantatges, cada nova implementació comporta un conjunt de riscos que també s’han de tenir en compte.
A continuació es detallen alguns dels riscos implicats:
- La no compatibilitat dels sistemes font amb el sistema d’emmagatzematge de dades pot acabar treballant manualment.
- Una estimació incorrecta del temps del procés ETL pot provocar la interrupció del treball.
- Es tracta de sistemes d’emmagatzematge de gamma alta i, per tant, necessiten un manteniment elevat. Qualsevol flux de treball o canvis empresarials pot costar molt.
- Configurar un magatzem de dades és un procés que requereix molt de temps, ja que necessita molt de temps per entendre els fluxos de negoci i identificar les capacitats d’integració per dissenyar un magatzem.
- La seguretat de les dades sempre és un risc, ja que conté dades històriques antigues que, si es filtren, poden afectar el negoci.
Comparació de OLTP Vs Data Warehouse
Les diferències entre OLTP i Data Warehouse es poden entendre a la taula següent.
OLTP | Emmagatzematge de dades |
---|---|
Inserció i actualitzacions són les principals operacions realitzades pels usuaris finals en sistemes OLTP. | Els magatzems de dades es consulten principalment mitjançant la sentència SELECT i només es poden actualitzar mitjançant serveis ETL. |
Els sistemes OLTP admeten transaccions comercials. | Data Warehouse admet les decisions empresarials preses després d’analitzar les transaccions comercials completades. |
Les dades es mantenen volàtils, és a dir, continuen canviant | No s’ha de canviar les dades. |
Tenen les dades més recents. | Tenen les dades històriques. |
Conté les dades brutes sense cap càlcul. | Conté dades resumides i ben calculades. |
Les dades es normalitzaran. | Les dades es mantindran desnormalitzades. |
La mida de la base de dades Oracle pot variar de 50 MB a 100 GB. | La mida de la base de dades Oracle pot variar de 100 GB a 2 TB. |
Data Warehouse i Data Mart
Data Warehouse i DataMart no són semblants i semblen relacionats amb l’emmagatzematge de dades.
Sí, estan relacionats i tots dos s’utilitzen per emmagatzemar dades. La diferència principal entre tots dos és la capacitat de conservar les dades i aquesta diferència ajuda els usuaris finals a triar la unitat d’emmagatzematge adequada per als seus sistemes.
Data Mart té menys capacitat per conservar dades en comparació amb el magatzem de dades i, per tant, es pot considerar com un subconjunt. Normalment s’identifiquen les dades de dades per emmagatzemar dades limitades que podrien pertànyer a un departament o una línia de negoci en concret, mentre que els magatzems de dades es poden utilitzar per guardar les dades consolidades de tots.
Prenguem un exemple d’un lloc web de comerç electrònic amb diverses categories de mercaderies, com ara moda, accessoris, articles per a la llar, llibres i material escolar, electrodomèstics, etc.
Per tant, Data Marts es pot dissenyar per emmagatzemar les dades de productes segons la categoria, mentre que els magatzems de dades es poden utilitzar per emmagatzemar dades completes del lloc web, inclòs l'historial en un sol lloc.
Les dades de dades són de mida més petita, es poden crear molt més ràpidament sense fer-ne cap anàlisi, tal com es requereix per dissenyar un magatzem de dades. Tot i això, cal un gran esforç per mantenir sincronitzats diversos fitxers de dades per mantenir la coherència de les dades.
Visió general del procés ETL
ETL (extracció, transformació i càrrega) és un procés d’extracció de dades de diferents sistemes d’origen, transformació i càrrega al sistema Data Warehouse. És un procés complex que ha d’interactuar amb una gran varietat de sistemes d’origen per a l’extracció de dades i, per tant, també tècnicament desafiant.
descarregueu descarregador de música mp3 per a Android
La transformació necessita una gran quantitat d’anàlisis per entendre el format dels sistemes d’origen i portar les dades al format comú de manera que es puguin emmagatzemar al mateix magatzem de dades.
El procés ETL és un treball recurrent que es pot executar diàriament, setmanalment o fins i tot mensualment en funció del requisit empresarial.
Arquitectura de magatzem de dades
Comprenguem l’arquitectura d’un magatzem de dades que està dissenyat principalment per emmagatzemar dades refinades per a requisits empresarials predefinits. L’arquitectura consta de 5 components amb flux de dades de dalt a baix.
Els components són els següents:
- Fonts de dades
- Data Staging
- Data Warehouse (emmagatzematge de dades)
- Data March (emmagatzematge de dades)
- Presentació de dades
Comprenguem totes les etapes enumerades una a una.
# 1) Fonts de dades
Hi ha diferents sistemes font que actuen com a entrada als sistemes de magatzem de dades.
Aquests sistemes font poden ser:
- Bases de dades relacionals com Oracle, DB2, MySQL, MS Access, etc. que es poden utilitzar per registrar transaccions diàries de qualsevol organització. Aquestes transaccions comercials diàries podrien estar relacionades amb ERP, CRM, vendes, finances i màrqueting, etc.
- Fitxers plans
- Serveis web
- Canals RSS i fonts similars.
# 2) Etapa de dades
Un cop instal·lades les fonts de dades, el següent pas seria extreure aquestes dades dels sistemes d'origen a la zona d'aprovisionament del magatzem.
Com que les dades s’han recuperat de diferents sistemes que segueixen diferents formats d’emmagatzematge, és necessari reestructurar les dades per portar-les a un format comú. Per tant, la transformació de dades té lloc com a següent pas.
Durant la transformació, es produeix una neteja de dades que inclou l'aplicació de regles empresarials, el filtrat de dades, l'eliminació de redundància, el format de dades, l'ordenació de dades, etc.
# 3) Magatzem de dades (emmagatzematge de dades)
Un cop extretes i transformades les dades, es carregaran en un entorn multidimensional, és a dir, Data Warehouse. Ara, aquestes dades processades poden ser utilitzades per a anàlisis i altres finalitats pels usuaris finals.
# 4) Data Marts (emmagatzematge de dades)
Com es va esmentar anteriorment, que les dades ja estan a punt per ser consumides pels usuaris finals, hi ha un procés opcional de creació de Data Marts com a pas següent. Aquests data marts es poden utilitzar per emmagatzemar dades resumides d'un departament concret o d'una línia de negoci per a ús dedicat.
Per exemple, es poden afegir dades de dades separades per a departaments com Vendes, Finances i Màrqueting, etc. com a pas següent que contindrà dades específiques i permetrà a un analista realitzar consultes detallades per a les necessitats empresarials. També impedeix que tots els altres usuaris finals accedeixin al magatzem complet i, per tant, fa que les dades siguin segures.
# 5) Eines d'accés a dades (presentació de dades)
Hi ha diverses eines de Business Intelligence predefinides que els usuaris poden utilitzar per accedir a magatzems de dades o data marts. Aquestes eines d’interfície estan dissenyades d’una manera extremadament fàcil d’utilitzar donant als usuaris una gran varietat d’opcions per accedir a les dades.
A continuació s’esmenten les opcions:
- Aplicant la consulta a Oracle o a qualsevol altra base de dades directament mitjançant SQL.
- Generació d'informes.
- Desenvolupament d'aplicacions.
- Ús d’eines de mineria de dades, etc.
Poques eines populars d'emmagatzematge disponibles al mercat són:
- Analytix DS
- Amazon Redshift
- Programari Ab Initio
- Codi Futurs
- Gestió holística de dades
- Corporació Informàtica
Emmagatzematge de dades al núvol
El món reconeix excessivament els magatzems de dades. La següent pregunta que sorgeix: fem servir un enfocament optimitzat per desplegar magatzems de dades?
preguntes i respostes d’entrevistes de metodologia àgil
A continuació, es va introduir Cloud Data Warehousing, que pren el domini de Enterprise Data Warehousing (EDW). El concepte de magatzems de dades basats en el núvol ofereix diversos avantatges.
Aquestes són les següents:
(i) Escalabilitat: Les dades dels sistemes en núvol es poden escalar fàcilment cap amunt i cap avall sense molèsties, tot i que consumeixen molt de temps i recursos per realitzar una escala en magatzems de dades tradicionals.
(ii) Estalvi de costos: Els magatzems de dades basats en el núvol han fet una diferència notable en la inversió necessària per a la configuració d’un magatzem. Han reduït el cost inicial massiu eliminant el cost de
-
- Manteniment de sales de maquinari / servidor.
- Personal necessari per al manteniment.
- Altres costos operatius.
(iii) Rendiment: El rendiment és un altre factor que va permetre que els sistemes basats en el núvol dominessin els tradicionals. Si l’empresa s’expandeix a nivell mundial i cal accedir a les dades des de diverses parts del món amb una resposta més ràpida, és millor utilitzar els magatzems basats en el núvol.
El processament massiu en paral·lel (MPP) és un dels mètodes de processament col·laboratiu que fan servir els magatzems per aconseguir el mateix.
(iv) Connectivitat: Com s’ha esmentat anteriorment, si cal accedir a les dades des de diverses ubicacions geogràfiques, els usuaris necessiten una connectivitat excel·lent a aquests magatzems i un magatzem basat en el núvol ofereix el mateix.
Conclusió
Esperem que tots tingueu una bona idea sobre el sistema d’emmagatzematge de dades Oracle després de llegir l’article anterior. Feu-nos saber si necessiteu informació sobre un tema concret relacionat amb l’emmagatzematge de dades, de manera que puguem cobrir el mateix en els propers tutorials.
Lectura recomanada
- Què és un llac de dades | Data Warehouse contra Data Lake
- Tutorial de proves de magatzem de dades amb exemples | Guia de proves ETL
- Top 10 de les eines i tecnologies de proves més populars del magatzem de dades
- Model de dades dimensionals a Data Warehouse: tutorial amb exemples
- Les metadades a Data Warehouse (ETL) s’expliquen amb exemples
- Tutorial de proves de magatzem de dades de proves ETL (una guia completa)
- Tipus d'esquema en el modelatge de magatzem de dades: esquema Star & Floc de neu
- Què és el procés ETL (extracció, transformació, càrrega) a Data Warehouse?