what is data lake data warehouse vs data lake
Aquest tutorial explica tot sobre Data Lake, inclosa la seva necessitat, definició, arquitectura, avantatges i diferències entre Data Lake i Data Warehouse:
El terme 'Data Lake' s'utilitza amb força freqüència en el món de les TI actuals. Us heu preguntat mai què és i d’on prové exactament el terme?
A l’era de les tecnologies de la informació, on les dades s’amplifiquen de dia i de nit en moltes formes, el concepte de llac de dades esdevé certament important i útil.
Explorem en detall què és un llac de dades i quins són els seus avantatges, usos, etc.
Què aprendreu:
- Què és un llac de dades i com funciona?
- Conclusió
Què és un llac de dades i com funciona?
Un llac de dades és un sistema o un dipòsit centralitzat de dades que us permet emmagatzemar totes les vostres dades estructurades, semiestructurades, no estructurades i binàries en el seu format natural / natiu / en brut.
Les dades estructurades poden incloure taules de RDBMS; les dades semiestructurades inclouen fitxers CSV, fitxers XML, registres, JSON, etc .; les dades no estructurades poden incloure PDF, documents de Word, fitxers de text, correus electrònics, etc .; i les dades binàries poden incloure fitxers d’àudio, vídeo i imatges.
Segueix una arquitectura plana per emmagatzemar dades. Generalment, les dades s’emmagatzemen en forma de fitxers o blobs d’objectes.
(imatge font )
Amb un llac de dades, podeu emmagatzemar tota la vostra empresa ja que es troba en un sol lloc, sense necessitat d’estructurar primer les dades. Podeu executar directament els diversos tipus d’anàlisis que inclouen aprenentatge automàtic, anàlisis en temps real, moviment de dades local, moviment de dades en temps real, taulers i visualitzacions.
Conserva totes les dades que conté en la forma original i presumeix que l’anàlisi es realitzarà més tard, sota demanda.
Analogia de Data Lake
(imatge font )
El terme Data Lake va ser encunyat per James Dixon, l’aleshores CTO de Pentaho. Defineix data mart (un subconjunt d'un magatzem de dades) com una ampolla d'aigua plena d'aigua neta i destil·lada, empaquetada i estructurada per a un ús directe i fàcil.
D’altra banda, és anàleg a una massa d’aigua en la seva forma natural. Les dades flueixen des dels corrents (diverses funcions comercials / sistemes font) fins al llac. Els consumidors de data lake, és a dir, els usuaris tenen accés al llac per analitzar, examinar, recollir mostres i submergir-s’hi.
De la mateixa manera que l’aigua del llac atén les diferents necessitats de la gent, com ara la pesca, la navegació, l’aigua potable, etc., de la mateixa manera, l’arquitectura del llac de dades té múltiples finalitats.
què és un fitxer 7z?
Un científic de dades el pot utilitzar per explorar les dades i crear una hipòtesi. Ofereix als analistes de dades una oportunitat per analitzar dades i descobrir patrons. Proporciona un mode als usuaris empresarials i als grups d'interès per explorar les dades.
També ofereix als analistes d’informes l’oportunitat de dissenyar informes i presentar-los al negoci. Per contra, el magatzem de dades ha empaquetat dades amb finalitats ben definides, com una ampolla de bisleri que només es pot utilitzar per a aigua potable.
Data Lake Market: creixement, tendències i prediccions
El mercat del llac de dades es divideix en funció del producte (solució o servei), del desplegament (local o al núvol), de la indústria dels clients (comerç al detall, banca, serveis públics, assegurances, informàtica, salut, telecomunicacions, publicació, fabricació) i geogràfica regions.
Segons l’informe publicat per Mordor Intelligence, a continuació es mostra la instantània del mercat per a data lake:
(imatge font )
# 1) Resum del mercat
El mercat dels llacs de dades es va avaluar en 3.7400 milions de dòlars el 2019 i es preveu que arribi als 17.600 milions de dòlars el 2025, a un CAGR (taxa de creixement anual composta) del 29,9% durant el període de projecció 2020-2025.
Aquests dipòsits de dades estan resultant cada vegada més com una opció econòmica per a moltes organitzacions sobre els magatzems de dades. A diferència dels llacs de dades, l’emmagatzematge de dades requereix un processament addicional de dades abans d’entrar al magatzem.
La despesa de gestionar un llac de dades és menor en comparació amb un magatzem de dades, ja que es necessita molt processament i es necessita espai per crear la base de dades per a magatzems.
# 2) Jugadors principals
Es preveu que el mercat de Data Lake serà un mercat consolidat dominat pels cinc actors clau, tal com es veu a la imatge següent.
# 3) Tendències clau
- S'espera que el seu ús creixi considerablement al sector bancari. Els bancs adopten llacs de dades per oferir anàlisis sobre la marxa. A més, contribueix a dissoldre moltes sitges del sector bancari.
- Com que hi ha un gran augment dels pagaments digitals / ús de carteres mòbils a tot el món, l’abast de l’anàlisi de dades massives i, per tant, les oportunitats per a ells augmenta.
- Es preveu que Amèrica del Nord tindrà una elevada adopció de llacs de dades. Un estudi realitzat per Capgemini diu que més del 60% de les organitzacions financeres dels Estats Units pensen que l’anàlisi de dades massives actua com a diferenciador per a les empreses i els proporciona un avantatge competitiu. Més del 90% de les organitzacions consideren que invertir en projectes de big data augmenta les possibilitats d’èxit en el futur.
- Són necessaris per a l’ús d’aplicacions de comptadors intel·ligents i, als Estats Units, s’espera que s’instal·lin al voltant de 90 milions de comptadors intel·ligents el 2021. Per tant, es preveu una gran demanda d’ells.
Per què es requereix Data Lake?
L’objectiu d’un llac de dades és oferir una visió de les dades sense processar (dades en estat pur).
Exemples
Avui en dia, moltes empreses importants com Google, Amazon, Cloudera, Oracle, Microsoft i poques més tenen ofertes de data lake.
Moltes organitzacions utilitzen serveis d’emmagatzematge al núvol com Azure Data Lake o Amazon S3. Les empreses també utilitzen un sistema de fitxers distribuït com Apache Hadoop. El concepte d’un llac de dades personals que us permet gestionar i compartir el vostre propi big data també ha evolucionat.
Si parlem d’usos industrials, és un ajust molt adequat per al domini sanitari. A causa del format no estructurat de moltes dades en salut ( Per exemple, Notes del metge, dades clíniques, antecedents de malalties dels pacients, etc.) i el requisit d’estadístiques en temps real, un llac de dades és una gran opció sobre el magatzem de dades.
També ofereix solucions flexibles en el sector educatiu, on les dades són molt vastes i molt crues.
En el sector del transport, principalment en la gestió de la cadena de subministrament o la logística, ajuda a fer prediccions i a obtenir beneficis de reducció de costos.
Les indústries de l'aviació i l'energia elèctrica també utilitzen llacs de dades.
Un exemple de la seva implementació és GE Predix (desenvolupat per General Electric), que és una plataforma industrial de llac de dades que ofereix fortes competències de governança de dades per crear, desplegar i governar aplicacions industrials que enllacen amb actius industrials, recopilen i analitzen dades i proporcionen en temps real informació per millorar la infraestructura i els processos industrials.
Diferència entre Data Warehouse i Data Lake
Sovint a la gent li costa entendre com un llac és diferent d’un magatzem de dades. També argumenten que és el mateix que el magatzem de dades. Però aquesta no és la realitat.
implementar la taula hash c ++
L’únic punt en comú entre el llac de dades i el magatzem de dades és que tots dos són dipòsits d’emmagatzematge de dades. Descansa, són diferents. Tenen diferents casos d’ús i finalitats.
Les diferències s’aclareixen a continuació:
Data Lake | Magatzem de dades | |
---|---|---|
Analítica | Es pot utilitzar un llac de dades per a l’aprenentatge automàtic, el perfil de dades de descobriment de dades i l’anàlisi predictiva. | Es pot utilitzar un magatzem de dades per a Business Intelligence, visualitzacions i informes per lots. |
Dades | Un Data Lake hi guardarà totes les dades en brut. Pot estar estructurat, no estructurat o semiestructurat. És possible que algunes de les dades del llac de dades no s’utilitzin mai. | Un magatzem de dades inclou només aquelles dades que es processen i refinen, és a dir, dades estructurades que són necessàries per informar i resoldre problemes empresarials específics. |
Usuaris | En general, els usuaris d’un llac de dades són científics i desenvolupadors de dades. | En general, els usuaris del magatzem de dades són professionals de negocis, usuaris operatius i analistes de negocis. |
Accessibilitat | El llac de dades és molt accessible i fàcil d’actualitzar fàcilment perquè no té cap estructura. | Al magatzem de dades, actualitzar les dades és una operació més complicada i costosa, ja que els magatzems de dades s’estructuren segons el disseny. |
Esquema | Esquema en escriptura. Dissenyat abans de la implementació de DW. | Esquema llegit. Escrit en el moment de l’anàlisi. |
Arquitectura | Arquitectura plana | Arquitectura jeràrquica |
Propòsit | La finalitat de les dades brutes emmagatzemades als llacs de dades no és fixa ni està indeterminada. De vegades, les dades poden fluir a un llac de dades tenint en compte algun ús futur específic o simplement per tenir-les a mà. El llac de dades té dades menys organitzades i menys filtrades. | Les dades processades emmagatzemades al magatzem de dades tenen un propòsit específic i definit. Un DW ha organitzat i filtrat les dades. Per tant, requereix menys espai d’emmagatzematge que el llac de dades. |
Emmagatzematge | Dissenyat per a emmagatzematge de baix cost. El maquinari del llac de dades és molt diferent del maquinari del magatzem de dades. Utilitza servidors a la venda combinats amb emmagatzematge econòmic. Això fa que el llac de dades sigui bastant econòmic i altament escalable a terabytes i petabytes. Això es fa per guardar totes les dades en un llac de dades, de manera que pugueu tornar al temps en qualsevol moment per fer anàlisis. | Car per a grans volums de dades. El magatzem de dades té un emmagatzematge en disc car per fer-lo altament performant. Per tant, per conservar l’espai, el model de dades es simplifica i només es guarden al magatzem de dades les dades realment necessàries per prendre decisions comercials. |
Suport per a tipus de dades | Un Data Lake admet molt bé els tipus de dades no tradicionals, com ara registres de servidors, dades de sensors, activitat de xarxes socials, text, imatges, multimèdia, etc. Totes les dades es conserven independentment de la font i l’estructura. | Generalment, un magatzem de dades consisteix en dades obtingudes de sistemes transaccionals. No admet molt bé els tipus de dades no tradicionals. Emmagatzemar i consumir dades no tradicionals pot ser costós i difícil amb el magatzem de dades. |
Seguretat | La seguretat dels llacs de dades està en fase de maduració, ja que es tracta d’un concepte relativament nou que el magatzem de dades. | La seguretat dels magatzems de dades es troba en l’etapa de “maduració”. |
Agilitat | Molt àgil; configureu i torneu a configurar segons sigui necessari. | Menys àgil; configuració fixa. |
Data Lake Architecture
Esquema arquitectònic
A la part superior es mostra el diagrama d’arquitectura conceptual del llac de dades. A la part més esquerra, podeu veure que tenim les fonts de dades que poden ser estructurades, semiestructurades o no estructurades.
Aquestes fonts de dades es combinen en un magatzem de dades en brut que utilitza dades en la seva forma bruta, és a dir, dades sense cap transformació. Es tracta d’un emmagatzematge de baix cost, permanent i escalable.
A continuació, tenim caixes de sorra analítiques que es poden utilitzar per al descobriment de dades, l'anàlisi de dades exploratòries i el modelatge predictiu. Bàsicament, això és utilitzat pels científics de dades per explorar dades, construir noves hipòtesis i definir casos d’ús.
A continuació, hi ha un motor de processament per lots que processa les dades brutes en forma de consumible, és a dir, en un format estructurat que es pot utilitzar per informar als usuaris finals.
A continuació, tenim un motor de processament en temps real que captura la transmissió de dades i les transforma.
Característiques clau de Data Lake
Per classificar-se com Data Lake, un dipòsit de big data hauria de tenir els tres atributs següents:
# 1) Un únic dipòsit comú de dades generalment allotjat dins d'un sistema de fitxers distribuït (DFS).
Els llacs de dades Hadoop mantenen les dades en la seva forma nativa i capturen canvis en les dades i la semàntica relativa durant el cicle de vida de les dades. Aquest enfocament és particularment beneficiós per a les verificacions de compliment i les auditories internes.
Es tracta d’una millora per sobre del Enterprise Data Warehouse convencional, en què quan les dades passen per transformacions, agregacions i modificacions, és difícil posar dades en el seu conjunt quan es requereix i les empreses s’esforcen per esbrinar la font / origen de les dades.
# 2) Incorpora capacitats de planificació i planificació de treballs (per exemple, mitjançant qualsevol eina de planificació com YARN, etc.).
L’execució de la càrrega de treball és una necessitat essencial per a l’empresa Hadoop i YARN ofereix una gestió de recursos i una plataforma central per proporcionar processos constants, seguretat , i eines de governança de dades a través dels clústers Hadoop, assegurant-se que els fluxos de treball analítics posseeixen el nivell requerit d’accés a les dades i poder informàtic.
# 3) Inclou el conjunt d’utilitats i funcions necessàries per consumir, processar o treballar amb les dades.
L’accessibilitat fàcil i ràpida per als usuaris és un dels trets clau d’un llac de dades, ja que les organitzacions emmagatzemen les dades en la seva forma nativa o pura.
En qualsevol forma, les dades són estructurades, no estructurades o semiestructurades, s’insereixen tal com estan al llac de dades. Permet als propietaris de dades combinar dades de clients, proveïdors i operacions, eliminant qualsevol barrera tècnica o política per compartir dades.
Beneficis
(imatge font )
- Versàtil : Prou competent per emmagatzemar tot tipus de dades estructurades / no estructurades que van des de dades CRM fins a activitats de xarxes socials.
- Més flexibilitat de l'esquema : No necessita planificació ni coneixement previ de l'anàlisi de dades. Emmagatzema totes les dades tal com està en forma original i presumeix que l’anàlisi es realitzarà més endavant, sota demanda. Això és molt útil per a OLAP. Per exemple, el llac de dades Hadoop us permet estar lliure d'esquemes, on podeu separar l'esquema de les dades.
- Anàlisi de decisions en temps real : Gaudeixen de l’avantatge d’una gran quantitat de dades consistents i d’algoritmes d’aprenentatge profund per arribar a l’anàlisi de decisions en temps real. Capaç d'obtenir valor a partir de tipus de dades il·limitats.
- Escalable: Són molt més escalables que els magatzems de dades tradicionals i, a més, són menys costosos.
- Analítica avançada / Compatibilitat amb SQL i altres idiomes: Amb els llacs de dades, hi ha moltes maneres de consultar les dades. A diferència dels dipòsits de dades tradicionals que només admeten SQL per a anàlisis senzilles, us ofereixen moltes altres opcions i suport de llenguatge per analitzar dades. També són compatibles amb eines d’aprenentatge automàtic com Spark MLlib.
- Democratitzar les dades: Accés democratitzat a les dades mitjançant una única vista integrada de les dades a tota l’organització mentre s’utilitza una plataforma de gestió de dades eficaç. D’aquesta manera s’assegura la disponibilitat total de dades.
- Millor qualitat de les dades: En general, obteniu una millor qualitat de les dades amb llacs de dades gràcies a avantatges tecnològics, com ara l’emmagatzematge de dades en format natiu, l’escalabilitat, la versatilitat, la flexibilitat d’esquemes, el suport SQL i altres idiomes i l’anàlisi avançada.
Reptes i riscos
Els llacs de dades ofereixen molts avantatges. Però sí, també hi ha alguns reptes i riscos associats que una organització ha d’abordar amb cura.
Ells són:
- Si no es dissenyen adequadament, es poden convertir en pantans de dades. De vegades, les organitzacions acaben llançant dades il·limitades en aquests llacs sense cap mena d’estratègia i finalitat.
- De vegades, els analistes que volen utilitzar les dades no tenen coneixement de com fer-ho, ja que és força difícil fer mineria als llacs de dades. Per tant, perden rellevància i impuls després d’un temps. Les organitzacions han de treballar per eliminar aquesta barrera per als analistes.
- Com que tenim moltes dades desorganitzades als llacs de dades, no són prou fresques ni actuals per ser utilitzades a la producció. Per tant, les dades d’aquests llacs es mantenen en mode pilot i mai es posen a producció.
- Les dades no estructurades poden provocar dades inutilitzables.
- De vegades, les organitzacions experimenten que no està tenint un impacte significatiu en el negoci respecte a les inversions realitzades. Això requereix un canvi de mentalitat. Perquè es produeixin impactes, les empreses han d’animar els directius i els líders a prendre decisions basades en les analítiques derivades d’aquests dipòsits de dades.
- La seguretat i el control d’accés també són un dels riscos quan s’està treballant amb ells. Algunes de les dades que poden requerir privadesa i normativa es col·loquen en llacs de dades sense cap supervisió.
Implementació
En una empresa, és molt raonable fer la implementació de data lake d’una manera àgil.
És a dir, per implementar primer un MVP de Data Lake, els usuaris el proven de qualitat, facilitat d’accés, emmagatzematge i capacitats analítiques, rep comentaris i, a continuació, afegeix els complexos requisits i funcions per afegir valor al llac.
En general, una organització passa per les quatre fases bàsiques d'implementació següents:
(imatge font )
Etapa 1:
El llac bàsic de dades: En aquesta etapa, l'equip es basa en l'arquitectura bàsica, la tecnologia (basada en el núvol o heretada) i les pràctiques de seguretat i govern per al llac de dades. Està dissenyat per emmagatzemar totes les dades brutes procedents de diverses fonts empresarials i combinar les dades internes i externes per proporcionar informació enriquida.
Etapa 2:
The Sandbox: Millora de la capacitat analítica: En aquesta etapa, els científics de dades accedeixen al dipòsit de dades per realitzar experiments preliminars per utilitzar dades brutes i dissenyar models analítics per satisfer les necessitats empresarials.
Etapa 3:
com escriure casos de prova per a aplicacions web amb un exemple
Magatzems de dades i col·laboració de Data Lake: En aquesta etapa, l’organització comença a utilitzar data lake en sinergia amb els magatzems de dades existents. Les dades de baixa prioritat se'ls envien de manera que no es superi el límit d'emmagatzematge dels magatzems de dades.
Presenta la possibilitat de produir estadístiques a partir de dades fredes o consultar-les per descobrir informació que no està indexada per les bases de dades convencionals.
Etapa 4:
Adopció de punta a punta de Data Lake: Aquesta és l’última etapa d’adquisició de la maduresa en què es converteix en un element clau de l’arquitectura de dades de l’organització i una operació de cerca directa efectiva. En aquest moment, el llac de dades hauria substituït EDW i es convertiria en l'única font de totes les dades empresarials.
Una organització pot fer el següent mitjançant el llac de dades:
- Creeu solucions d’anàlisi i modelatge de dades complexes per a diferents necessitats empresarials.
- Dissenyeu taulers interactius que consolidin les comprensions del llac de dades, a més de diverses fonts d'aplicacions i dades.
- Implementar programes avançats d’anàlisi o robòtica, ja que gestiona les operacions computacionals.
En aquest punt, també té una forta seguretat i mesures de govern.
Data Lake Vendors
Hi ha diferents proveïdors que proporcionen eines de data lake a la indústria.
(imatge font )
Si mirem les grans empreses:
- Informatica proporciona una eina intel·ligent de data lake. BDM (Big Data Management) 10.2.2 és l’última versió disponible.
- Hi ha un venedor anomenat mirador qui també proporciona l'eina.
- La companyia Talend popular per les seves eines ETL també proporciona l'eina Data Lake.
- Després, tenim una eina de codi obert anomenada Kylo des del Teradata empresa. L’equip anomenat ‘Think Big’ de l’empresa Teradata ha desenvolupat aquesta eina.
- La companyia Dades de barril Inc també proporciona aquests serveis.
- Des de Microsoft , pots trobar Llac de dades Azure disponibles a la indústria.
- Programari HVR també proporciona solucions de consolidació de llacs de dades.
- Dades del podi, una empresa de Qlik subministra productes d’eines com ara canonades de data lake, data lac de zones múltiples.
- Floc de neu també té un producte de data lake.
- Zaloni és una empresa de llacs de dades que gestiona dades enormes mitjançant Big Data.
Per tant, aquests són els proveïdors de serveis més populars, així com els proveïdors d’aquestes eines.
Si esteu buscant practicar i desenvolupar el vostre coneixement sobre els llacs de dades, podeu anar a Informatica o Kylo. Si busqueu un servei basat en el núvol, podeu optar per Looker, Informatica i Talend. Aquests tres proveïdors proporcionen llacs de dades al núvol AWS. També podeu obtenir una prova gratuïta d’un mes de Kylo.
Conclusió
En aquest tutorial, hem discutit detalladament el concepte del llac de dades. Vam passar per la idea bàsica que hi ha darrere de Data Lake, la seva arquitectura, característiques clau, avantatges, juntament amb els seus exemples, casos d’ús, etc.
També hem vist com un llac de dades és diferent del magatzem de dades. També hem cobert els principals proveïdors que proporcionen serveis relacionats.
Bona lectura !!
Lectura recomanada
- Tutorial de proves de magatzem de dades amb exemples | Guia de proves ETL
- Top 10 eines de validació i prova de dades estructurades per a SEO
- Mineria de dades: processos, tècniques i grans qüestions en l'anàlisi de dades
- Tutorial de Data Mart: tipus, exemples i implementació de Data Mart
- Top 10 d'eines i tecnologies de proves populars per a magatzem de dades
- Model de dades dimensionals a Data Warehouse: tutorial amb exemples
- 10+ millors eines de recopilació de dades amb estratègies de recopilació de dades
- Funció de grup de dades a IBM Rational Quality Manager per a la gestió de dades de prova