complete guide big data analytics
Aquesta és una guia completa de Big Data Analytics amb els seus casos d’ús, arquitectura, exemples i comparació amb Big Data i Data Science:
L’anàlisi de dades massives ha guanyat força perquè corporacions com Facebook, Google i Amazon han establert els seus propis nous paradigmes de processament de dades distribuïdes i anàlisi per entendre la propensió dels seus clients a l’extracció de valor a partir de dades massives.
En aquest tutorial, expliquem les anàlisis de big data i les comparem amb Big Data i Data Science. Cobrirem els atributs necessaris que han de tenir les empreses en la seva estratègia de big data i la metodologia que funciona. També esmentarem les últimes tendències i alguns casos d’ús de l’anàlisi de dades.
Com es mostra a la imatge següent, Analytics requereix que utilitzeu habilitats en TI, habilitats empresarials i ciències de les dades. L’anàlisi de dades massives és el centre de l’ús de valors de dades massives i ajuda a obtenir estadístiques de consum per a una organització.
(imatge font )
Què aprendreu:
- Què és el Big Data Analytics
- Conclusió
Què és el Big Data Analytics
Big Data Analytics tracta de l’ús d’una col·lecció de tècniques estadístiques, eines i procediments d’anàlisi de Big Data.
Recomanat Lectura => Introducció al Big Data
És l’anàlisi que ajuda a extreure patrons valuosos i estadístiques significatives del big data per donar suport a la presa de decisions basades en dades. És a causa de l’aparició de noves fonts de dades, com ara les xarxes socials i les dades de l’IoT, que el big data i l’anàlisi s’han popularitzat.
Aquesta tendència està donant lloc a una àrea de pràctica i estudi anomenada 'ciència de dades' que engloba les tècniques, eines, tecnologies i processos per a la mineria, neteja, modelització i visualització de dades.
Big Data vs Big Data Analytics vs Data Science
A comparació entre big data, ciència de dades i analítica de big data es pot entendre a la taula següent.
Bases | Dades massives | Ciència de les dades | Big Data Analytics |
---|---|---|---|
Eines i tecnologies | Hadoop Ecosystem, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Rols i habilitats laborals | Manteniment d’infraestructures d’emmagatzematge, processament de dades i coneixement a Hadoop i la seva integració amb altres eines. | Transformació de dades, enginyeria de dades, disputa de dades, modelització de dades i visualització | BI i anàlisi avançada, estadístiques, modelatge de dades i aprenentatge automàtic, habilitats matemàtiques, comunicació, consultoria. |
Designacions | Arquitecte Big Data Desenvolupador de Big Data Enginyer de Big Data | Científic de dades Enginyer d’aprenentatge automàtic | Analista de Big Data Analista de negoci Enginyer d’intel·ligència empresarial Especialista en analítica empresarial Desenvolupador de visualització de dades Gestor d'Analytics |
Aprox. Salari mitjà anual en USD | 100,000 | 90,000 | 70,000 |
Lectura suggerida = >> Data Science vs Computer Science
Què hauria de tenir tota estratègia d’anàlisi de dades grans
Una estratègia ben definida, integrada i completa contribueix i dóna suport a la presa de decisions valuoses basades en dades en una organització. En aquesta secció, hem detallat els passos més crítics que cal tenir en compte a l’hora de definir una estratègia d’anàlisi de big data.
Pas 1: avaluació
Una avaluació, ja alineada amb els objectius empresarials, requereix la implicació d’actors clau, crear un equip de membres amb el conjunt d’habilitats adequat, avaluar polítiques, persones, processos i recursos tecnològics i de dades. Si es requereix, es pot implicar els clients dels avaluats en aquest procés.
Pas 2: Priorització
Després de l’avaluació, cal derivar casos d’ús, prioritzar-los mitjançant l’anàlisi predictiva de big data, l’anàlisi prescriptiva i l’anàlisi cognitiva. També podeu utilitzar una eina com la matriu de priorització i filtrar encara més els casos d’ús amb l’ajut de comentaris i aportacions de les principals parts interessades.
Pas 3: Mapa de ruta
En aquest pas, cal crear un full de ruta limitat i publicar-lo per a tothom. Un full de ruta ha d’incloure tots els detalls sobre complexitats, fons, beneficis inherents als casos d’ús i projectes assignats.
Pas 4: Gestió de canvis
La implementació de la gestió del canvi requereix una gestió de la disponibilitat, integritat, seguretat i usabilitat de les dades. Un programa eficaç de gestió de canvis, que utilitza qualsevol govern de dades existent, incentiva les activitats i els membres basats en un seguiment continu.
Pas 5: Conjunt d’habilitats adequat
Identificar el conjunt d’habilitats adequat és crucial per a l’èxit de l’organització enmig de les tendències actuals del sector. Per tant, cal seguir els líders adequats i portar programes educatius per educar els grups d'interès crítics.
Pas 6: Fiabilitat, escalabilitat i seguretat
L’enfocament adequat i una estratègia d’anàlisi de big data eficaç fan que el procés d’anàlisi sigui fiable, amb un ús eficaç de models interpretables que impliquin principis de ciència de dades. Una estratègia d’anàlisi de dades massives també ha d’incloure aspectes de seguretat des del principi per obtenir un canal d’anàlisi robust i completament integrat.
Canalització de dades i procés per a l'anàlisi de dades
A l’hora de planificar el canal d’anàlisi de dades, hi ha tres aspectes fonamentals que cal tenir en compte. Aquestes són les següents:
- Entrada: Format de dades i la selecció de tecnologia a processar, es basa en la naturalesa subjacent de les dades, és a dir. si les dades són sèries temporals i qualitat.
- Sortida: Elecció de connectors , els informes i la visualització depenen de l'experiència tècnica dels usuaris finals i dels seus requisits de consum de dades.
- Volum: Solucions a escala es planifiquen en funció del volum de dades per evitar una sobrecàrrega al sistema de processament de dades grans.
Ara anem a discutir un procés típic i les fases per a una canalització d’anàlisi de dades massives.
Etapa 1: ingestió de dades
La ingestió de dades és el primer pas més significatiu en la canalització de dades. Considera tres aspectes de les dades.
- Font de dades - És significatiu pel que fa a l'elecció de l'arquitectura del gasoducte de dades grans.
- Estructura de les dades - La serialització és la clau per mantenir una estructura homogènia a través de la canonada.
- Neteja de les dades - L’anàlisi és tan bona com les dades sense problemes, com ara perdre valors i valors atípics, etc.
Etapa 2: ETL / Emmagatzematge
El següent mòdul important són les eines d’emmagatzematge de dades per realitzar ETL (Extract Transform Load). L’emmagatzematge de dades en un centre de dades adequat depèn de,
- Maquinari
- Expertesa en gestió
- Pressupost
(imatge font )
Algunes eines provades per ETL / Warehousing a centres de dades són:
- Apatxe Hadoop
- Rusc Apache
- Apache Parquet
- Motor de consultes Presto
Les empreses del núvol com Google, AWS i Microsoft Azure proporcionen aquestes eines de pagament per base i estalvien la despesa de capital inicial.
Etapa 3: analítica i visualització
Tenint en compte la limitació d’Hadoop en la consulta ràpida, cal utilitzar plataformes i eines d’anàlisi que permetin fer consultes ràpides i ad-hoc amb la visualització necessària dels resultats.
>> Lectura recomanada: Eines de Big Data
Etapa 4: Seguiment
Després de configurar una infraestructura per a la ingestió, emmagatzematge i anàlisi amb eines de visualització, el següent pas és disposar d'eines de supervisió de TI i dades. Això inclou:
- Ús de CPU o GPU
- Consum de memòria i recursos
- Xarxes
Algunes eines que val la pena considerar són:
- Datadog
- Grafana
Les eines de supervisió són indispensables en una canalització d’anàlisi de dades grans i ajuden a controlar la qualitat i la integritat de la canonada.
Arquitectura Big Data Analytics
El diagrama d’arquitectura següent mostra com les tecnologies modernes utilitzen fonts de dades no estructurades i estructurades per al processament Hadoop i Map-reduce, sistemes analítics en memòria i anàlisis en temps real per obtenir resultats combinats per a operacions en temps real i presa de decisions.
(imatge font )
Tendències actuals en analítica de dades
En aquesta secció, hem llistat els aspectes essencials que cal tenir en compte a l’hora d’implementar o seguir les tendències de l’anàlisi de big data a la indústria.
# 1) Fonts de dades grans
Hi ha principalment tres fonts de Big Data. Aquests es detallen a continuació:
- Dades socials: Dades generades a causa de l’ús de les xarxes socials. Aquestes dades ajuden a entendre el fitxer sentiments i comportament dels clients i pot ser útil en anàlisis de màrqueting.
- Dades de la màquina: Aquestes dades es capturen d’equips i aplicacions industrials mitjançant sensors IoT. Ajuda a la comprensió de la gent comportament i proporciona informació sobre processos .
- Dades transaccionals: Es genera com a resultat de les activitats en línia i fora de línia dels usuaris sobre ordres de pagament, factures, rebuts, etc. La majoria d’aquest tipus de dades necessiten pre-processament i neteja abans que es pugui utilitzar per a analítiques.
# 2) Emmagatzematge de dades SQL / NoSQL
En comparació amb les bases de dades o RDBMS tradicionals, les bases de dades NoSQL resulten millors per a les tasques necessàries per a l’anàlisi de big data.
Les bases de dades NoSQL poden tractar de manera intrínseca les dades no estructurades força bé i no es limiten a costoses modificacions d’esquema, escala vertical i interferències de propietats ACID.
# 3) Anàlisi predictiu
Predictive Analytics ofereix estadístiques personalitzades que condueixen les organitzacions a generar respostes o compres de clients nous i oportunitats de venda creuada. Les organitzacions utilitzen anàlisis predictives per fer prediccions sobre elements individuals a nivells granulars per predir resultats futurs i prevenir possibles problemes. A més, es combina amb dades històriques i es converteix en anàlisis prescriptives.
Algunes àrees on s’ha utilitzat amb èxit l’anàlisi predictiva de dades massives són els negocis, la protecció de la infància, els sistemes de suport a les decisions clíniques, la predicció de carteres, les prediccions a nivell d’economia i la subscripció.
# 4) Aprenentatge profund
El big data és aclaparador per a la informàtica convencional. Resulta que les tècniques tradicionals d’aprenentatge automàtic d’anàlisi de dades aplanen el rendiment amb l’augment de la varietat i el volum de dades.
L’anàlisi s’enfronta a desafiaments respecte a variacions de format, fonts d’entrada molt distribuïdes, dades d’entrada desequilibrades i dades de transmissió ràpida i els algoritmes d’aprenentatge profund fan front a aquests reptes de manera força eficient.
L’aprenentatge profund ha trobat el seu ús eficaç en la indexació semàntica, la realització de tasques discriminatives, la imatge semàntica i l’etiquetatge de vídeo, l’orientació social, i també en els enfocaments d’aprenentatge jerarquitzats a diversos nivells en les àrees de reconeixement d’objectes, etiquetatge de dades, recuperació d’informació i llenguatge natural. processament.
# 5) Llacs de dades
Emmagatzemar diferents conjunts de dades en diferents sistemes i combinar-los per fer anàlisis amb enfocaments tradicionals de gestió de dades resulta costós i és gairebé inviable. Per tant, les organitzacions estan elaborant Data Lake, que emmagatzema dades en el seu format nadiu i cru per a una anàlisi accionable.
La imatge següent mostra un exemple de llac de dades a l'arquitectura de dades massives.
(imatge font )
Usos de Big Data Analytics
A continuació, es detallen alguns casos d’ús freqüents:
# 1) Anàlisi del client
Big Data Analytics és útil per a diversos propòsits, com ara el micromàrqueting, el màrqueting individual, la segmentació més fina i la personalització massiva per als clients d’una empresa. Les empreses poden crear estratègies per personalitzar els seus productes i serveis segons la propensió del client a vendre o vendre de manera creuada una gamma similar o diferent de productes i serveis.
# 2) Operació Analytics
L’anàlisi d’operacions ajuda a millorar la presa de decisions generals i els resultats empresarials aprofitant les dades existents i enriquint-les amb les dades de la màquina i de l’IoT.
Per exemple, l’anàlisi de dades massives en salut ha permès afrontar reptes i noves oportunitats relacionades amb l’optimització de la despesa sanitària, millorant el seguiment dels assaigs clínics, predint i planificant les respostes a epidèmies de malalties com COVID-19.
# 3) Prevenció de fraus
L’anàlisi de dades massives es veu amb el potencial d’oferir un gran benefici ajudant a anticipar i reduir els intents de frau, principalment en els sectors financer i assegurador.
Per exemple, Les companyies d’assegurances capturen dades en temps real sobre demografia, guanys, reclamacions mèdiques, despeses d’advocat, meteorologia, gravacions de veu d’un client i notes del centre de trucades. Els detalls específics en temps real ajuden a obtenir models predictius combinant la informació esmentada anteriorment amb dades històriques per identificar les reclamacions fraudulentes especulades amb antelació.
# 4) Optimització de preus
Les empreses utilitzen analítiques de dades massives per augmentar els marges de benefici en trobar el millor preu a nivell de producte i no a nivell de categoria. A les grans empreses els resulta massa aclaparador obtenir els detalls detallats i la complexitat de les variables de preus, que canvien regularment per a milers de productes.
Una estratègia d’optimització de preus basada en l’anàlisi, com ara la puntuació dinàmica de les ofertes, permet a les empreses establir preus per a clústers de productes i segments en funció de les seves dades i estadístiques sobre els nivells d’ofertes individuals per obtenir victòries ràpides de clients exigents.
Preguntes freqüents
P # 1) L'anàlisi de dades massives és una bona carrera?
Resposta: És un valor afegit per a qualsevol organització, ja que li permet prendre decisions informades i proporcionar un avantatge sobre els competidors. Un pas professional al Big Data augmenta les possibilitats de convertir-se en un factor decisiu clau per a una organització.
Q # 2) Per què és important l’anàlisi de big data?
Resposta: Ajuda les organitzacions a crear noves oportunitats de creixement i categories de productes completament noves que puguin combinar i analitzar dades del sector. Aquestes empreses tenen una àmplia informació sobre els productes i serveis, compradors i proveïdors, les preferències dels consumidors que es poden capturar i analitzar.
P # 3) Què es requereix per a l'anàlisi de big data?
Resposta: La gamma de tecnologies que un bon analista de big data ha de conèixer és enorme. Per dominar l’anàlisi de Big Data, cal que comprengueu diverses eines, programari, maquinari i plataformes. Per exemple, Els fulls de càlcul, les consultes SQL i R / R Studio i Python són algunes eines bàsiques.
A nivell empresarial, eines com MATLAB, SPSS, SAS i Congnos són importants a més de Linux, Hadoop, Java, Scala, Python, Spark, Hadoop i HIVE.
Preguntes objectives:
Q # 4) Quina de les bases de dades que es donen a continuació no és una base de dades NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- Base HB
Resposta: PostgreSQL
Q # 5) Cassandra és un NoSQL?
- És cert
- Fals
Resposta: És cert
P # 6) Quina de les opcions següents no és propietat d'Hadoop?
com comparar 2 fitxers a unix
- Codi obert
- Basat en Java
- Processament distribuït
- Temps real
Resposta: Temps real
Q # 7) Trieu totes les activitats que NO siguin realitzades per un científic de dades.
- Construeix models d’aprenentatge automàtic i millora el seu rendiment.
- Avaluació de models estadístics per validar anàlisis
- Resumiu anàlisis avançades mitjançant eines de visualització de dades
- Presentació de resultats d’anàlisis tècniques a equips interns i clients empresarials
Resposta: Presentació de resultats d’anàlisis tècniques a equips interns i clients empresarials
Més lectura = >> Diferències clau entre Data Analyst i Data Scientist
Q # 8) Quines activitats realitza un analista de dades?
- Netejar i organitzar les dades en brut
- Trobar tendències interessants en dades
- creeu taulers de control i visualitzacions per facilitar-ne la interpretació
- Tot l'anterior
Resposta: Tot l'anterior
P # 9) Quina de les següents opcions realitza un enginyer de dades?
- Integració de noves fonts de dades al canal d’anàlisi de dades existent
- El desenvolupament d’API per al consum de dades
- supervisió i proves del sistema per obtenir un rendiment continuat
- Tot l'anterior
Resposta: Tot l'anterior
Q # 10) La seqüència correcta del flux de dades per a l'anàlisi és
- Fonts de dades, Preparació de dades, Transformació de dades, Disseny d’algorismes, Anàlisi de dades
- Fonts de dades, Transformació de dades, Disseny d’algorismes, Preparació de dades, Anàlisi de dades
- Fonts de dades, Disseny d’algorismes, Preparació de dades, Transformació de dades, Anàlisi de dades
- Fonts de dades, Preparació de dades, Disseny d’algorismes, Transformació de dades, Anàlisi de dades
Resposta: Fonts de dades, Preparació de dades, Transformació de dades, Disseny d’algorismes, Anàlisi de dades
Q # 11) L'anàlisi de dades és un procés lineal.
- És cert
- Fals
Resposta: Fals
Q # 12) L'anàlisi exploratòria NO és
- Resposta preguntes inicials d’anàlisi de dades en detall
- Determineu problemes amb el conjunt de dades
- Elaboreu un esbós d’una resposta a la pregunta
- Determineu si les dades són correctes per respondre a una pregunta
Resposta: Respostapreguntes inicials d’anàlisi de dades en detall
Q # 13) La pregunta de predicció és un altre nom que es dóna a una pregunta inferencial.
- És cert
- Fals
Resposta: Fals
Conclusió
Hem tractat els aspectes més importants de l’anàlisi del big data. Vam explicar els casos d’ús més freqüents i les tendències de la indústria de l’anàlisi de dades massives per obtenir els màxims beneficis.
Lectura recomanada
- Les 7 millors empreses d’anàlisi de dades del 2021 (Llista actualitzada del 2021)
- Les 15 principals eines de Big Data (eines d’anàlisi de dades grans) del 2021
- 10 millors eines d'anàlisi de dades per a una gestió perfecta de les dades (LLISTA 2021)
- Top 10 de les eines de ciència de dades el 2021 per eliminar la programació
- Tutorial de Big Data per a principiants | Què és el Big Data?
- Les 13 millors empreses de Big Data del 2021
- 10 millors eines de modelatge de dades per gestionar dissenys complexos
- 10+ millors eines de governança de dades per satisfer les vostres necessitats de dades el 2021