big data tutorial beginners what is big data
Aquest tutorial explica tot sobre els conceptes bàsics del Big Data. El tutorial inclou avantatges, desafiaments, tecnologies i eines juntament amb aplicacions de Big Data:
En aquest món digital amb avenços tecnològics, intercanviem grans quantitats de dades diàriament com a Terabytes o Petabyte .
Si intercanviem diàriament aquesta quantitat de dades, també hem de conservar-les i emmagatzemar-les en algun lloc. La solució per manejar els grans volums de dades amb alta velocitat i varietat diferent és Dades massives.
Pot gestionar dades complexes procedents de diverses fonts, com ara diferents bases de dades, llocs web, widgets, etc. A més, pot vincular i relacionar les dades procedents de diferents fonts. De fet, proporciona un accés més ràpid a les dades ( Per exemple, social mitjana).
Llista de tutorials d'aquesta sèrie Big Data
Tutorial # 1: Què és el Big Data? (Aquest tutorial)
Tutorial # 2: Què és Hadoop? Tutorial d'Apache Hadoop per a principiants
Tutorial # 3: Hadoop HDFS: sistema de fitxers distribuït de Hadoop
Tutorial # 4: Guia d’ordres d’arquitectura i HDFS d’Hadoop
Tutorial # 5: Tutorial de Hadoop MapReduce amb exemples | Què és MapReduce?
Tutorial # 6: Tutorial Apache Hadoop YARN per a principiants | Què és YARN?
Tutorial # 7: Tutorial complet de proves Hadoop | Guia de proves de Big Data
Què aprendreu:
Què és el Big Data?
La paraula Huge no és suficient per explicar BigData, certes característiques classifiquen les dades en BigData.
Tenim tres característiques principals de BigData i, si alguna dada compleix aquestes característiques, es tractarà com a BigData. Jo t és la combinació de les tres V que s’esmenten a continuació:
quina diferència hi ha entre qa i qc
- Volum
- Velocitat
- Varietat
Volum : Les dades haurien de tenir un volum enorme. Big Data té la solució per mantenir una gran quantitat de dades que es troben en Terabyte o Petabyte. Podem realitzar operacions CRUD (Crear, llegir, actualitzar i suprimir) a BigData de manera fàcil i eficaç.
Velocitat : És responsable d'un accés més ràpid a les dades. Per exemple, avui en dia les xarxes socials necessiten un intercanvi ràpid de dades en una fracció de temps i BigData és la millor solució per a això. Per tant, la velocitat és una altra característica i és la velocitat de processament de dades.
Varietat : A les xarxes socials, tractem dades no estructurades, com ara enregistraments d'àudio o vídeo, imatges, etc. A més, diversos sectors com el domini bancari necessiten dades estructurades i semiestructurades. BigData és la solució per mantenir els dos tipus de dades en un sol lloc.
Varietat significa diferents tipus de dades, com ara dades estructurades / no estructurades que provenen de diverses fonts.
Dades estructurades : Les dades que tenen una estructura adequada o que es poden emmagatzemar fàcilment en forma tabular en qualsevol base de dades relacional com Oracle, SQL Server o MySQL es coneixen com a dades estructurades. El podem processar o analitzar fàcilment i eficientment.
Un exemple de dades estructurades són les dades emmagatzemades en una base de dades relacional que es poden gestionar mitjançant SQL (Structured Query Language). Per exemple, Les dades dels empleats (nom, identificació, designació i salari) es poden emmagatzemar en format tabular.
En una base de dades tradicional, podem realitzar operacions o processar dades no estructurades o semiestructurades només després de formatar-les o inserir-les a la base de dades relacional. Exemples de les dades estructurades són ERP, CRM, etc.
Dades semiestructurades: Les dades semiestructurades són les dades que no estan completament formatades. No s’emmagatzema a les taules de dades ni a cap base de dades. Tot i així, podem preparar-los i processar-los fàcilment, ja que aquestes dades contenen etiquetes o valors separats per comes, etc. Exemple de dades semiestructurades són fitxers XML, fitxers CSV, etc.
Dades no estructurades: Les dades no estructurades són les dades que no tenen cap estructura. Pot ser de qualsevol forma, no hi ha un model de dades predefinit. No el podem emmagatzemar a bases de dades tradicionals. És complex buscar-lo i processar-lo.
A més, el volum de dades no estructurades és molt alt. Exemple de dades no estructurades és un cos de correu electrònic, àudio, vídeo, imatges, documents aconseguits, etc.
Reptes de les bases de dades tradicionals
- La base de dades tradicional no admet una varietat de dades, és a dir, no pot gestionar dades no estructurades i semiestructurades.
- Una base de dades tradicional és lenta mentre es tracta d’una gran quantitat de dades.
- A les bases de dades tradicionals, el processament o l’anàlisi d’una gran quantitat de dades és molt difícil.
- Una base de dades tradicional és capaç d'emmagatzemar dades en terabytes o petabytes.
- Una base de dades tradicional no pot gestionar dades i informes històrics.
- Després d'una certa quantitat de temps, és necessària la neteja de les dades de la base de dades.
- El cost de mantenir una gran quantitat de dades és molt elevat amb una base de dades tradicional.
- La precisió de les dades és menor a la base de dades tradicional ja que no es conserven dades històriques completes.
Dades massivesAvantatges respecte a la base de dades tradicional
- Big Data és responsable de gestionar, gestionar i processar diferents tipus de dades, com ara Estructurada, Semiestructurada i No Estructurada.
- És rendible pel que fa al manteniment d’una gran quantitat de dades. Funciona en un sistema de bases de dades distribuïdes.
- Podem estalviar grans quantitats de dades durant molt de temps mitjançant tècniques de BigData. Per tant, és fàcil manejar dades històriques i generar informes precisos.
- La velocitat de processament de dades és molt ràpida i, per tant, les xarxes socials utilitzen tècniques de Big Data.
- La precisió de les dades és un gran avantatge del Big Data.
- Permet als usuaris prendre decisions eficients per al seu negoci basant-se en dades actuals i històriques.
- El tractament d’errors, el control de versions i l’experiència del client són molt eficaços a BigData.
Lectura suggerida => Big Data vs Big Data Analytics vs Data Science
Reptes i riscos a BigData
Desafiaments:
- Un dels principals reptes del Big Data és gestionar grans quantitats de dades. Avui dia les dades arriben a un sistema de diverses fonts amb varietat. Per tant, és un repte molt gran per a les empreses, gestionar-lo correctament. Per exemple, per generar un informe que contingui els darrers 20 anys de dades, cal guardar i mantenir els darrers 20 anys de dades d’un sistema. Per proporcionar un informe precís, només cal introduir les dades rellevants al sistema. No hauria de contenir dades irrellevants ni innecessàries; en cas contrari, mantenir aquesta quantitat de dades serà un gran repte per a les empreses.
- Un altre repte amb aquesta tecnologia és la sincronització de diversos tipus de dades. Com tots sabem, Big Data admet dades estructurades, no estructurades i semiestructurades que provenen de diferents fonts, és molt difícil sincronitzar-la i obtenir la consistència de les dades.
- El següent repte a què s’enfronten les empreses és la bretxa d’experts que poden ajudar i implementar els problemes que s’enfronten al sistema. Hi ha una gran bretxa de talent en aquest camp.
- Tractar l’aspecte de compliment és car.
- La recopilació, agregació, emmagatzematge, anàlisi i informes de dades de BigData té un cost enorme. L’organització hauria de ser capaç de gestionar tots aquests costos.
Riscos:
- Pot gestionar una gran varietat de dades, però si les empreses no poden entendre correctament els requisits i controlar la font de les dades, proporcionarà resultats defectuosos. Com a resultat, necessitarà molt de temps i diners per investigar i corregir els resultats.
- La seguretat de les dades és un altre risc amb BigData. Amb un gran volum de dades, hi ha més possibilitats que algú les robi. Els pirates informàtics poden robar i vendre informació important (incloses les dades històriques) de l’empresa.
- A més, la privadesa de dades és un altre risc per a BigData. Si volem protegir les dades personals i sensibles dels pirates informàtics, haurien de protegir-se i han de passar totes les polítiques de privadesa.
Big Data Technologies
A continuació es mostren les tecnologies que es poden utilitzar per gestionar Big Data:
- Apache Hadoop
- Microsoft HDInsight
- Sense SQL
- Rusc
- Sqoop
- BigData a Excel
Una descripció detallada d’aquestes tecnologies es tractarà als nostres propers tutorials.
Eines per utilitzar conceptes de Big Data
A continuació, es mostren les eines de codi obert que poden ajudar a utilitzar conceptes de Big Data:
# 1) Apache Hadoop
# 2) Lumify
# 3) Tempesta Apache
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) Sistema HPCC BigData
Aplicacions del Big Data
A continuació es mostren els dominis on s’utilitza:
- Banca
- Mitjans de comunicació i entreteniment
- Proveïdors sanitaris
- Assegurança
- Educació
- Venda al detall
- Fabricació
- Govern
BigData i magatzem de dades
Data Warehouse és un concepte bàsic que hem d’entendre abans de discutir les proves Hadoop o BigData.
Comprenguem Data Warehouse a partir d’un exemple en temps real. Per exemple , hi ha una empresa que ha establert les seves sucursals a tres països diferents; suposem una sucursal a l’Índia, Austràlia i Japó.
A totes les oficines, totes les dades del client s’emmagatzemen a la base de dades local. Aquestes bases de dades locals poden ser RDBMS clàssics normals com Oracle o MySQL o SQL Server, etc. i totes les dades del client s’emmagatzemaran diàriament.
Ara, cada trimestre, semestralment o anualment, l’organització vol analitzar aquestes dades per al desenvolupament del negoci. Per fer el mateix, l'organització recopilarà totes aquestes dades de diverses fonts i, a continuació, les reunirà en un sol lloc i s'anomenarà aquest lloc 'Magatzem de dades'.
Data Warehouse és un tipus de base de dades que conté totes les dades extretes de diverses fonts o de diversos tipus de base de dades mitjançant 'ETL' (que és el ÉS xtract, T ransform i L oad) procés. Un cop les dades estiguin llestes al Data Warehouse, podem utilitzar-les amb finalitats analítiques.
Per a la seva anàlisi, podem generar informes a partir de les dades disponibles al Data Warehouse. Es poden generar diversos gràfics i informes mitjançant Business Intelligence Tools.
b-arbre vs b + arbre
Necessitem Data Warehouse amb finalitats analítiques per fer créixer el negoci i prendre les decisions adequades per a les organitzacions.
Hi ha tres coses que passen en aquest procés, primer és que hem extret les dades de diverses fonts i les hem posat en una única ubicació que és Data Warehouse.
Aquí fem servir el procés 'ETL', de manera que mentre carregem les dades de diverses fonts a un lloc, les aplicarem a les arrels de transformació i, a continuació, podem utilitzar diversos tipus d'eines ETL aquí.
Un cop les dades estiguin llestes a Data Warehouse, podem generar diversos informes per analitzar les dades empresarials mitjançant les eines de Business Intelligence (BI) o també les anomenem eines d'informes. Les eines com Tableau o Cognos es poden utilitzar per generar informes i taulers per analitzar les dades empresarials.
OLTP i OLAP
Comprenem què són OLTP i què són OLAP?
Es denomina bases de dades que es mantenen localment i s’utilitzen amb finalitats transaccionals OLTP, és a dir, Processament de transaccions en línia. Les transaccions quotidianes s’emmagatzemaran aquí i s’actualitzaran immediatament, per això les anomenem sistema OLTP.
Aquí fem servir bases de dades tradicionals, tenim diverses taules i hi ha relacions, de manera que tot està planificat sistemàticament segons la base de dades. No utilitzem aquestes dades amb finalitats analítiques. Aquí podem utilitzar bases de dades clàssiques RDMBS com Oracle, MySQL, SQL Server, etc.
Quan arribem a la part Data Warehouse, fem servir Teradata o Hadoop Systems, que també són una mena de base de dades, però les dades d’un DataWarehouse s’utilitzen normalment amb finalitats analítiques i s’anomenen OLAP o bé Processament analític en línia.
Aquí, les dades es poden actualitzar trimestralment, semestralment o anualment. De vegades, les dades s'actualitzen també 'Offerly', on Offerly significa que les dades s'actualitzen i es recuperen per analitzar-les segons els requisits del client.
A més, les dades per a l’anàlisi no s’actualitzen diàriament, ja que obtindrem les dades de diverses fonts de forma programada i podem realitzar aquesta tasca ETL. Així funciona el sistema de processament analític en línia.
Un cop més, les eines de BI o les eines d'informes poden generar informes i també taulers, i en funció d'això, els empresaris prendran les decisions per millorar el seu negoci.
On apareix BigData a la imatge?
BigData són les dades que superen la capacitat d’emmagatzematge i processament de les bases de dades convencionals i estan en format estructurat i no estructurat, de manera que no poden ser manipulades pels sistemes RDBMS locals.
Aquest tipus de dades es generaran en TeraBytes (TB) o PetaBytes (PB) o més enllà i actualment augmenta ràpidament. Hi ha diverses fonts per obtenir aquest tipus de dades, com ara Facebook, WhatsApp (relacionades amb les xarxes socials); Amazon, Flipkart relacionat amb el comerç electrònic; Gmail, Yahoo, Rediff relacionats amb correus electrònics i Google i altres motors de cerca. També obtenim dades grans de mòbils com dades de SMS, gravació de trucades, registres de trucades, etc.
Conclusió
El Big Data és la solució per gestionar grans quantitats de dades de manera eficient i segura. És responsable de mantenir també les dades històriques. Hi ha molts avantatges d’aquesta tecnologia, és per això que totes les empreses volen canviar al Big Data
Autor: Vaishali Tarey, responsable tècnic @ Syntel
Lectura recomanada
- Tutorial de Data Mart: tipus, exemples i implementació de Data Mart
- Top 10 eines de disseny de bases de dades per crear models de dades complexos
- 20+ Tutorial de MongoDB per a principiants: curs gratuït de MongoDB
- Què és un llac de dades | Data Warehouse contra Data Lake
- Top 10 eines de validació i prova de dades estructurades per a SEO
- Model de dades dimensionals a Data Warehouse: tutorial amb exemples
- Mineria de dades: procés, tècniques i grans qüestions en l’anàlisi de dades
- Com realitzar proves basades en dades a SoapUI Pro - Tutorial SoapUI núm. 14