apache hadoop yarn tutorial
Components Hadoop: MapReduce With Hadoop YARN:
Al nostre tutorial anterior sobre el component Hadoop, vam aprendre sobre Hadoop MapReduce i el seu mecanisme de processament com INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING i RESULTAT FINAL.
En aquest tutorial explorarem:
- Com funciona Map Reduce amb YARN?
- Flux de treball de l'aplicació de Hadoop YARN.
=> Mireu aquí la guia per a principiants de BigData.
Què aprendreu:
Reduir mapa amb Hadoop YARN
Comprenguem com MapReduce utilitza YARN per executar els treballs a través del clúster Hadoop. Però abans de continuar, la primera qüestió que ens ve al cap és quina és la forma completa de YARN? O què significa YARN?
FILAT significa Un altre negociador de recursos.
És la que assigna els recursos per a diversos treballs que cal executar a través del clúster Hadoop. Es va introduir a Hadoop 2.0.
Till Hadoop 1.0 MapReduce era l'únic marc o l'única unitat de processament que es pot executar a través del clúster Hadoop. Tanmateix, a Hadoop 2.0 es va introduir YARN i utilitzant això, també podem anar més enllà de MapReduce.
Com podeu veure al diagrama, tenim HDFS a la part inferior, tenim YARN i utilitzem YARN, molts marcs poden connectar-se i utilitzar HDFS. Per tant, fins i tot MapReduce s’utilitza per connectar-se amb YARN per sol·licitar els recursos i només llavors pot executar el treball a través d’HDFS, és a dir, Hadoop Cluster.
De la mateixa manera; SPARK, STORM i altres motors de cerca es poden connectar a HDFS. HBase, que és una base de dades No SQL, també pot connectar-la. Així doncs, les aplicacions d’HDFS es van convertir en enormes, només perquè YARN va ser capaç d’obrir el Gate per a altres frameworks i altres eines d’anàlisi de Bigdata.
Quina diferència hi ha entre MapReduce Version1 (MRv1) i MapReduce Version2 (MRv2)?
MRv1 era essencialment una part del marc Hadoop 1 i amb Hadoop 2 YARN va entrar a la imatge i MapReduce es va actualitzar a MRv2 amb diversos canvis a les classes. Les classes es van actualitzar, però, la sintaxi d’escriure el programa MapReduce continua sent la mateixa.
En aquest escenari, MapReduce ara es connecta amb YARN a l'eix HDFS.
Juntament amb YARN, Resource Manager i Node Manager són els nous dimonis que es van introduir al clúster Hadoop.
Anteriorment era el Job Tracker i el Task Tracker. Tanmateix, es van eliminar de Hadoop 2.0 i el gestor de recursos i el gestor de nodes es van introduir juntament amb YARN al marc Hadoop.
Hadoop 2.x Dimonis
Fem una ullada ràpida als recentment introduïts Daemons a Hadoop 2.0 que executen els components, és a dir, emmagatzematge i processament.
com trobar la clau de seguretat de xarxa per al wifi
Al tutorial HDFS, hem entès el Daemon, és a dir, NameNode i DataNode en detall. En aquest tutorial, entendrem com funcionen el gestor de recursos i el gestor de nodes al clúster Hadoop 2.x per gestionar el processament i les tasques que cal executar al clúster Hadoop.
Llavors, què és el gestor de recursos? El gestor de recursos és el dimoni principal que s'executa a la màquina principal o al NameNode, que és una màquina de gamma alta. El gestor de nodes, en canvi, és el dimoni que s’executa en màquines esclaus o en els nodes de dades o juntament amb el procés de nodes de dades.
Hadoop 2.x Components MapReduce YARN
A continuació, expliquem els altres components de YARN.
- Client: És una unitat que envia la interfície de línia d’ordres (CLI) semblant a una tasca i el client pot ser una aplicació JAVA.
- Gestor de recursos: Es tracta d'un dimoni mestre al qual s'envien tots els treballs del client i és el que assigna tots els recursos de nivell de clúster per a l'execució d'un treball concret. Funciona amb una màquina de gamma alta que té un maquinari de bona qualitat i una bona configuració, ja que és la màquina principal que ha de gestionar-ho tot a través del clúster.
- Administrador de nodes : És un dimoni esclau que s'executa a les màquines esclaus o al DataNode, de manera que cada màquina esclau té un gestor de nodes en execució. Supervisa els recursos d'un determinat DataNode, Resource Manager gestiona els recursos del clúster i Node Manager gestiona els recursos DataNode.
- Servidor de l’historial de feines: És la unitat per fer un seguiment de tots els treballs que s’han executat a través del clúster o que s’han enviat al clúster. També fa un seguiment de l’estat i també guarda els fitxers de registre de cada execució que s’ha produït a través del clúster Hadoop.
- Màster d'aplicacions : És un component que s'executa a través de Node Machine, Slave Machine i que és creat per un gestor de recursos per executar i gestionar un treball. És el que negocia els recursos del gestor de recursos i, finalment, es coordina amb el gestor de nodes per executar la tasca.
- Contenidor: El crea el propi gestor de nodes que ha estat assignat pel gestor de recursos i, finalment, tots els treballs s’executen al contenidor.
Flux de treball YARN
Com es mostra al diagrama anterior, hi ha un Gestor de recursos al qual s’envien tots els llocs de treball i hi ha un clúster en el qual hi ha màquines esclaus i, a cada màquina esclau, hi ha Administrador de nodes corrent.
Gestor de recursos té dos components, és a dir, Programador i Gestor d'aplicacions.
Quina diferència hi ha entre Application Master i Application Manager?
Gestor d'aplicacions és un component de Gestor de recursos que garanteix que cada tasca s'executa i un Màster d'aplicacions està creat per a això. Mestre d'aplicacions, d'altra banda, hi ha algú que executa la tasca i sol·licita tots els recursos que cal executar.
Suposem que el treball s’envia al Gestor de recursos , tan aviat com s'envia el lloc de treball Programador programa el Treball. Un cop el Programador programa el treball per executar el fitxer Gestor d'aplicacions crearà un fitxer Contenidor en un dels fitxers DataNodes , i dins d’aquest Contenidor, el Màster d'aplicacions s’iniciarà.
Això Màster d'aplicacions llavors es registrarà a la Gestor de recursos i sol·licitud de Contenidor per executar la tasca. Tan aviat com el Contenidor s'assigna, el fitxer Màster d'aplicacions ara estarà connectat amb el fitxer Administrador de nodes i sol·liciteu el llançament de Contenidor .
Com podem veure, el Màster d'aplicacions s'ha assignat a DataNodes D i ÉS , i ara això Màster d'aplicacions va sol·licitar el Administrador de nodes per llançar el fitxer Contenidors de DataNode D. i DataNode E .
Tan aviat com el Contenidors es van llançar, el Màster d'aplicacions executarà la tasca dins del fitxer Contenidor i el resultat s'enviarà de nou al fitxer Client .
Flux d'aplicació
Anem a entendre-ho d’una manera una mica seqüencial.
Al diagrama següent, tenim quatre components. El primer és el Client, el segon és Gestor de recursos , el tercer és Administrador de nodes i la quarta línia conté Màster d'aplicacions .
Vegem, doncs, com s’executen aquests passos entre ells.
El primer pas és el Client qui envia el treball al Gestor de recursos , al segon pas el fitxer Gestor de recursos assigna un Contenidor per iniciar el Màster d'aplicacions a la Màquines esclaves ; el tercer pas és el Màster d'aplicacions es registra amb el fitxer Gestor de recursos .
Tan bon punt es registra, sol·licita el fitxer Contenidor per executar la tasca, és a dir, el quart pas. Al pas cinc, el fitxer Màster d'aplicacions notifica el Administrador de nodes sobre el qual el Contenidor s’ha de llançar.
Al sisè pas, un cop el fitxer Administrador de nodes ha llançat el Contenidors, el Màster d'aplicacions executarà el codi dins d'aquests Contenidors .
Finalment, al setè pas, el fitxer Client contacta amb Gestor de recursos o el Màster d'aplicacions per supervisar l'estat de l'aplicació.
Al final, el Màster d'aplicacions es donarà de baixa de Gestor de recursos i el resultat es torna a la Client . Així doncs, aquest és un simple flux seqüencial de com s’executa un programa MapReduce mitjançant el framework YARN.
Conclusió
Per tant, en aquest tutorial hem après els següents consells:
- FILAT significa Un altre negociador de recursos.
- YARN es va introduir a Hadoop 2.0
- El gestor de recursos i el gestor de nodes es van introduir juntament amb YARN al marc Hadoop.
- Components de YARN com a client, gestor de recursos, gestor de nodes, servidor d'historial de treballs, mestre d'aplicacions i contenidor.
En el proper tutorial, analitzarem les tècniques de prova de BigData i els reptes als quals s’enfronten les proves BigData. També coneixerem com superar aquests reptes i qualsevol forma de passar per alt per fer les proves BigData fàcils.
=> Visiteu aquí per aprendre BigData des de zero.
Lectura recomanada
- Què és Hadoop? Tutorial d'Apache Hadoop per a principiants
- 20+ Tutorial de MongoDB per a principiants: curs gratuït de MongoDB
- Tutorials Eclipse en profunditat per a principiants
- Tutorial Python per a principiants (entrenament pràctic GRATU PyT en Python)
- Tutorial de Big Data per a principiants | Què és el Big Data?
- Tutorial LoadRunner per a principiants (curs d'aprofundiment gratuït de 8 dies)
- Tutorial de Hadoop MapReduce amb exemples | Què és MapReduce?
- Millor sèrie de tutorials C # GRATU :TS: la millor guia C # per a principiants