Tutorial Apache Hadoop YARN per a principiants

apache hadoop yarn tutorial

Proveu El Nostre Instrument Per Eliminar Problemes

Seleccioneu El Sistema Operatiu Trieu Un Programa De Projecció (Opcionalment)

Descriviu El Vostre Problema

Components Hadoop: MapReduce With Hadoop YARN:

Al nostre tutorial anterior sobre el component Hadoop, vam aprendre sobre Hadoop MapReduce i el seu mecanisme de processament com INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING i RESULTAT FINAL.

En aquest tutorial explorarem:

Com funciona Map Reduce amb YARN?
Flux de treball de l'aplicació de Hadoop YARN.

=> Mireu aquí la guia per a principiants de BigData.

REDUIR MAPA Amb Hadoop YARN

Què aprendreu:

Reduir mapa amb Hadoop YARN
Conclusió
- Lectura recomanada

Reduir mapa amb Hadoop YARN

Comprenguem com MapReduce utilitza YARN per executar els treballs a través del clúster Hadoop. Però abans de continuar, la primera qüestió que ens ve al cap és quina és la forma completa de YARN? O què significa YARN?

FILAT significa Un altre negociador de recursos.

És la que assigna els recursos per a diversos treballs que cal executar a través del clúster Hadoop. Es va introduir a Hadoop 2.0.

Till Hadoop 1.0 MapReduce era l'únic marc o l'única unitat de processament que es pot executar a través del clúster Hadoop. Tanmateix, a Hadoop 2.0 es va introduir YARN i utilitzant això, també podem anar més enllà de MapReduce.

Marc compatible amb Hadoop YARN

Com podeu veure al diagrama, tenim HDFS a la part inferior, tenim YARN i utilitzem YARN, molts marcs poden connectar-se i utilitzar HDFS. Per tant, fins i tot MapReduce s’utilitza per connectar-se amb YARN per sol·licitar els recursos i només llavors pot executar el treball a través d’HDFS, és a dir, Hadoop Cluster.

De la mateixa manera; SPARK, STORM i altres motors de cerca es poden connectar a HDFS. HBase, que és una base de dades No SQL, també pot connectar-la. Així doncs, les aplicacions d’HDFS es van convertir en enormes, només perquè YARN va ser capaç d’obrir el Gate per a altres frameworks i altres eines d’anàlisi de Bigdata.

Quina diferència hi ha entre MapReduce Version1 (MRv1) i MapReduce Version2 (MRv2)?

MRv1 era essencialment una part del marc Hadoop 1 i amb Hadoop 2 YARN va entrar a la imatge i MapReduce es va actualitzar a MRv2 amb diversos canvis a les classes. Les classes es van actualitzar, però, la sintaxi d’escriure el programa MapReduce continua sent la mateixa.

En aquest escenari, MapReduce ara es connecta amb YARN a l'eix HDFS.

Juntament amb YARN, Resource Manager i Node Manager són els nous dimonis que es van introduir al clúster Hadoop.

Anteriorment era el Job Tracker i el Task Tracker. Tanmateix, es van eliminar de Hadoop 2.0 i el gestor de recursos i el gestor de nodes es van introduir juntament amb YARN al marc Hadoop.

Hadoop 2.x Dimonis

Fem una ullada ràpida als recentment introduïts Daemons a Hadoop 2.0 que executen els components, és a dir, emmagatzematge i processament.

com trobar la clau de seguretat de xarxa per al wifi

Al tutorial HDFS, hem entès el Daemon, és a dir, NameNode i DataNode en detall. En aquest tutorial, entendrem com funcionen el gestor de recursos i el gestor de nodes al clúster Hadoop 2.x per gestionar el processament i les tasques que cal executar al clúster Hadoop.

Components de Hadoop 2.X

Llavors, què és el gestor de recursos? El gestor de recursos és el dimoni principal que s'executa a la màquina principal o al NameNode, que és una màquina de gamma alta. El gestor de nodes, en canvi, és el dimoni que s’executa en màquines esclaus o en els nodes de dades o juntament amb el procés de nodes de dades.

Hadoop 2.x Components MapReduce YARN

A continuació, expliquem els altres components de YARN.

Client: És una unitat que envia la interfície de línia d’ordres (CLI) semblant a una tasca i el client pot ser una aplicació JAVA.
Gestor de recursos: Es tracta d'un dimoni mestre al qual s'envien tots els treballs del client i és el que assigna tots els recursos de nivell de clúster per a l'execució d'un treball concret. Funciona amb una màquina de gamma alta que té un maquinari de bona qualitat i una bona configuració, ja que és la màquina principal que ha de gestionar-ho tot a través del clúster.
Administrador de nodes : És un dimoni esclau que s'executa a les màquines esclaus o al DataNode, de manera que cada màquina esclau té un gestor de nodes en execució. Supervisa els recursos d'un determinat DataNode, Resource Manager gestiona els recursos del clúster i Node Manager gestiona els recursos DataNode.
Servidor de l’historial de feines: És la unitat per fer un seguiment de tots els treballs que s’han executat a través del clúster o que s’han enviat al clúster. També fa un seguiment de l’estat i també guarda els fitxers de registre de cada execució que s’ha produït a través del clúster Hadoop.
Màster d'aplicacions : És un component que s'executa a través de Node Machine, Slave Machine i que és creat per un gestor de recursos per executar i gestionar un treball. És el que negocia els recursos del gestor de recursos i, finalment, es coordina amb el gestor de nodes per executar la tasca.
Contenidor: El crea el propi gestor de nodes que ha estat assignat pel gestor de recursos i, finalment, tots els treballs s’executen al contenidor.

Flux de treball YARN

Com es mostra al diagrama anterior, hi ha un Gestor de recursos al qual s’envien tots els llocs de treball i hi ha un clúster en el qual hi ha màquines esclaus i, a cada màquina esclau, hi ha Administrador de nodes corrent.

Gestor de recursos té dos components, és a dir, Programador i Gestor d'aplicacions.

Quina diferència hi ha entre Application Master i Application Manager?

Gestor d'aplicacions és un component de Gestor de recursos que garanteix que cada tasca s'executa i un Màster d'aplicacions està creat per a això. Mestre d'aplicacions, d'altra banda, hi ha algú que executa la tasca i sol·licita tots els recursos que cal executar.

Suposem que el treball s’envia al Gestor de recursos , tan aviat com s'envia el lloc de treball Programador programa el Treball. Un cop el Programador programa el treball per executar el fitxer Gestor d'aplicacions crearà un fitxer Contenidor en un dels fitxers DataNodes , i dins d’aquest Contenidor, el Màster d'aplicacions s’iniciarà.

Això Màster d'aplicacions llavors es registrarà a la Gestor de recursos i sol·licitud de Contenidor per executar la tasca. Tan aviat com el Contenidor s'assigna, el fitxer Màster d'aplicacions ara estarà connectat amb el fitxer Administrador de nodes i sol·liciteu el llançament de Contenidor .

Com podem veure, el Màster d'aplicacions s'ha assignat a DataNodes D i ÉS , i ara això Màster d'aplicacions va sol·licitar el Administrador de nodes per llançar el fitxer Contenidors de DataNode D. i DataNode E .

Tan aviat com el Contenidors es van llançar, el Màster d'aplicacions executarà la tasca dins del fitxer Contenidor i el resultat s'enviarà de nou al fitxer Client .

Flux d'aplicació

Anem a entendre-ho d’una manera una mica seqüencial.

Al diagrama següent, tenim quatre components. El primer és el Client, el segon és Gestor de recursos , el tercer és Administrador de nodes i la quarta línia conté Màster d'aplicacions .

Seqüència d’execució

Vegem, doncs, com s’executen aquests passos entre ells.

El primer pas és el Client qui envia el treball al Gestor de recursos , al segon pas el fitxer Gestor de recursos assigna un Contenidor per iniciar el Màster d'aplicacions a la Màquines esclaves ; el tercer pas és el Màster d'aplicacions es registra amb el fitxer Gestor de recursos .

Tan bon punt es registra, sol·licita el fitxer Contenidor per executar la tasca, és a dir, el quart pas. Al pas cinc, el fitxer Màster d'aplicacions notifica el Administrador de nodes sobre el qual el Contenidor s’ha de llançar.

Al sisè pas, un cop el fitxer Administrador de nodes ha llançat el Contenidors, el Màster d'aplicacions executarà el codi dins d'aquests Contenidors .

Finalment, al setè pas, el fitxer Client contacta amb Gestor de recursos o el Màster d'aplicacions per supervisar l'estat de l'aplicació.

Al final, el Màster d'aplicacions es donarà de baixa de Gestor de recursos i el resultat es torna a la Client . Així doncs, aquest és un simple flux seqüencial de com s’executa un programa MapReduce mitjançant el framework YARN.

Conclusió

Per tant, en aquest tutorial hem après els següents consells:

FILAT significa Un altre negociador de recursos.
YARN es va introduir a Hadoop 2.0
El gestor de recursos i el gestor de nodes es van introduir juntament amb YARN al marc Hadoop.
Components de YARN com a client, gestor de recursos, gestor de nodes, servidor d'historial de treballs, mestre d'aplicacions i contenidor.

En el proper tutorial, analitzarem les tècniques de prova de BigData i els reptes als quals s’enfronten les proves BigData. També coneixerem com superar aquests reptes i qualsevol forma de passar per alt per fer les proves BigData fàcils.

=> Visiteu aquí per aprendre BigData des de zero.

Tutorial Apache Hadoop YARN per a principiants | Què és YARN?

Reduir mapa amb Hadoop YARN

Hadoop 2.x Dimonis

Hadoop 2.x Components MapReduce YARN

Flux de treball YARN

Flux d'aplicació

Conclusió

Lectura recomanada

Articles D'Interès

L'Elecció De L'Editor

Què ha estat jugant aquesta setmana, Destructoid?

Com fer Shrek a Infinite Craft

L'Eternal Cylinder és una joia i arribarà a Steam, PS5 i Xbox Series X/S a l'octubre

Ryu i Guile estan portant els seus culs a Exoprimal X Street Fighter 6

Fallout Classic Collection a PC gratuïta per a tots aquells que van jugar a Fallout 76 el 2018

Quick Hit Football: una estratègia de rol RPG

Córrer és més ràpid que rodar a Pokémon Legends, aquí teniu la prova científica

Devolver Digital ofereix l'emissió de Devolver Delayed per al 7 d'agost

Ressenya: Contes de Xillia

Els jugadors d'Assassin's Creed es reuneixen per reanimar el multijugador mort durant molt de temps

Sabeu qui més està trist que el Show Regular s’ha acabat?

Deliciós Mudokons per a tots: llibre d’art The Art of Oddworld Inhabitants

Skytex Softbox - the perfect solution for professional photography and videography.