Hvad er fordelene ved Hadoop 2.0 (YARN) -rammen?

Forfatter: Roger Morrison
Oprettelsesdato: 18 September 2021
Opdateringsdato: 1 Juli 2024
Anonim
What is Hadoop Yarn? | Hadoop Yarn Tutorial | Hadoop Yarn Architecture | COSO IT
Video.: What is Hadoop Yarn? | Hadoop Yarn Tutorial | Hadoop Yarn Architecture | COSO IT

Indhold


Kilde: Jim Hughes / Dreamstime.com

Tag væk:

YARN er en betydelig forbedring i forhold til Hadoop 1.0-rammerne. Her undersøger vi nogle af de fordele, det har i forhold til sin forgænger.

Siden det tidspunkt, hvor begrebet big data blev introduceret, har det gennemgået flere udviklingsfaser. Hadoop blev introduceret i 2005 med nogle indledende funktioner, såsom MapReduce-behandlingsmotoren, der gjorde det muligt i stor skala at behandle arbejdsmængder, der blev distribueret i klynger. Hadoop selv har oplevet en række ændringer og har udviklet avancerede rammer og metoder.

YARN er en kernekomponent i Hadoop 2.0. Det administrerer dybest set ressourcerne i et klynget miljø. YARN-mægleren interagerer med beregne ressourcer (på vegne af applikationerne) og tildeler ressourcer til hver applikation baseret på forskellige filtreringskriterier.

I denne artikel skal vi se på de største fordele ved YARN i forhold til Hadoop 1.0.


Hvad er YARN-rammen?

Yet ENnother Resource Negotiator er en kernekomponent i Hadoop 2.0, der administrerer ressourcer i et klynget miljø. Hadoop YARN-rammen er en avanceret version af Hadoop 1.0, der giver forbedret ydelse, som er gavnlig for Hadoop-økosystemet og for hele teknologien, der er forbundet med det. Nu hvor vi er lidt mere fortrolige med YARN, lad os se nærmere på Hadoop 1.0 og YARN.

Begrænsninger i Hadoop 1.0-rammen

For at forstå fordelene ved YARN-rammen er det meget vigtigt at forstå, hvordan Hadoop 1.0 fungerer, og hvad begrænsningerne i denne ramme er.

Det er her JobTracker-rollen kommer ind. Den styrer både klyngeressourcerne og bestemmer MapReduce-jobudførelsen. I en nøddeskal planlægger og reserverer JobTracker opgavens slots og konfigurerer og overvåger hver kørende opgave. Hvis en opgave mislykkes, tildeles den en ny slot til opgaven at starte igen. Når en opgave er færdig, frigiver JobTracker pladsen til andre opgaver og renser de midlertidige ressourcer.


Store ulemper ved ovenstående tilgang:

  • Tilgængelighed - JobTracker er det eneste tilgængelighedspunkt i Hadoop 1.0. Dette betyder, at hvis JobTracker mislykkes, genstartes alle opgaver som standard.
  • Begrænset skalerbarhed - Da JobTracker udfører flere opgaver og kører på en enkelt maskine, bruges de andre tilgængelige maskiner ikke; hvilket resulterer i begrænset skalerbarhed.
  • Ressourceudnyttelse - I ovennævnte tilgang er kortpladserne og reduktionspladserne foruddefineret. Det kan ske, at den ene slot er fuld, men de andre maskinspor er tomme. Da de tomme slots er reserveret, vil de sidde i tomgang i stedet for at gå på kompromis med de fulde slots. Dette kan forårsage et spørgsmål om ressourceudnyttelse.
  • Kørelse af ikke-MapReduce-applikationer - JobTracker er et program, der er bygget til MapReduce-rammerne. Problemet opstår, når et ikke-MapReduce-program prøver at køre inden for denne ramme. Applikationen skal overholde MapReduce-rammeprogrammering for at kunne køre med succes. Nogle af de almindelige problemer, som dette står overfor, inkluderer problemer med:
    • Ad-hoc forespørgsel
    • Realtidsanalyse
    • forbipasserende tilgang
  • Fejl ved kaskading - Et af de vigtigste problemer i denne ramme opstår, når antallet af noder er større end 4000. I et sådant scenarie opstår der en kaskadefejl, hvilket resulterer i forringelse af den komplette klynge.

Dette er nogle af de største begrænsninger, man arbejder med denne ramme. Der er også nogle andre mindre begrænsninger, som ikke nævnes. YARN-rammen blev indført for at overvinde disse begrænsninger.

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

YARN Framework og dens fordele

YARN-rammen, der blev introduceret i Hadoop 2.0, er beregnet til at dele MapReduce's ansvar og tage sig af klyngestyringsopgaven. Dette gør det muligt for MapReduce kun at udføre databehandling og dermed strømline processen.

YARN bringer konceptet med en central ressourcestyring ind. Dette gør det muligt for flere applikationer at køre på Hadoop og dele en fælles ressourcestyring.

Nogle af de vigtigste komponenter i YARN-rammen er:

  • ResourceManager - ResourceManager-komponenten er forhandleren i en klynge for alle de ressourcer, der findes i den klynge. Desuden klassificeres denne komponent i en applikationsadministrator, der er ansvarlig for styring af brugerjob. Fra Hadoop 2.0 betragtes ethvert MapReduce-job som en applikation.
  • ApplicationMaster - Denne komponent er det sted, hvor et job eller en applikation findes. Det administrerer også alle MapReduce-job og afsluttes, når jobbehandlingen er afsluttet.
  • NodeManager - Node Manager-komponenten fungerer som serveren til jobhistorik. Det er ansvarligt for at sikre information om de afsluttede job. Det holder også styr på brugernes job sammen med deres arbejdsgang for en bestemt knude.

Husk, at YARN-rammen har forskellige komponenter til at styre de forskellige opgaver, så lad os se, hvordan det tæller begrænsningerne i Hadoop 1.0.

  • Bedre ressourceudnyttelse - YARN-rammen har ikke faste slots til opgaver. Det giver en central ressourceadministrator, som giver dig mulighed for at dele flere applikationer gennem en fælles ressource.
  • Kørelse af applikationer, der ikke er MapReduce - I YARN er planlægnings- og ressourcestyringsfunktionerne adskilt fra databehandlingselementet. Dette gør det muligt for Hadoop at køre forskellige typer applikationer, som ikke er i overensstemmelse med programmeringen af ​​Hadoop-rammen. Hadoop-klynger er nu i stand til at køre uafhængige interaktive forespørgsler og udføre bedre realtidsanalyse.
  • Bagudkompatibilitet - YARN kommer som en bagudkompatibel ramme, hvilket betyder, at ethvert eksisterende job i MapReduce kan udføres i Hadoop 2.0.
  • JobTracker findes ikke længere - JobTrackerens to hovedroller var ressourcestyring og jobplanlægning. Med introduktionen af ​​YARN-rammen er disse nu opdelt i to separate komponenter, nemlig:
    • NodeManager
    • ResourceManager

Konklusion

Introduktionen af ​​YARN-rammen har gjort det lettere at bygge applikationer til Hadoop-udviklere. Nu skal applikationerne ikke længere implementeres med tredjepartsværktøjer. YARN er en enorm ændring, der giver brugerne mulighed for at overveje Hadoop 2.0 for at oprette applikationer og manipulere data mere effektivt. Med tiden vil der være yderligere udviklinger for at forbedre Hadoops anvendelighed. For tiden vil YARN-rammen spille en afgørende rolle i håndteringen af ​​de eksisterende problemer og skabe et problemfri miljø, der er mere alsidigt end den tidligere version af MapReduce-modellen.