De 10 vigtigste Hadoop-vilkår, du har brug for at kende og forstå

Indhold

Men først et kig på, hvordan Hadoop fungerer
Hadoop Common
Hadoop Distribueret filsystem (HDFS)
MapReduce
HBase
hive
Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv
Apache-gris
Apache gnist
Apache Cassandra
Endnu en ressourceforhandler (YARN)
Impala

Kilde: Trueffelpix / Dreamstime.com

Tag væk:

For virkelig at forstå big data, skal du forstå lidt om Hadoop og sproget omkring det.

Big data, det iørefaldende navn for massive mængder af strukturerede, ustrukturerede eller semistrukturerede data, er notorisk vanskeligt at fange, gemme, administrere, dele, analysere og visualisere, i det mindste ved hjælp af traditionelle database- og softwareapplikationer. Derfor er big datateknologier potentialet til at styre og behandle store datamængder effektivt og effektivt. Og dets Apache Hadoop, der giver rammerne og tilhørende teknologier til at behandle store datasæt på tværs af klynger af computere på en distribueret måde. Så for virkelig at forstå big data, skal du forstå lidt om Hadoop. Her skal du tage et kig på de øverste udtryk, du hører med hensyn til Hadoop - og hvad de betyder.

Men først et kig på, hvordan Hadoop fungerer

Inden du går ind i Hadoop-økosystemet, skal du forstå to grundlæggende ting klart. Den første er, hvordan en fil gemmes i Hadoop; det andet er, hvordan lagrede data behandles. Alle Hadoop-relaterede teknologier arbejder hovedsageligt på disse to områder og gør det mere brugervenligt. (Få det grundlæggende om, hvordan Hadoop fungerer i, hvordan Hadoop hjælper med at løse Big Data-problemet.)

Nu videre til betingelserne.

Hadoop Common

Hadoop-rammen har forskellige moduler til forskellige funktionaliteter, og disse moduler kan interagere med hinanden af forskellige grunde. Hadoop Common kan defineres som et almindeligt forsyningsbibliotek, der understøtter disse moduler i Hadoop-økosystemet. Disse værktøjer er dybest set Java-baserede, arkiverede (JARs) filer. Disse værktøjer bruges hovedsageligt af programmerere og udviklere i udviklingsperioden.

Hadoop Distribueret filsystem (HDFS)

Hadoop Distribueret filsystem (HDFS) er et delprojekt af Apache Hadoop under Apache Software Foundation. Dette er rygraden i opbevaring i Hadoop-rammen. Det er et distribueret, skalerbart og fejletolerant filsystem, der spænder over flere hardware, kendt som Hadoop-klyngen. Formålet med HDFS er at lagre en enorm mængde data pålideligt med høj kapacitetsadgang til applikationsdata. HDFS følger master / slavearkitektur, hvor masteren er kendt som NameNode og slaverne er kendt som DataNodes.

MapReduce

Hadoop MapReduce er også et delprojekt af Apache Software Foundation. MapReduce er faktisk en softwareramme, der rent er skrevet i Java. Dets primære mål er at behandle store datasæt på et distribueret miljø (bestående af råvaremateriale) på en helt parallel måde. Rammen styrer alle aktiviteter som jobplanlægning, overvågning, eksekvering og genudførelse (i tilfælde af mislykkede opgaver).

HBase

Apache HBase er kendt som Hadoop-databasen. Det er en søjle, distribueret og skalerbar big data store. Det er også kendt som en type NoSQL-database, der ikke er et relationsdatabaseadministrationssystem. HBase-applikationer er også skrevet i Java, bygget oven på Hadoop og kører på HDFS. HBase bruges, når du har brug for real-time læse / skrive og tilfældig adgang til big data. HBase er modelleret baseret på Googles BigTable-koncepter.

hive

Apache Hive er et open source datalager software-system. Hive blev oprindeligt udviklet af før den kom under Apache Software Foundation og blev open source. Det letter styring og forespørgsel om store datasæt på distribueret Hadoop-kompatibel opbevaring. Hive udfører alle sine aktiviteter ved at bruge et SQL-lignende sprog kendt som HiveQL. (Lær mere i en kort introduktion til Apache Hive og gris.)

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Apache-gris

Gris blev oprindeligt initieret af Yahoo til at udvikle og udføre MapReduce-job på en stor mængde distribuerede data. Nu er det blevet et open source-projekt under Apache Software Foundation. Apache Pig kan defineres som en platform til analyse af meget store datasæt på en effektiv måde. Infrastrukturlag til svin producerer sekvenser af MapReduce-job til udførelse af den egentlige forarbejdning. Grisesproglag er kendt som Gris-latin, og det giver SQL-lignende funktioner til at udføre forespørgsler på distribuerede datasæt.

Apache gnist

Gnist blev oprindeligt udviklet af AMPLab ved UC Berkeley. Det blev et Apache-projekt på øverste niveau i februar 2014. Apache Spark kan defineres som en open source, generel, cluster-computing-ramme, der gør dataanalyse meget hurtigere. Det er bygget oven på Hadoop Distribueret filsystem, men det er ikke knyttet til MapReduce-rammen. Gnisternes ydeevne er meget hurtigere sammenlignet med MapReduce. Det giver API'er på højt niveau i Scala, Python og Java.

Apache Cassandra

Apache Cassandra er en anden open source NoSQL-database. Cassandra er vidt brugt til at styre store mængder strukturerede, semistrukturerede og ustrukturerede dataspændinger på tværs af flere datacentre og skylagring. Cassandra er designet baseret på en "mesterløs" arkitektur, hvilket betyder, at den ikke understøtter master / slave-modellen. I denne arkitektur er alle noder de samme, og dataene distribueres automatisk og lige på tværs af alle noder. De vigtigste funktioner i Cassandras er kontinuerlig tilgængelighed, lineær skalerbarhed, indbygget / tilpassbar replikering, ikke et enkelt punkt for fiasko og operationel enkelhed.

Endnu en ressourceforhandler (YARN)

Endnu en anden ressourceforhandler (YARN) er også kendt som MapReduce 2.0, men den falder faktisk under Hadoop 2.0. YARN kan defineres som en jobplanlægnings- og ressourcestyringsramme. Grundideen med YARN er at erstatte funktionaliteterne i JobTracker med to separate dæmoner, der er ansvarlige for ressourcestyring og planlægning / overvågning. I denne nye ramme vil der være en global ResourceManager (RM) og en applikationsspecifik master kendt som ApplicationMaster (AM). Den globale ResourceManager (RM) og NodeManager (pr. Nodeslave) danner den faktiske databehandlingsramme. Eksisterende MapReduce v1-applikationer kan også køres på YARN, men disse applikationer skal komprimeres med Hadoop2.x-krukker.

Impala

Impala kan defineres som en SQL-forespørgselsmotor med massiv parallel processorbehandling (MPP). Det kører naturligt inden for rammerne af Apache Hadoop. Impala er designet som en del af Hadoop-økosystemet. Det deler det samme fleksible filsystem (HDFS), metadata, ressourcestyring og sikkerhedsrammer som brugt af andre Hadoop-økosystemkomponenter. Det vigtigste punkt er at bemærke, at Impala er meget hurtigere i forespørgselbehandling sammenlignet med Hive. Men vi skal også huske, at Impala er beregnet til forespørgsel / analyse på et lille datasæt, og er hovedsageligt designet som et analytisk værktøj, der fungerer på behandlede og strukturerede data.

Hadoop er et vigtigt emne inden for it, men der er dem, der er skeptiske over for dets langsigtede levedygtighed. Læs mere i Hvad er Hadoop? En kynikerteori.