7 ting at vide om Hadoop

Video.: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Indhold

Hvordan kom Hadoop i gang?
Hvad er så vigtigt ved Hadoop?
Hvad læses skema på?
Hvad er Hive?
Hvilken type data analyserer Hadoop?
Kan du give et ægte eksempel på Hadoop?
Er Hadoop allerede forældet eller bare morfisk?

Kilde: Pressureua / Dreamstime.com

Tag væk:

Hadoop har hjulpet med at analysere data i mange år nu, men der er sandsynligvis mere end et par ting, du ikke ved om det.

Hvad er Hadoop? Det er en gul legetøjselefant. Ikke hvad du forventede? Hvad med det her: Doug Cutting - medskaber af dette open source-softwareprojekt - lånte navnet fra sin søn, der tilfældigvis kaldte hans legetøjselefant Hadoop. Kort sagt, Hadoop er en softwareramme udviklet af Apache Software Foundation, der bruges til at udvikle dataintensiv, distribueret computing. Og det er en nøglekomponent i et andet buzzword-læsere kan aldrig synes at få nok af: big data. Her er syv ting, du skal vide om denne unikke, frit licenserede software.

Hvordan kom Hadoop i gang?

For tolv år siden byggede Google en platform til at manipulere de enorme mængder data, den indsamlede. Som virksomheden ofte gør, gjorde Google sit design tilgængeligt for offentligheden i form af to papirer: Google File System og MapReduce.

På samme tid arbejdede Doug Cutting og Mike Cafarella på Nutch, en ny søgemaskine. De to kæmpede også med, hvordan de skulle håndtere store mængder data. Så fik de to forskere blæst på Googles papirer. Det heldige kryds ændrede alt ved at introducere Cutting og Cafarella til et bedre filsystem og en måde at holde styr på dataene og til sidst førte til oprettelsen af Hadoop.

Hvad er så vigtigt ved Hadoop?

I dag er indsamling af data lettere end nogensinde. At have alle disse data giver mange muligheder, men der er også udfordringer:

Massive datamængder kræver nye metoder til behandling.
De data, der indfanges, er i et ustruktureret format.

For at overvinde udfordringerne ved at manipulere enorme mængder ustrukturerede data kom Cutting og Cafarella med en todelt løsning. For at løse datamængdeproblemet anvender Hadoop et distribueret miljø - et netværk af vareserver - der skaber en parallel behandlingsklynge, som bringer mere behandlingskraft til at bære på den tildelte opgave.

Dernæst måtte de tackle ustrukturerede data eller data i formater, som standardrelationsdatabasesystemer ikke var i stand til at håndtere. Cutting og Cafarella designet Hadoop til at arbejde med alle typer data: strukturerede, ustrukturerede, billeder, lydfiler, selv. Denne hvidbog fra Cloudera (Hadoop integrator) forklarer, hvorfor det er vigtigt:

"Ved at gøre alle dine data brugbare, ikke kun hvad der findes i dine databaser, giver Hadoop dig mulighed for at afdække skjulte relationer og afslører svar, der altid har været ude af rækkevidde. Du kan begynde at tage flere beslutninger baseret på hårde data i stedet for hænder og se ved komplette datasæt, ikke kun prøver og resume. "

Hvad læses skema på?

Som nævnt tidligere er en af fordelene ved Hadoop dens evne til at håndtere ustrukturerede data. På en måde er det "at sparke dåsen ned ad vejen." Til sidst har dataene brug for en slags struktur for at analysere dem.

Det er her skemaet ved læst spiller ind. Skema ved læst er sammensmeltningen af, hvilket format dataene er i, hvor man kan finde dataene (husk, at dataene er spredt mellem flere servere), og hvad der skal gøres til dataene - ikke en simpel opgave. Det er blevet sagt, at manipulering af data i et Hadoop-system kræver en forretningsanalytiker, en statistiker og en Java-programmerings evner. Desværre er der ikke mange mennesker med disse kvalifikationer.

Hvad er Hive?

Hvis Hadoop skulle lykkes, skulle arbejdet med dataene forenkles. Så open source-mængden kom på arbejde og skabte Hive:

"Hive tilvejebringer en mekanisme til at projicere struktur på disse data og forespørge dataene ved hjælp af et SQL-lignende sprog kaldet HiveQL. På samme tid giver dette sprog også traditionelle kort / reducere programmerere mulighed for at tilslutte deres brugerdefinerede kort og reduktionsmaskiner, når det er ubelejligt eller ineffektiv til at udtrykke denne logik i HiveQL. "
Hive muliggør det bedste fra begge verdener: databasepersonale, der er bekendt med SQL-kommandoer, kan manipulere dataene, og udviklere, der er fortrolige med skemaet i læsprocessen, er stadig i stand til at oprette tilpassede forespørgsler.

Hvilken type data analyserer Hadoop?

Webanalyse er den første ting, der kommer til at tænke ved at analysere weblogfiler og webtrafik for at optimere websteder. for eksempel er bestemt i webanalyse, ved hjælp af Hadoop til at sortere gennem terabytterne af data, som virksomheden akkumulerer.

Virksomheder bruger Hadoop-klynger til at udføre risikoanalyse, bedrageri-afsløring og kundebase-segmentering. Hjælpefirmaer bruger Hadoop til at analysere sensordata fra deres elektriske net, så de kan optimere produktionen af elektricitet. En større virksomheder som Target, 3M og Medtronics bruger Hadoop til at optimere produktdistribution, forretningsrisikovurderinger og kundebasegmentering.

Universiteter investeres også i Hadoop. Brad Rubin, lektor ved University of St. Thomas Graduate Programs in Software, nævnte, at hans Hadoop-ekspertise hjælper med at sortere gennem de rigelige mængder data, der er udarbejdet af forskergrupper på universitetet.

Kan du give et ægte eksempel på Hadoop?

Et af de bedst kendte eksempler er TimesMachine. New York Times har en samling af helsides avis-TIFF-billeder, tilknyttede metadata og artikel fra 1851 til og med 1922 svarende til terabyte med data. NYT's Derek Gottfrid, der bruger et EC2 / S3 / Hadoop-system og specialkode ,:

"Indsatte 405.000 meget store TIFF-billeder, 3,3 millioner artikler i SGML og 405.000 xml-filer, der kortlægger artikler til rektangulære regioner i TIFF'erne. Disse data blev konverteret til en mere internetvenlig 810.000 PNG-billeder (miniaturer og fulde billeder) og 405.000 JavaScript-filer. "
Ved hjælp af servere i skyen Amazon Web Services nævnte Gottfrid, at de var i stand til at behandle alle de nødvendige data til TimesMachine på mindre end 36 timer.

Er Hadoop allerede forældet eller bare morfisk?

Hadoop har eksisteret i over et årti. Det har mange, der siger forældede. En ekspert, Dr. David Rico, har sagt, at "IT-produkter er kortvarige. I hundeår er Googles-produkter omkring 70, mens Hadoop er 56."

Der kan være en vis sandhed til hvad Rico siger. Det ser ud til, at Hadoop gennemgår en større revision. For at lære mere om det inviterede Rubin mig til et Twin Cities Hadoop-brugergruppemøde, og emnet for diskussion var Introduktion til YARN:

"Apache Hadoop 2 inkluderer en ny MapReduce-motor, som har en række fordele i forhold til den forrige implementering, herunder bedre skalerbarhed og ressourceudnyttelse. Den nye implementering er bygget på et generelt ressourcestyringssystem til at køre distribuerede applikationer kaldet YARN."Hadoop får en masse brummer i database- og indholdsstyringskredse, men der er stadig mange spørgsmål omkring det, og hvordan det bedst kan bruges. Disse er bare et par stykker. Hvis du har mere, dem vores måde. Besvar de bedste på Techopedia.com.