Hvorfor gnist er den fremtidige Big Data-platform

Video.: Lotus-Born Master: The Shambhala Access Code || Guru Padmasambhava, Guru Rinpoche ||

Indhold

Hvad er Apache Spark?
Hvorfor gnist er så vigtigt over Hadoop
Hvad er gnister unikke funktioner?
Hvorfor gnist ikke er en erstatning for Hadoop
Hvad virksomheder synes om Spark og Hadoop
Praktiske implementeringer
Konklusion

Kilde: Snake3d / Dreamstime.com

Tag væk:

Apache Spark er et open source-værktøj til behandling af big data, der kryber op på (og på nogle måder overgår) Hadoop.

Apache Hadoop har været grundlaget for big data-applikationer i lang tid nu og betragtes som den grundlæggende dataplatform til alle big-data-relaterede tilbud. Database og beregning i hukommelsen vinder imidlertid popularitet på grund af hurtigere ydelse og hurtige resultater. Apache Spark er en ny ramme, der bruger hukommelsesfunktioner til at levere hurtig behandling (næsten 100 gange hurtigere end Hadoop). Så Spark-produktet bruges i stigende grad i en verden af big data og hovedsageligt til hurtigere behandling.

Hvad er Apache Spark?

Apache Spark er en open-source ramme til behandling af enorme mængder data (big data) med hastighed og enkelhed. Det er velegnet til analytiske applikationer baseret på big data. Gnist kan bruges med et Hadoop-miljø, uafhængigt eller i skyen. Det blev udviklet på University of California og derefter senere tilbudt det til Apache Software Foundation. Således hører det til open source-samfundet og kan være meget omkostningseffektivt, hvilket yderligere tillader amatørudviklere at arbejde let. (For at lære mere om Hadoops open source, se Hvad er påvirkningen af open source på Apache Hadoop-økosystemet?)

Det vigtigste formål med Spark er, at det tilbyder udviklere med en applikationsramme, der arbejder omkring en centreret datastruktur. Gnist er også ekstremt kraftfuld og har den medfødte evne til hurtigt at behandle enorme mængder data på kort tid og dermed tilbyde ekstrem god ydelse.Dette gør det meget hurtigere end hvad der siges at være den nærmeste konkurrent, Hadoop.

Hvorfor gnist er så vigtigt over Hadoop

Apache Spark har altid været kendt for at trumfe Hadoop i flere funktioner, hvilket sandsynligvis forklarer, hvorfor det forbliver så vigtigt. En af de vigtigste grunde til dette ville være at overveje dens behandlingshastighed. Som nævnt ovenfor tilbyder Spark faktisk ca. 100 gange hurtigere behandling end Hadoop's MapReduce for den samme mængde data. Det bruger også betydeligt færre ressourcer sammenlignet med Hadoop, hvilket gør det omkostningseffektivt.

Et andet vigtigt aspekt, hvor Spark har overhånden, er med hensyn til kompatibilitet med en ressourceadministrator. Det er kendt, at Apache Spark kører med Hadoop, ligesom MapReduce gør, men sidstnævnte er i øjeblikket kun kompatibel med Hadoop. Hvad angår Apache Spark, kan det imidlertid fungere med andre ressourceforvaltere såsom YARN eller Mesos. Dataforskere nævner ofte dette som et af de største områder, hvor Spark virkelig overgår Hadoop.

Når det kommer til brugervenlighed, sker Spark igen meget bedre end Hadoop. Spark har API'er til flere sprog som Scala, Java og Python, udover at have dem som Spark SQL. Det er relativt enkelt at skrive brugerdefinerede funktioner. Det sker også for at prale af en interaktiv tilstand til at køre kommandoer. Hadoop er på den anden side skrevet i Java og har fortjent omdømmet til at være temmelig vanskeligt at programmere, selvom det har værktøjer, der hjælper med processen. (Se Hvordan Apache Spark hjælper med hurtig applikationsudvikling for at lære mere om Spark).

Hvad er gnister unikke funktioner?

Apache Spark har nogle unikke funktioner, der virkelig adskiller det fra mange af sine konkurrenter inden for databehandling. Nogle af disse er kort beskrevet nedenfor.

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Spark har også en medfødt evne til at indlæse nødvendige oplysninger til sin kerne ved hjælp af dens maskinlæringsalgoritmer. Dette gør det muligt at være ekstremt hurtig.

Apache Spark kommer med evnen til at behandle grafer eller endda information, der er grafisk i besiddelse, hvilket muliggør let analyse med meget præcision.

Apache Spark har MLib, som er en ramme beregnet til struktureret maskinlæring. Det er også overvejende hurtigere i implementering end Hadoop. MLib er også i stand til at løse flere problemer, såsom statistisk læsning, dataudtagning og forudsætningstest, for at nævne nogle få.

Hvorfor gnist ikke er en erstatning for Hadoop

På trods af det faktum, at Spark har flere aspekter, hvor den trumfer Hadoop ned, er der stadig flere grunde til, at den ikke rigtig kan erstatte Hadoop endnu.

For det første tilbyder Hadoop simpelthen et større sæt værktøjer sammenlignet med Spark. Det har også adskillige fremgangsmåder, der er anerkendt i branchen. Apache Spark er dog stadig relativt ung i domænet og har brug for nogen tid på at komme sig på niveau med Hadoop.

Hadoop's MapReduce har også indstillet visse industristandarder, når det kommer til at køre fulde aktiviteter. På den anden side menes det stadig, at Spark ikke er helt klar til at fungere med fuld pålidelighed. Ofte skal organisationer, der bruger Spark, finjustere den for at gøre den klar til deres sæt af krav.

Hadoop's MapReduce, der har eksisteret i længere tid end Spark, er også lettere at konfigurere. Dette er dog ikke tilfældet for Spark, i betragtning af at det tilbyder en helt ny platform, der ikke rigtig har testet ru plaster.

Hvad virksomheder synes om Spark og Hadoop

Mange virksomheder er allerede begyndt at gøre brug af Spark til deres databehandlingsbehov, men historien slutter ikke der. Det har helt sikkert flere stærke aspekter, der gør det til en fantastisk databehandlingsplatform. Imidlertid kommer det også med sin rimelige andel af ulemper, der skal rettes.

Det er en brancheopfattelse, at Apache Spark er her for at blive og endda muligvis fremtiden for databehandlingsbehov. Dog er det stadig nødvendigt at gennemgå en masse udviklingsarbejde og polering, der gør det muligt for den virkelig at udnytte sit potentiale.

Praktiske implementeringer

Apache Spark har været og bliver stadig ansat af adskillige virksomheder, der passer til deres databehandlingsbehov. En af de mest succesrige implementeringer blev udført af Shopify, der var på udkig efter at vælge berettigede butikker til forretningssamarbejde. Dets datalager holdt imidlertid timingen ud, da den ville forstå de produkter, som kunderne solgte. Ved hjælp af Spark var virksomheden i stand til at behandle flere millioner dataposter og derefter behandle 67 millioner poster på få minutter. Det bestemte også, hvilke butikker der var berettigede.

Ved hjælp af Spark er Pinterest i stand til at identificere udviklingstendenser og derefter bruge den til at forstå brugernes adfærd. Dette giver yderligere mulighed for bedre værdi i Pinterest-samfundet. Spark bruges også af TripAdvisor, et af verdens største rejseinformationswebsteder, til at fremskynde sine anbefalinger til besøgende.

Konklusion

Man kan ikke være i tvivl om Apache Sparks dygtighed, heller ikke på nuværende tidspunkt, og det unikke sæt funktioner, som det bringer til bordet. Dens processorkraft og hastighed sammen med dets kompatibilitet sætter tonen for flere ting, der kommer i fremtiden. Men det har også flere områder, det har brug for at forbedre, hvis det virkelig skal realisere sit fulde potentiale. Mens Hadoop stadig har reglerne for roost på nuværende tidspunkt, har Apache Spark en lys fremtid foran og betragtes af mange som den fremtidige platform for databehandlingsbehov.