Kudu: En spilskifter i Hadoop-økosystemet?

Indhold

Hvad er Kudu?
Hvad er Kudus nuværende status?
Hvordan kan Kudu komplementere HDFS / HBase?
Funktioner i Kudu Framework
Hvordan kan Kudu ændre Hadoop-økosystemet?
Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv
Konklusion

Kilde: Agsandrew / Dreamstime.com

Tag væk:

Kudu er et open source-projekt, der hjælper med at styre lagring mere effektivt.

Kudu er et nyt open source-projekt, der giver opdaterbar lagerplads. Det er et supplement til HDFS / HBase, der giver sekventiel og skrivebeskyttet opbevaring. Kudu er mere velegnet til hurtig analyse af hurtige data, som i øjeblikket er efterspørgslen efter erhvervslivet. Så Kudu er ikke kun endnu et Hadoop-økosystemprojekt, men har snarere potentialet til at ændre markedet. (Se De 10 vigtigste Hadoop-vilkår, du har brug for at vide og forstå) for mere om Hadoop.

Hvad er Kudu?

Kudu er en speciel form for lagringssystem, der lagrer strukturerede data i form af tabeller. Hver tabel har antal kolonner, der er foruddefineret. Hver af dem har en primær nøgle, der faktisk er en gruppe med en eller flere kolonner i den tabel. Denne primære nøgle er lavet for at tilføje en begrænsning og sikre kolonnerne og også fungere som et indeks, som gør det muligt let at opdatere og slette. Disse tabeller er en serie af dataundersæt, der kaldes tablets.

Hvad er Kudus nuværende status?

Kudu er virkelig godt udviklet og er allerede forbundet med en masse funktioner. Dog vil det stadig have brug for noget polering, hvilket kan gøres lettere, hvis brugerne foreslår og foretager nogle ændringer.

Kudu er fuldstændig open source og har Apache Software License 2.0. Det er også beregnet til at blive sendt til Apache, så det kan udvikles som et Apache Inkubator-projekt. Dette giver mulighed for, at dens udvikling skrider frem hurtigere og yderligere øger sit publikum. Efter en vis tid vil Kudus udvikling ske offentligt og gennemsigtigt. Mange virksomheder som AtScale, Xiaomi, Intel og Splice Machine er blevet sammen for at bidrage til udviklingen af Kudu. Kudu har også et stort samfund, hvor et stort antal publikum allerede leverer deres forslag og bidrag. Så det er de mennesker, der driver Kudus udvikling fremad.

Hvordan kan Kudu komplementere HDFS / HBase?

Kudu er ikke meningen at være en erstatning for HDFS / HBase. Det er faktisk designet til at understøtte både HBase og HFDS og køre sammen med dem for at øge deres funktioner. Dette skyldes, at HBase og HDFS stadig har mange funktioner, der gør dem mere magtfulde end Kudu på visse maskiner. I det store og hele får sådanne maskiner flere fordele af disse systemer.

Funktioner i Kudu Framework

De vigtigste træk ved Kudu-rammen er som følger:

Ekstremt hurtige scanninger af tabellens kolonner - De bedste dataformater som Parket og ORCFile har brug for de bedste scanningsprocedurer, som Kudu adresserer perfekt. Sådanne formater har brug for hurtige scanninger, der kun kan forekomme, når de kolonnedata er korrekt kodet.
Pålidelighed i ydelsen - Kudu-rammen øger Hadoops samlede pålidelighed ved at lukke mange af smuthuller og huller, der findes i Hadoop.
Nem integration med Hadoop - Kudu kan let integreres med Hadoop og dens forskellige komponenter for mere effektivitet.
Helt open source - Kudu er et open source-system med Apache 2.0-licensen. Det har et stort samfund af udviklere fra forskellige virksomheder og baggrunde, der opdaterer det regelmæssigt og giver forslag til ændringer.

Hvordan kan Kudu ændre Hadoop-økosystemet?

Kudu blev bygget til at passe ind i Hadoops økosystem og forbedre dens funktioner. Det kan også integreres med nogle af Hadoops nøglekomponenter som MapReduce, HBase og HDFS. MapReduce-job kan enten levere data eller tage data fra Kudu-tabellerne. Disse funktioner kan også bruges i Spark. Et specielt lag gør nogle Spark-komponenter som Spark SQL og DataFrame tilgængelige for Kudu. Selvom Kudu ikke er udviklet så meget, at den erstatter disse funktioner, vurderes det, at det efter nogle få år vil blive udviklet nok til at gøre det. Indtil da er integrationen mellem Hadoop og Kudu virkelig meget nyttig og kan udfylde de største huller i Hadoops økosystem. (Se Hvordan Apache Spark hjælper hurtig applikationsudvikling for at lære mere om Apache Spark.)

Kudu kan implementeres forskellige steder. Nogle eksempler på sådanne steder er givet nedenfor:

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Streaming af input i næsten realtid - På steder, hvor input skal modtages ASAP, kan Kudu gøre et bemærkelsesværdigt stykke arbejde. Et eksempel på et sådant sted er i virksomheder, hvor store mængder dynamiske data oversvømmer fra forskellige kilder, og der skal stilles til rådighed hurtigt i realtid.
Tidsserie-applikationer med forskellige adgangsmønstre - Kudu er perfekt til tidsseriebaserede applikationer, fordi det er enklere at opsætte tabeller og scanne dem ved hjælp af dem. Et eksempel på en sådan anvendelse er i stormagasiner, hvor gamle data skal findes hurtigt og behandles for at forudsige fremtidige popularitet af produkter.
Ældre systemer - Mange virksomheder, der henter data fra forskellige kilder og opbevarer dem i forskellige arbejdsstationer, vil føle sig hjemme hos Kudu. Kudu er ekstremt hurtig og kan effektivt integreres med Impala for at behandle data på alle maskiner.
Forudsigelig modellering - Datavidenskabsmænd, der ønsker en god platform for modellering, kan bruge Kudu. Kudu kan lære af hvert sæt data, der indføres i det. Forskeren kan køre og køre modellen gentagne gange for at se, hvad der sker.

Konklusion

Selvom Kudu stadig er i udviklingsstadiet, har det potentiale nok til at være en god tilføjelse til standard Hadoop-komponenter som HDFS og HBase. Det har potentiale nok til at ændre Hadoop-økosystemet fuldstændigt ved at udfylde alle huller og også tilføje nogle flere funktioner. Det er også meget hurtigt og kraftfuldt og kan hjælpe med hurtigt at analysere og gemme store datatabeller. Der er dog stadig noget arbejde tilbage, der skal gøres, for at det kan bruges mere effektivt.