Operationel Hadoop inden for Next Generation Data Architecture

Forfatter: Roger Morrison
Oprettelsesdato: 20 September 2021
Opdateringsdato: 1 Juli 2024
Anonim
Enterprise Data Fabric – The Key To Building A Data-Driven Enterprise
Video.: Enterprise Data Fabric – The Key To Building A Data-Driven Enterprise

Indhold



Kilde: Romeo1232 / Dreamstime.com

Tag væk:

Hadoop vil være en nøgleafspiller i næste generations dataarkitektur på grund af dens evne til at håndtere store mængder data.

Hadoops værktøj begynder at gå ud over big data-behandling og analyse, da branchen kommer til at kræve mere af det. Hadoop imødekommer støt forskellige krav knyttet til virksomhedsdataarkitektur, mens de opretholder sin oprindelige styrker. Listen over hvad Hadoop kan gøre og i øjeblikket gør er ganske lang. Hadoop er nu i stand til at behandle store mængder af transaktionsmæssige arbejdsmængder, en opgave, som tidligere var forventet af traditionelle teknologier. Fremover er der mange muligheder for Hadoop i fremtiden. For eksempel kan transaktionssystemer, der er baseret på SQL, bruge en Hadoop SQL-motor, og Hadoop tilføjer også en masse RDBMS-kapaciteter. Du kan sige, at Hadoop er ved at blive en hybrid af databehandlings- og analysefunktioner med virksomhedsarkitekturfunktioner.


Hvad er næste generations dataarkitektur?

Kort sagt er næste generations dataarkitektur en udviklet form for dataarkitektur. Alt inklusive datamodeller, datapolitikker, regler og standarder, der styrer, hvordan data indsamles, lagres, arrangeres, analyseres eller behandles, integreres, bruges og udleveres, har udviklet sig under næste generations dataarkitektur.

Den største forskel mellem tidligere dataarkitektur og næste generation af dataarkitektur er sidstnævnte evne til at indsamle, lagre og behandle enorme mængder data, også kendt som big data, i realtid. Arkitekturen udfører alle disse komplekse opgaver uden at gå på kompromis med standarderne for privatlivets fred, sikkerhed og datastyring.

Næste generation af dataarkitektur står over for mange udfordringer. Det er ikke let at håndtere volumen, hastigheden og forskellige big data. Dertil kommer kravene til optimering af systemarbejdsbyrden, forbedring af ydeevne, hastighed og nøjagtighed og omkostningsreduktion. Det er overflødigt at sige, at den foregående dataarkitektur ikke behøvede at styre sådanne krav.


Så CIO'er og informationsarkitekter ønsker at finde en løsning, der hjælper dem med at nå deres mål. Operationel Hadoop har været i fokus i nogen tid i dette forhold. De følgende afsnit vil diskutere, hvordan operationel Hadoop kan løse problemer.

Forventninger fra Hadoop i Con of Next-Generation Architecture

Virksomhederne er under stigende pres for at levere bedre resultater, og virkningerne siver ned til forventningerne til teknologierne. Så Hadoop forventes ikke længere blot at behandle data. CIO'er og CTO'er ønsker mere fra Hadoop. Nedenfor er en liste over forventninger fra Hadoop. Faktisk har Hadoop allerede leveret nogle få af disse forventninger.

Hadoop forventes at arbejde med transaktionssystemer, der er baseret på SQL og har oprette, læse, opdatere og slette muligheder. Transaktionssystemerne udnytter SQL-motoren. Systemerne vil også have fuld POSIX-overensstemmelse (Portable Operating System Interface) og muligheden for at behandle høje transaktionsvolumener.

Hadoop forventes at understøtte funktioner som sikkerhedskopiering, fejltolerance, gendannelse og gendannelse af katastrofer. For at Hadoop skal udvikle sig til et system med RDBMS-kapaciteter, skal det være kompatibelt med eksisterende it-værktøjer.

Hadoop arbejder allerede på at opfylde forventningerne, hvilket fremgår af nogle udviklinger. Hadoop kan levere realtidsanalyse og hurtige svar baseret på ressourcestyringssupport leveret af YARN. YARN er et stort og distribueret operativsystem til big data applikationer ud over at være en ressource manager. Andre kendelser som Apache Storm, distribuerede i hukommelsesarkitekturer som Apache Spark, Apache Hive, Drill og MapR-FS (en HDFS-erstatning med høj ydeevne), er kendt for at fungere for at tilbyde forskellige fuld databasefunktioner, såsom sikkerhedskopiering, gendannelse af katastrofer, fejltolerance osv. (Se Hvad er fordelene ved Hadoop 2.0 (YARN) -rammen for mere information om YARN?)

Hvilke værdier kan Hadoop tilføje til næste generation af dataarkitektur?

De værdier, som Hadoop kan tilføje til næste generations dataarkitektur, kan ses fra to perspektiver: det ene, om det opfylder de forventninger, der er beskrevet ovenfor, og to, om det gør noget yderligere. Nedenfor er de vigtigste værdier, som operationelle Hadoop kan bringe.

Hadoop er nu i stand til at give mere skalerbarhed og håndterbarhed af data inden for sin platform via HDFS. Og operativsystemet til data er blevet aktiveret via Hadoops YARN-applikationer. Denne strategi repræsenterer et skift i dataarkitektur på et grundlæggende niveau. Nu kan Hadoop lagre forskellige typer data, såsom transaktionsorienterede databaser, grafdatabaser og dokumentdatabaser, og disse data kan fås via YARN-applikationer. Det er ikke nødvendigt at kopiere eller flytte dataene til andre placeringer.

Forbedret ydelse som en Enterprise Data Architecture

Operational Hadoop er på vej til at blive kernesystemet for virksomhedsdataarkitektur. Efterhånden som Hadoop får mere ud af virksomhedsdataarkitektur, vil datasiloer blive fjernet, når linjerne mellem dem fjernes. Der vil være en hurtig forbedring i næsten alle aspekter. Forbedringer finder sted i form af mere effektive filformater, bedre SQL-motorydelse, forbedrede filsystemer og robusthed, der opfylder behovene i virksomhedsapplikationer.

Forskellen mellem Hadoop og andre teknologier

Tidligere var den største forskel mellem Hadoop og datafirma-teknologier Hadoops store databehandlings-, rapporterings- og analysefunktioner. Efterhånden som operationel Hadoop bliver mere og mere en del af virksomhedsdataarkitekturen, bliver forskellen mellem enhederne mere og mere sløret. Så operationel Hadoop fremstår som et overlegen alternativ til eksisterende virksomhedsdataarkitektur.

Konklusion

I betragtning af forventningerne og fremskridt vil Hadoop være i branchen i lang tid. Men det giver mening at ikke fokusere for meget på Hadoop og blot ignorere andre teknologier. Dette skyldes, at andre teknologier vil gøre fremskridt med de samme parametre og måske endda overhale Hadoop. Det er aldrig godt at have et monopol på markedet. Det er godt, at producenterne af andre teknologier end Hadoop måske er motiverede til at levere bedre produkter og endda plug-ins, der hjælper Hadoop med at forbedre dens ydeevne.