6 store myter om håndtering af Big Data

Indhold

Myte: Alle er foran os med at vedtage big data.
Myte: Vi har så mange data; vi behøver ikke at bekymre os om enhver lille datafeil.
Myte: Big datateknologi eliminerer behovet for dataintegration.
Myte: Brug af et datalager til avanceret analyse er meningsløst.
Myte: Datasøer erstatter datalageret.
Big Data Works - Nye datamanipulationsmetoder muligvis ikke

Kilde: Dwnld777 / Dreamstime.com

Tag væk:

Big data er big business, men kun hvis de bruges korrekt.

Tilbage i maj 2014 udsendte Forrester Research to rapporter, der drager visse konklusioner om hypen omkring big data. Forskningsfirmaet undersøgte over 250 marketing- og forretningsudviklingsledere. Ifølge rapportforfatterne er big data-retorik til enhver tid høj, og teknologileverandører fortæller produkter med det, der ser ud til at være utrolige påstande.

Gartner er enig med Forrester Research; betydelig hype omgiver store data. I rapporten fra september 2014 debuterer Gartner fem af de største datamyter, og Gartner-analytikere tilbyder deres mening om, hvad der er misforstået med big data og dets manipulation. Så hvad er big datas største myter? Lad os kigge på det.

Myte: Alle er foran os med at vedtage big data.

Gartner siger, at interessen for big data er til enhver tid høj. På trods af dette har en skånsom 13 procent af de adspurgte arbejdssystemer. Årsagen: De fleste virksomheder har endnu ikke fundet ud af, hvordan man kan udnytte værdi fra store datalagre. Her er Gartners undersøgelse mere optimistisk end Forrester-rapporten, som fandt, at kun 9 procent af deltagerne i undersøgelsen sagde, at de planlagde at implementere big-data-teknologier i det næste år. (Big data har meget at tilbyde. Lær mere i 5 reelle verdensproblemer Big Data kan løse.)

Myte: Vi har så mange data; vi behøver ikke at bekymre os om enhver lille datafeil.

Gartner er bekymret for en synlighed, vi mennesker har: "Vi har så meget, det lille, der er dårligt, betyder ikke noget." Ted Friedman, vicepræsident og fremtrædende analytiker i Gartner mener, at dette er den forkerte måde at se situationen på.

"I virkeligheden, selvom hver enkelt fejl har en meget mindre indflydelse på hele datasættet, end det gjorde, da der var mindre data, er der flere mangler end før, fordi der er flere data," sagde Friedman. "Derfor er den samlede indvirkning af data af dårlig kvalitet på hele datasættet den samme."

Friedman tilføjer en anden grund til bekymring. Big-data-indfangning inkluderer ofte data uden for virksomheden, som derfor er af ukendt struktur og oprindelse. Dette øger potentialet for fejl.

Myte: Big datateknologi eliminerer behovet for dataintegration.

Der er to centrale dataanalysestrategier, der kan anvendes på big data: "skema ved skrivning" eller "skema ved læsning." Indtil for nylig var skema til skrivning den eneste anvendte metode. Skema ved læst er den aktuelle dille i databasestyring. I modsætning til skema til skrivning, som kræver et struktureret format, indlæses data i skema-til-læse databaser i dets rå format. Derefter bøjer udviklere - ved hjælp af ustrukturerede databaseplatforme som Hadoop - de forskellige data til et anvendeligt format. Skema ved læsning har åbenlyse fordele, men som Gartner nævner, skal dataintegration forekomme på et tidspunkt.

Myte: Brug af et datalager til avanceret analyse er meningsløst.

At bruge tiden på at oprette et datavarehus forekommer meningsløst for mange informationsadministratorer, især når de nyindfangede data er forskellige fra datalageret. Gartner advarer dog igen, selv avanceret dataanalyse vil bruge datalager og nye data, hvilket betyder, at dataintegratorer skal:

Forfine nye datatyper for at gøre dem egnede til analyse
Bestem hvilke data, der er relevante, og niveauet for den nødvendige datakvalitet
Bestem, hvordan dataene skal samles
Forstå, at dataforfining kan ske på andre steder end datavarehuset

Myte: Datasøer erstatter datalageret.

Datasøer er oplagringssteder med forskellige data i modsætning til datavarehaller, hvor data er i et struktureret format. Oprettelse af en datasø kræver lidt forhåndsindsats (ikke nødvendigt at formatere dataene) sammenlignet med datalager, hvorfor datasøer er af interesse.

Gartner understreger, at det ikke er pointen at have dataene - at være i stand til at manipulere de indfangne data til informeret beslutningstagning er pointen. Desuden er det problematisk at bruge (lidt uprøvede) datasøer for at lette beslutningstagningen.

"Datavarehus har allerede mulighederne for at støtte en bred vifte af brugere i en organisation," sagde Nick Heudecker, forskningsdirektør hos Gartner. "Ledere af informationsledelse behøver ikke at vente på, at datasøer kommer ind." (Lær mere om vedtagelse af big data i 7 ting, du skal vide om Big Data før vedtagelse.)

Big Data Works - Nye datamanipulationsmetoder muligvis ikke

Årsagen til at Gartner sagde "største datamyter" i stedet for "bigdatamyter" bliver klar efter at have læst rapporten. Gartner er ikke leery for big data. Gartner er leery for dem, der føler de nyere metoder til at manipulere big data er klar til "prime time."