Dagens Big Data Challenge stammer fra variation, ikke volumen eller hastighed

Video.: The Third Industrial Revolution: A Radical New Sharing Economy

Indhold

Tre Vs big data
Løsning af datavarselsproblemet
Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Tag væk:

For mange it-afdelinger kaster alt, hvad de har, på spørgsmålene om datavolumen og hastighed, og glemmer at tage fat på det grundlæggende spørgsmål om de mange forskellige data.

Udfordringen med at styre og udnytte big data kommer fra tre elementer, ifølge Doug Laney, forskningsdirektør i Gartner. Laney bemærkede først for mere end et årti siden, at big data udgør et sådant problem for virksomheden, fordi de introducerer svært at styre volumen, hastighed og variation. Problemet er, at for mange it-afdelinger kaster alt, hvad de har, på spørgsmålene om datavolumen og -hastighed og glemmer at tage fat på det grundlæggende problem med forskellige dataarter.

Tilbage i 2001 skrev Laney, at "førende virksomheder i stigende grad vil bruge et centralt datavarehus til at definere et fælles forretningsordforråd, der forbedrer det interne og eksterne samarbejde." Spørgsmålet om dette ordforråd - og den variation, der forhindrer virksomhederne i at oprette det - forbliver det mindst behandlede aspekt af big data conundrum i dag. (Se hvad andre eksperter har at sige. Tjek Big Data-eksperter, der skal følges.)

Tre Vs big data

Adskillige virksomheder har fundet metoder til at udnytte øget datavolumen og hastighed. kan for eksempel analysere enorme datamængder. Naturligvis præsenteres disse data ofte igen og igen inden for de samme parametre. Dette skabte teknologiinnovationer såsom kolonnedatabaser, som nu bruges vidt ud af andre virksomheder, der står over for lige store butikker med lignende dataelementer.

Med hensyn til taminghastighed hjælper leverandører som Splunk virksomheder med at analysere hurtigt oprettede data gennem logfiler, der fanger flere tusinde begivenheder i sekundet. Denne analyse af begivenheder med højt volumen er målrettet mod brugssager med sikkerhed og ydeevneovervågning. Som med datavolumenudfordringen er hastighedsudfordringen i vid udstrækning blevet adresseret gennem avancerede indekseringsteknikker og distribuerede dataanalyser, der gør det muligt at skalere behandlingskapacitet med øget datahastighed.

Når det gælder variation, er der dog for mange virksomheder, der stadig står over for et stort problem i deres tilgang til big data-analyse. Dette problem er drevet af tre faktorer: For det første på grund af vækst, erhvervelser og teknologiske innovationer, der tilføjer nye systemer i miljøet, er virksomheder låst i et meget heterogent miljø, og denne heterogenitet øges kun med tiden. Virksomheder er nødt til at spore en overflod af typer af systemer og styre titusinder af datatyper samt at de samme data er repræsenteret ved hjælp af forskellige nomenklaturer og formater.

For det andet rapporterer disse systemer og datatyper i mange tilfælde både relevant information og information, der sikkert kan filtreres ud som irrelevant for problemet, der bliver løst. Der er et behov for pålideligt at identificere effektive oplysninger.

Den tredje dimension i sortudfordringen er den konstante variation eller ændring i miljøet. Systemer opgraderes, nye systemer introduceres, nye datatyper tilføjes og ny nomenklatur introduceres. Dette fremhæver vores evne til at tæmme udfordringen for datafariat. Dette tilføjer et ekstra lag til sortudfordringen. (For mere indsigt, se Big Data: Hvordan de er fanget, knust og brugt til at tage forretningsafgørelser.)

Løsning af datavarselsproblemet

For at imødegå datasortsproblemet skal virksomheder starte med IT-domænet, da det ofte repræsenterer både de værste lovovertrædere og de værste ofre for sortsproblemet. Det første trin er at starte med en omfattende definition eller taksonomi af alle it-elementer eller aktiver. Dette giver en basislinje eller et fundament for at henvise til noget i eller om IT og gør det muligt for virksomheder at styre den stigende heterogenitet mod en kendt taksonomi eller terminologi.

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Det næste trin er at identificere de mange måder, det samme objekt er repræsenteret på tværs af forskellige postsystemer. Dette gør det muligt for IT-fagfolk at se på tværs af deres heterogene miljø og meget filtrere og komprimere dataene i relevante og håndterbare bidder.

Endelig skal it-ledere vedtage en proces med konstant undersøgelse af miljøet for ændringer, såsom nye typer elementer, der introduceres eller ny nomenklatur for at henvise til det samme element.

Med disse trin kan it-organisationer håndtere sortproblemet og udlede dyb indsigt, der historisk har undgået it-teams. Desuden forbedrer håndteringen af sortsproblemet enormt deres afkast af investeringer i værktøjer og teknikker, der løser de mere traditionelle big data-problemer med volumen og hastighed.