Kan der nogensinde være for mange data i big data?

Indhold

Q:

EN:

Svaret på spørgsmålet er et rungende JA. Der kan absolut være for mange data i et big data-projekt.

Der er adskillige måder, hvorpå dette kan ske, og forskellige grunde til, at fagfolk har brug for at begrænse og sammenstille data på et vilkårligt antal måder for at få de rigtige resultater. (Læs 10 store myter om Big Data.)

Generelt taler eksperter om at differentiere "signalet" fra "støj" i en model. Med andre ord, i et hav af big data bliver de relevante indsigtsdata vanskelige at målrette mod. I nogle tilfælde er du på udkig efter en nål i en høstak.

Antag f.eks., At en virksomhed forsøger at bruge big data til at generere specifik indsigt i et segment af et kundegrundlag og deres køb over en bestemt tidsramme. (Læs Hvad gør big data?)

Indtagelse af en enorm mængde dataaktiver kan resultere i indtagelse af tilfældige data, der ikke er relevante, eller det kan endda frembringe en bias, der skæver dataene i en eller anden retning.

Det bremser også processen dramatisk, da computersystemer skal kæmpe med større og større datasæt.

I så mange forskellige slags projekter er det meget vigtigt for dataingeniører at sammenlægge dataene til begrænsede og specifikke datasæt - i tilfældet ovenfor ville det kun være dataene for det segment af kunder, der studeres, kun dataene for det tidspunkt ramme, der studeres, og en tilgang, der lukker ud yderligere identifikatorer eller baggrundsinformation, der kan forvirre ting eller bremse systemer. (ReadJob-rolle: Data Engineer.)

Lad os se mere på, hvordan dette fungerer i frontlinjen af maskinlæring. (Læs maskinlæring 101.)

Maskinlæringseksperter taler om noget, der kaldes "overfitting", hvor en alt for kompleks model fører til mindre effektive resultater, når maskinlæringsprogrammet løsnes på nye produktionsdata.

Overfitting sker, når et komplekst sæt datapunkter matcher et grundlæggende træningssæt for godt og ikke tillader, at programmet let tilpasser sig nye data.

Teknisk set er overfitting ikke forårsaget af eksistensen af for mange dataprøver, men af kroningen af for mange datapunkter. Men du kan hævde, at det at have for meget data også kan være en medvirkende årsag til denne type problemer. Håndtering af forbandelsen af dimensionalitet involverer nogle af de samme teknikker, der blev udført i tidligere big data-projekter, da fagfolk forsøgte at finde ud af, hvad de fodrede it-systemer.

Hovedpunkterne er, at big data kan være enormt nyttige for virksomhederne, eller det kan blive en stor udfordring. Et aspekt af dette er, om virksomheden har de rigtige data i spil. Eksperter ved, at det ikke anbefales at simpelthen dumpe alle dataaktiver i en hopper og komme med indsigt på den måde - i nye cloud-native og sofistikerede datasystemer er der en indsats for at kontrollere og styre og sammenlægge data for at få mere nøjagtige og effektiv udnyttelse af dataaktiver.