5 nøgleområder, hvor store data har stor indflydelse

Indhold

Hvordan det skete
Big Data, stor mulighed
Noget at se på

Kilde: Nmedia /Dreamstime.com

Tag væk:

Big data er stor forretning overalt, men et par specifikke områder, der mest udnytter denne teknologi.

Da jeg startede denne artikel, planlagde jeg at liste over de forskellige typer big data-platforme. Men efter tre dages forsøg på at korralere alle de forskellige big data-tilbud - relationelle kontra ikke-relationelle, SQL versus NoSQL og database versus rammer - til en vis rækkefølge, besluttede jeg at undgå det rod.

For at tilføje fornærmelse mod kvæstelser havde jeg håbet at introducere den person, der opfandt udtrykket "big data" som en del af artiklen. Men jeg kan ikke engang gøre det. Der er ikke noget aftalte svar. Der er faktisk et fuldt udblæst forskningsprojekt, der undersøger, hvem der oprindeligt kom med big data. I stedet vil jeg kigge på nogle af de vigtigste måder, hvorpå store data bruges. Det er langt mere vigtigt. Og det er mere interessant og overraskende, end du måske tror.

Hvordan det skete

Analytikere, der bruger traditionel data mining, har manipuleret data i årevis. Disse samme analytikere finder det nu vanskeligt at klare det beløb og de mange forskellige data, der gemmes af virksomheder, private organisationer og offentlige agenturer.

Indtast big data, det næste evolutionære trin i data mining. Big data blev designet til at håndtere de massive databaser og utallige typer data, der oprettes i dagens digitale verden. Hvis "massiv" har du tænker på Google og alle de data, den indsamler, ville du være i ballparken. Det, der måske overrasker dig, er, at Google kun er fjerde på top ti-listen over verdens største databaser. Fra januar 2014 toppede World Data Center for Climate listen med 220 terabyte data, og det er nogens gæt om størrelsen på databaser kontrolleret af visse regeringsorganer.

Selvfølgelig startede big data, fordi det gør det muligt at manipulere store mængder forskellige data og opdage fantastiske - og utroligt detaljerede og personlige - ting. John Sumser, analytiker i HR-branchen, giver følgende eksempel:

"I dag skaber vi hypoteser og indsamler data. I morgen gør vi det omvendte. Den konstante, stadige ophobning af data vil gøre det muligt for os at se på data, før vi danner spørgsmål. Det betyder, at vi får svar på spørgsmål, vi ikke har gjort." Jeg ved ikke at spørge. Vi tænker på en hel masse ting, som vi antager at være fakta. "

Selvfølgelig har vi alle hørt om nogle af de uhyggelige måder, disse data er blevet brugt til, som f.eks. Målets evne til at skelne en gravid kvindes kvinden, før hendes familie endda finder ud af det. Men big data bruges også til langt mindre ubehagelige årsager. Her er et par organisationer, der udnytter det mest:

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Et oplagt område, som store data vil hjælpe med, er at håndtere elektroniske sundhedsregistre sikkert og præcist på tværs af medicinske organisationer. At have nøjagtige poster vil give patienter bedre service og mindske fejl. Af åbenlyse grunde tilpasser sundhedsvæsenet big data i et langsommere tempo for at overholde regeringens regler vedrørende patientfortrolighed.

Som nævnt tidligere er big data kendt for at give svar på uopspurgte spørgsmål. På sundhedsområdet kan dette muligvis betyde at finde et nyt lægemiddel eller en behandling, der ikke ville være blevet fundet på anden måde. Ifølge McKinsey & Company kunne big data gøre følgende muligt i en ikke så fjern fremtid:

Forudsigelig modellering af biologiske processer og medikamenter bliver mere sofistikeret og udbredt.
Patienter identificeres til at tilmelde sig kliniske forsøg baseret på flere informationskilder, såsom sociale medier.
Forsøg overvåges i realtid for hurtigt at identificere sikkerheds- eller driftsmæssige problemer.
I stedet for stive datasiloer, der er vanskelige at udnytte, indfanges data elektronisk og flyder let mellem forskellige enheder.

Big Data, stor mulighed

Mens big data udnyttes på nogle specifikke områder, giver det mulighed for alle organisationer på følgende områder:

Næsten alle data og data om netværksenhedslogfiler. Mængden af data, der logges, bliver hurtigt uhåndterlig. Store data kan nemt administrere den mængde data, der giver administratorer mulighed for at overvåge netværksaktivitet, diagnosticere problemer eller i eksemplet, Rubin gav mig, se efter bestemte netværkstrafikmønstre, der ville indikere malware-aktivitet.

Hvis du læser denne artikel, er det en ret sikker indsats, at du er opmærksom på Heartbleed-problemet omkring OpenSSL. Udover det tekniske problem er der bekymring for, at sårbarheden har eksisteret i flere år. Rubin nævnte, at store data tillader netværksadministratorer, der arbejder med dataanalytikere, at oprette et program, der søger i alle netværkslogfiler efter ondsindede hjerteslag. Dette EFF-indlæg nævner:

"Alle netværksoperatører, der har omfattende pakkelog, kan kontrollere for ondsindede hjerteslag, som oftest har en TCP-nyttelast på 18 03 02 00 03 01 eller 18 03 01 00 03 01 (eller måske endda 18 03 03 00 03 01)."

Følgende eksempel er prøveudgang fra kommandoen til revision af showet:

Router # vis revision

* 14. september 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Bruger:

* 14. september 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Bruger:

* 14. september 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Bruger:

* 14. september 18: 37: 32.107:% AUDIT-1-FILESYSTEM: Hash:

330E7111F2B526F0B850C24ED5774EDE Bruger:

* 14. september 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Bruger:

Hvis du følger tidsstemplerne, var tidsintervallet for alle disse poster mindre end et sekund. Jeg vil ikke engang ønske at ekstrapolere det ud for en dag, så meget mindre to år!

Noget at se på

Hvis du tjekker jobannoncer, er der et stort behov for big data-eksperter. Jeg spurgte Rubin om dette. Han accepterede, idet han nævnte, at hans studerende var begejstrede for deres udsigter. Derefter indså jeg, at store dataplatformer, især dem, der betragtes som open source, følger en tidslinje, der ligner, hvordan Linux blev mainstream.

Universiteter omfavner open source-versioner af big-data platforme, især Hadoop, fordi de er gratis, og studerende kan manipulere kildekoden. Så de kandidater, der udfylder alle disse jobåbninger, foretrækker at arbejde med open source-platforme, da det er hvad de ved bedst. Det vil være interessant at se.