Hvor struktureret er dine data? Undersøgelse af strukturerede, ustrukturerede og halvstrukturerede data

Indhold

Hvad er strukturerede data?
Hvad er ustrukturerede data?
Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv
Faldende i mellem: Semistrukturerede data
Kan ustrukturerede data omdannes til strukturerede data?

Kilde: monsitj / iStockphoto

Tag væk:

Lær om strukturerede, ustrukturerede og semistrukturerede data.

Historisk var dataanalytikere i stand til at dekryptere og udtrække oplysninger fra kun en type data: strukturerede data. Denne type data blev let søgbar på grund af dens klare mønstre, men udgjorde en mindre procentdel af de samlede tilgængelige data.

Ustrukturerede data inkluderede også video, lyd, s og data fra sociale medier og mobile enheder. Det var hænderne ned, den største reserve med rå information tilgængelig, men alligevel var der ingen, der var i stand til at trykke på denne ressource pålideligt.

Tingene har imidlertid ændret sig, da den øgede tilgængelighed af lager og overordnede behandlingsfunktioner fødte ustruktureret dataanalyse - en ny og dermed umoden form for teknologi. Bedre forretningsmæssig intelligens drager fuld fordel af denne mulighed, og der foretages betydelige investeringer for at samle struktureret og ustruktureret dataanalyse for at få adgang til denne tilsyneladende uendelige guldgruve af information.

Lad os se på disse to dataformater for at forstå deres forskelle, og hvad fremtiden har for alle dataanalytikere.

Hvad er strukturerede data?

Strukturerede data er menneskelige eller maskingenererede og meget organiserede oplysninger, der let kan gemmes i række databasestrukturer, der kaldes relationelle databaser (RDB'er). Det er alt, hvad der findes i et format, der let kan indfanges, gemmes og organiseres i en RDB-struktur, der senere skal analyseres. (Se vores Introduktion til databaser for at lære mere om databaser.)

Eksempler inkluderer postnumre, telefonnumre og brugerdemografi som alder eller køn. Data, der findes i disse databaser, kan forespørges med strukturerede forespørgselssprog (SQL) eller VLOOKUP-funktioner i Excel-regneark. Algoritmer kan også laves til hurtigt at søge i data, der findes i de forskellige felter ved hjælp af deres indekser, eller deres numeriske og alfabetiske data. Imidlertid er alle data strengt defineret med hensyn til feltype og navn, og muligheden for at gemme, forespørge og analysere dem er således til en vis grad begrænset.

Typiske applikationer, der bruger strukturerede data, inkluderer hospitalshåndteringssoftware, CRM-applikationer (CRM) og flyreservationssystemer. På grund af deres pæne organisation og lette tilgængelighed er strukturerede data nyttige og effektive, når man håndterer store mængder information. Når man borer efter den sorte olie, der er skjult i den uendelige mængde data, der hver dag er produceret af menneskeheden, er det imidlertid ikke andet at skrabe overfladen efter at se efter strukturerede data.

Hvad er ustrukturerede data?

Langt de fleste data, der findes i en organisation, er ustrukturerede, og nogle vurderer det som op til 80 procent af de samlede tilgængelige data i øjeblikket. Per definition er ustrukturerede data alt, der ikke har nogen identificerbar intern struktur. Nogle typer data falder dog ind i denne kategori har det en eller anden form for vag intern struktur, men den stemmer ikke overens med en database eller et regneark.

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

De fleste forretningsdata er ustrukturerede, der spænder fra kundeserviceinteraktioner, filer, weblogfiler, videoer og andet multimedieindhold, salgsautomatisering, s og sociale medieindlæg. Der er ingen grund til at forklare, hvor værdifulde disse data kan være, hvis de kunne udvindes, organiseres og analyseres.

De fleste ustrukturerede data genereres af mennesker og er således gjort til at blive forstået af andre mennesker. Dette betyder, at den pænere computerintelligens ikke forstår denne type information, da den er for langt fra lineariteten i maskinsprog og strukturerede databaser.

Faldende i mellem: Semistrukturerede data

Semistrukturerede data er en tredje type data, der repræsenterer et meget mindre stykke af hele kagen (5-10 procent). Halvstrukturerede data er bogstaveligt talt fanget mellem begge verdener og indeholder interne semantiske tags og markeringer, der identificerer separate elementer, men mangler den struktur, der kræves for at passe ind i en relationel database.

F.eks. Kan se ud som strukturerede data, da de kunne kategoriseres efter dato, filstørrelse eller tid. Det er de imidlertid ikke, da den mest værdifulde information er den, der findes i dem, snarere end dens relativt enkle etiketter. kan ikke ordnes ordentligt efter indhold og emne, da mennesker ikke taler i så strenge mønstre at lade en maskine forstå dem entydigt. Andre eksempler på semistrukturerede data inkluderer NoSQL-databaser, den åbne standard JSON og markup-sproget XML.

Semistrukturerede data forespørges normalt og katalogiseres til analyse ved hjælp af metadata-analyse. For eksempel består en røntgenscanning af et stort antal pixels, der danner billedet - som i sagens natur er ustrukturerede data, som ikke kan fås adgang til. Scanningsfilen vil dog stadig indeholde en metadatadel, der indeholder oplysninger om den, såsom kommentarer og bruger-ID.

Kan ustrukturerede data omdannes til strukturerede data?

Den grundlæggende udfordring, som enhver dataanalytiker skal møde, er at organisere informationen, der er til rådighed, på en pæn, ordnet måde, så den kan fås adgang og forståelse. Data mining-værktøjer er normalt ikke udstyret til at analysere information, der pr. Definition er for beslægtet med menneskeligt sprog, hvilket betyder, at kun et andet menneske kan indsamle og kategorisere det.

Den store mængde ustrukturerede data gør imidlertid ethvert forsøg på at lagre eller organisere dem ekstremt besværligt og dyre. Puljen med information, der kommer fra, for eksempel, en webbaseret søgemaskine er så massiv, at de fleste elementer kræver en enorm investering med hensyn til arbejde og ressourcer bare for at udtrække de mest basale. Selv de mest effektive teknikker til dataindvinding savner stadig en betydelig mængde information, der findes på nettet og, endnu værre, inde i den dybe web.

Men teknikker findes. Og de udvikles i en forbløffende hastighed. F.eks. Kunne metadata bruges til at forbinde strukturerede og ustrukturerede data sammen. Oplysninger, der høstes, kan filtreres og indekseres af både brugere og algoritmer, så de bare kan analysere relevante data. Andre løsninger inkluderer "data wrangling", som er en proces, gennem hvilken komplekse data gradvist organiseres trin for trin af ikke-tekniske brugere. (For mere om almindelige brugere, der håndterer data, se Hvordan Big Data kan hjælpe i selvbetjeningsanalyse.)

På et tidspunkt vil vi være i stand til effektivt at omdanne disse massivt uorganiserede mængder info til et mere organiseret og omstruktureret format. Måske ikke i dag, måske ikke i morgen, men snart vil vi være i stand til at angribe den største hvælvning, som menneskeheden nogensinde har set: big data.