Hvordan kan Analytics forbedre forretningen? - TechWise afsnit 2-udskrift

Forfatter: Eugene Taylor
Oprettelsesdato: 14 August 2021
Opdateringsdato: 20 Juni 2024
Anonim
You Bet Your Life: Secret Word - Chair / People / Foot
Video.: You Bet Your Life: Secret Word - Chair / People / Foot



Kilde: Flickr / James Royal-Lawson

Tag væk:

Værten Eric Kavanagh diskuterer brugen af ​​analyser i erhvervslivet med dataforskere og ledere i branchen.

Redaktører Bemærk: Dette er en udskrift af en af ​​vores tidligere webcasts. Den næste episode kommer hurtigt, klik her for at registrere.


Eric Kavanagh: Mine damer og herrer, hej og velkommen igen til afsnit 2 af TechWise. Ja, det er faktisk tid til at få kloge mennesker! Jeg har en masse rigtig smarte mennesker på banen i dag for at hjælpe os i den bestræbelse. Jeg hedder selvfølgelig Eric Kavanagh. Jeg vil være din vært, din moderator, til denne lyn-runde session. Vi har meget indhold her, folkens. Vi har nogle store navne i branchen, der har været analytikere i vores rum og fire af de mest interessante leverandører.Så vi vil have en masse god handling på opkaldet i dag. Og selvfølgelig spiller du derude i publikum en betydelig rolle i at stille spørgsmål.


Så endnu en gang er showet TechWise, og emnet i dag er "Hvordan kan Analytics forbedre forretningen?" Det er klart, det er et varmt emne, hvor det vil prøve at forstå de forskellige slags analyser, du kan gøre, og hvordan det kan forbedre dine operationer, fordi det er, hvad det handler om i slutningen af ​​dagen.

Så du kan se mig selv der oppe, det er din virkelig. Dr. Kirk Borne, en god ven fra George Mason University. Han er en dataforsker med en enorm mængde erfaring, meget dyb ekspertise inden for dette rum og data mining og big data og al den slags sjove ting. Og selvfølgelig har vi vores helt egen Dr. Robin Bloor, Chief Analyst her i Bloor Group. Hvem træner som aktuar for mange, mange år siden. Og han har virkelig været fokuseret på dette hele big data-rum og det analytiske rum ganske intenst i det sidste halve årti. Det er næsten fem år siden vi lancerede Bloor Group i sig selv. Så tiden flyver, når du har det sjovt.

Vi vil også høre fra Will Gorman, chefarkitekt for Pentaho; Steve Wilkes, CCO for WebAction; Frank Sanders, teknisk direktør hos MarkLogic; og Hannah Smalltree, direktør hos Treasure Data. Så som jeg har sagt, det er meget indhold.

Så hvordan kan analytics hjælpe din virksomhed? Hvordan kan det ikke hjælpe din virksomhed helt ærligt? Der er forskellige måder, hvorpå analytics kan bruges til at gøre ting, der forbedrer din organisation.

Så strømline operationer. Det er en, som du ikke hører så meget om, som du gør om ting som markedsføring eller indsamling af indtægter eller endda identificering af muligheder. Men at strømline dine operationer er dette virkelig, virkelig magtfulde ting, som du kan gøre for din organisation, fordi du kan identificere steder, hvor du enten kan outsource noget, eller du kan tilføje data til en bestemt proces, f.eks. Og det kan strømline det ved ikke at kræve, at nogen henter telefonen for at ringe eller nogen til. Der er så mange forskellige måder, du kan strømline dine operationer. Og alt dette hjælper virkelig med at nedbringe dine omkostninger, ikke? Det er nøglen, det reducerer omkostningerne. Men det giver dig også mulighed for bedre at betjene dine kunder.

Og hvis du tænker over, hvor utålmodige mennesker er blevet, og jeg ser dette hver eneste dag med hensyn til, hvordan folk interagerer online, selv med vores shows, tjenesteudbydere, som vi bruger. Folk har tålmodighed, opmærksomhedsspændet, bliver kortere og kortere med dagen. Og hvad det betyder er, at du som organisation skal svare hurtigere og hurtigere perioder for at være i stand til at tilfredsstille dine kunder.

Så for eksempel, hvis nogen er på dit webcast-websted eller gennemsøger og prøver at finde noget, hvis de bliver frustrerede og de forlader, ja, har du måske lige mistet en kunde. Og afhængigt af hvor meget du debiterer for dit produkt eller din service, og måske er det en stor aftale. Så bundlinjen er, at strømlineoperationer, synes jeg, er et af de hotteste rum til anvendelse af analyser. Og du gør det ved at se på tallene, ved at knuse dataene, ved at finde ud af for eksempel "Hej, hvorfor mister vi så mange mennesker på denne side af vores hjemmeside?" "Hvorfor får vi nogle af disse telefonopkald lige nu?"

Og jo mere realtid du kan svare på den slags ting, jo større er chancerne for at du kommer til at komme oven på situationen og gøre noget ved det, før det er for sent. Fordi der er det tidsvindue, hvor nogen bliver oprørt over noget, de er utilfredse, eller de prøver at finde noget, men de er frustrerede; du fik et vindue af muligheder der for at nå ud til dem, at gribe dem, at interagere med denne kunde. Og hvis du gør det på den rigtige måde med de rigtige data eller dejlige kundebillede - at forstå, hvem der er denne kunde, hvad er deres rentabilitet, hvad er deres præferencer - hvis du virkelig kan få et greb om det, skal du gøre et godt stykke arbejde med at holde fast på dine kunder og få nye kunder. Og det er det, det handler om.

Så med det overleverer jeg det faktisk til Kirk Borne, en af ​​vores datavidenskabsmænd på opkaldet i dag. Og de er temmelig sjældne i disse dage, folkens. Vi har i det mindste to af dem på opkaldet, så det er big deal. Med det, Kirk, overlader jeg det til dig for at tale om analyse og hvordan det hjælper erhvervslivet. Gå efter det.

Dr. Kirk Borne: Nå, tak, Eric. Kan du høre mig?

Eric: Det er fint, gå videre.

Dr. Kirk: Okay, god. Jeg vil bare dele, hvis jeg taler i fem minutter, og folk vinker deres hænder på mig. Så åbningsbemærkningerne, Eric, at du virkelig bundet til dette emne, jeg vil tale kort om i de næste par minutter, hvilket er denne brug af big data og analyse til data til beslutninger om at støtte, der. Den kommentar, du kom med om operationel strømlining, for mig falder den slags ind i dette begreb af driftsanalyse, hvor du næsten kan se i enhver applikation overalt i verden, om det er en videnskabsprogram, en virksomhed, cybersikkerhed og retshåndhævelser og regering, sundhedsydelser. Ethvert antal steder, hvor vi har en strøm af data, og vi tager en slags reaktion eller beslutning som reaktion på begivenheder og alarmer og adfærd, som vi ser i den datastrøm.

Og en af ​​de ting, som jeg gerne vil tale om i dag, er sådan, hvordan man udtrækker viden og indsigt fra big data for at komme til det punkt, hvor vi rent faktisk kan tage beslutninger om at tage handlinger. Og ofte taler vi om dette i en automatiseringskon. Og i dag vil jeg blande automatiseringen med den menneskelige analytiker i løkken. Så med dette mener jeg, mens forretningsanalytikeren spiller en vigtig rolle her med hensyn til væddemål, kvalificering, validering af specifikke handlinger eller maskinlæringsregler, som vi uddrager fra dataene. Men hvis vi kommer til et punkt, hvor vi stort set er overbevist om de forretningsregler, vi har udvundet, og mekanismerne til at advare os, er gyldige, kan vi stort set overføre dette til en automatiseret proces. Vi gør faktisk den operationelle strømline, som Eric talte om.

Så jeg spiller lidt på ord her, men jeg håber, at hvis det fungerer for dig, talte jeg om D2D-udfordringen. Og D2D, ikke kun data beslutningerne i alle ulemper, vi ser på dette i den slags bunden af ​​dette lysbillede forhåbentlig kan du se det, foretage opdagelser og øge indtægter dollars fra vores analyserørledninger.

Så i dette forhold har jeg faktisk denne rolle som marketingmedarbejder for mig selv nu, hvor jeg arbejder med, og det er; den første ting du vil gøre er at karakterisere dine data, udtrække funktionerne, udtrække egenskaberne for dine kunder eller hvilken enhed det er, du sporer i dit rum. Måske er det en patient i et sundhedsanalytisk miljø. Måske er det en webbruger, hvis du ser på en slags cybersikkerhedsproblem. Men karakteriser og udtræk egenskaber, og træk derefter ud nogle ulemper om den enkelte, om den enhed. Og så samler du de stykker, du lige har oprettet, og placerer dem i en slags samling, hvorfra du derefter kan anvende maskinlæringsalgoritmer.

Årsagen til, at jeg siger det på denne måde, er, at vi bare skal sige, at du har et overvågningskamera i en lufthavn. Selve videoen er en enorm, stor lydstyrke, og den er også meget ustruktureret. Men du kan udtrække fra videoovervågning, ansigtsbiometri og identificere enkeltpersoner i overvågningskameraerne. Så for eksempel i en lufthavn kan du identificere bestemte personer, du kan spore dem gennem lufthavnen ved at krydse identifikationen af ​​den samme person i flere overvågningskameraer. I og med at de udtrukne biometriske funktioner, som du virkelig gruver og sporer, ikke er selve den detaljerede video. Men når du først har fået disse udtrækninger, kan du anvende maskinlæringsregler og analyser for at tage beslutninger om, hvorvidt du er nødt til at tage en handling i et bestemt tilfælde, eller der skete noget forkert, eller noget, som du har mulighed for at komme med et tilbud. Hvis du for eksempel er, hvis du har en butik i lufthavnen, og du ser denne kunde komme din vej, og du ved fra andre oplysninger om denne kunde, at han måske virkelig blev interesseret i at købe ting i den toldfri butik eller sådan noget, kom med dette tilbud.

Så hvad slags ting ville jeg mene med karakterisering og potentialisering? Med karakterisering mener jeg igen at udtrække funktioner og egenskaber i dataene. Og dette kan enten være maskingenereret, så kan dets algoritmer faktisk udtrække for eksempel biometriske signaturer fra video- eller sentimentanalyse. Du kan udtrække kundens stemning gennem online anmeldelser eller sociale medier. Nogle af disse ting kan være menneskeskabte, så mennesket, forretningsanalytikeren, kan udtrække yderligere funktioner, som jeg får vist i det næste lysbillede.

Nogle af disse kan være crowddsourced. Og ved skarer, der er mange forskellige måder, du kan tænke på. Men meget enkelt, for eksempel kommer dine brugere til dit websted, og de sætter søgeord, nøgleord, og de ender på en bestemt side og tilbringer faktisk tid der på den side. At de faktisk i det mindste forstår, at de enten ser, gennemser eller klikker på tingene på den side. Det, der siger til dig, er, at nøgleordet, som de indtastede i starten, er deskriptoren for den side, fordi det landede kunden på den side, de forventede. Og så kan du tilføje det ekstra stykke information, det vil sige kunder, der bruger dette nøgleord, der faktisk identificerede denne webside inden for vores informationsarkitektur som det sted, hvor indholdet matcher dette nøgleord.

Og så er crowddsourcing et andet aspekt, som folk undertiden glemmer, den slags sporing af dine kunders brød, så at sige; hvordan bevæger de sig gennem deres plads, uanset om det er en onlineejendom eller en fast ejendom. Og brug derefter den slags sti de, som kunden tager yderligere oplysninger om de ting, vi ser på.

Så jeg vil sige, at mennesker-genererede ting, eller maskingenererede, endte med at have en ulempe i form af annotering eller mærkning af specifikke datagranuler eller enheder. Uanset om disse enheder er patienter i hospitaler, kunder eller hvad som helst. Og så er der forskellige typer tagging og kommentarer. Noget af det handler om selve dataene. Det er en af ​​tingene, hvilken type information, hvilken type information, hvad er funktionerne, figurerne, måske ures og mønstre, afvigelse, ikke-afvigende adfærd. Og så træk nogle semantik ud, det vil sige, hvordan forholder det sig til andre ting, som jeg ved, eller at denne kunde er en elektronik-kunde. Denne kunde er en beklædningskunde. Eller denne kunde kan lide at købe musik.

Så at identificere nogle semantik om det, disse kunder, der kan lide musik, har en tendens til at lide underholdning. Måske kunne vi tilbyde dem noget andet underholdningsejendom. Så forstå semantikken og også en vis oprindelse, som dybest set siger: hvor kom dette fra, hvem leverede denne påstand, hvad tid, hvilken dato, under hvilken omstændighed?

Så når du først har alle disse kommentarer og karakteriseringer, skal du tilføje til det, så er det næste trin, som er den, slags, hvem, hvad, hvornår, hvor og hvorfor. Hvem er brugeren? Hvad var den kanal, de kom ind på? Hvad var kilden til informationen? Hvilken genanvendelse har vi set i netop dette informations- eller dataprodukt? Og hvad er, det er slags, værdi i forretningsprocessen? Og saml derefter disse ting og administrer dem, og hjælp faktisk med at oprette database, hvis du vil tænke på det på den måde. Gør dem søgbare, genanvendelige af andre forretningsanalytikere eller ved en automatiseret proces, der næste gang jeg ser disse sæt funktioner, kan systemet udføre denne automatiske handling. Og så kommer vi til den slags operationelle analytiske effektivitet, men jo mere vi samler nyttig, omfattende information og derefter sammenlægger den til disse brugssager.

Vi kommer i gang. Vi udfører dataanalyse. Vi ser efter interessante mønstre, overraskelser, nye outliers, anomalier. Vi ser efter de nye klasser og segmenter i befolkningen. Vi ser efter foreninger og sammenhænge og forbindelser mellem de forskellige enheder. Og så bruger vi alt det til at drive vores opdagelse, beslutning og dollar-beslutningsproces.

Så der igen, her har vi det sidste dataside, jeg har, er bare dybest set at opsummere, holde forretningsanalytikeren i løkken, igen, du udtrækker ikke det menneske, og det er vigtigt at holde den menneskelige derinde.

Så disse funktioner leveres de alle af maskiner eller menneskelige analytikere eller endda crowddsourcing. Vi anvender denne kombination af ting for at forbedre vores træningssæt til vores modeller og ender med mere nøjagtige forudsigelsesmodeller, færre falske positiver og negativer, mere effektiv opførsel, mere effektive indgange med vores kunder eller hvem som helst.

Så til sidst på dagen kombinerer vi virkelig bare maskinlæring og big data med denne kraft af menneskelig kognition, og det er her, den slags tagging-annotationsstykke kommer ind. Og det kan føre gennem visualisering og visuel analyse-type værktøjer eller fordybende datamiljøer eller crowddsourcing. Og til sidst på dagen genererer vores opdagelse, indsigt og D2D hvad dette virkelig gør. Og det er mine kommentarer, så tak for at have hørt.

Eric: Hej, det lyder godt, og lad mig gå foran og overdrage nøglerne til Dr. Robin Bloor for også at give sit perspektiv. Ja, jeg kan godt lide at høre dig kommentere om den strømlining af operationskonceptet, og du taler om operationel analyse. Jeg tror, ​​det er et stort område, der skal udforskes ganske grundigt. Og jeg antager, virkelig hurtigt før Robin, jeg bringer dig tilbage, Kirk. Det kræver, at du har noget ret betydeligt samarbejde mellem forskellige spillere i virksomheden, ikke? Du skal tale med driftsfolk; skal du hente dine tekniske mennesker. Undertiden får du dine marketingfolk eller dine webgrænsefolk. Disse er typisk forskellige grupper. Har du nogen bedste praksis eller forslag til, hvordan man slags får alle til at sætte deres hud i spillet?

Dr. Kirk: Nå, jeg tror, ​​at dette kommer med forretningskulturen for samarbejde. Faktisk taler jeg om de tre C'er af typen analytisk kultur. Den ene er kreativitet; en anden er nysgerrighed, og den tredje er samarbejde. Så du vil have kreative, seriøse mennesker, men du skal også få disse mennesker til at samarbejde. Og det starter virkelig fra toppen, den slags opbygning af denne kultur med mennesker, der åbent bør dele og arbejde sammen mod de fælles mål for virksomheden.

Eric: Det giver mening. Og du er virkelig nødt til at få et godt lederskab i toppen for at få det til. Så lad os gå videre og overlevere det til Dr. Bloor. Robin, ordet er dit.

Dr. Robin Bloor: Okay. Tak for det intro, Eric. Okay, hvordan disse panorerer, disse viser, fordi vi har to analytikere; Jeg får se analytikerens præsentation, som de andre fyre ikke gør. Jeg vidste, hvad Kirk ville sige, og jeg går bare en helt anden vinkel, så vi ikke går for meget over hinanden.

Så det, jeg faktisk taler om eller har til hensigt at tale om her, er dataanalytikerens rolle kontra forretningsanalytikerens rolle. Og den måde, jeg karakteriserer det på, tunge-i-kind til en vis grad, er slags Jekyll og Hyde-ting. Forskellen er specifikt dataforskerne, i det mindste i teorien, ved hvad de laver. Mens forretningsanalytikere ikke er det, er okay med den måde, matematikken fungerer på, hvad man kan stole på, og hvad man ikke kan stole på.

Så lad os bare komme nede på grunden til, at vi gør det, grunden til at dataanalyse pludselig er blevet en stor del bortset fra det faktum, at vi faktisk kan analysere meget store mængder data og hente data fra uden for organisationen; er det betaler. Den måde, jeg ser på dette - og jeg tror, ​​dette kun bliver en sag, men jeg synes bestemt, det er en sag - dataanalyse er virkelig F & U-erhverv. Hvad du faktisk gør på en eller anden måde med dataanalyse er, at du ser på en forretningsproces i en slags, eller om det er interaktionen med en kunde, uanset om det er med den måde, din detailhandling har, den måde, du implementerer dine butikker. Det betyder ikke rigtig noget, hvad problemet er. Du ser på en given forretningsproces, og du prøver at forbedre den.

Resultatet af vellykket forskning og udvikling er en ændringsproces. Og du kan tænke på fremstilling, hvis du vil, som et sædvanligt eksempel på dette. For i fremstillingen samler folk information om alt for at prøve og forbedre produktionsprocessen. Men jeg tror, ​​hvad der er sket, eller hvad der sker ved big data, alt dette anvendes nu til alle virksomheder af enhver art på enhver måde, som enhver kan tænke på. Så stort set enhver forretningsproces er til undersøgelse, hvis du kan indsamle data om den.

Så det er en ting. Hvis du kan lide det, er det ved spørgsmålet om dataanalyse. Hvad kan dataanalyse gøre for virksomheden? Det kan godt ændre virksomheden fuldstændigt.

Dette særlige diagram, som jeg ikke vil beskrive i nogen dybde, men dette er et diagram, som vi kom frem til som kulminationen af ​​det forskningsprojekt, vi gjorde i de første seks måneder af dette år. Dette er en måde at repræsentere en big data-arkitektur på. Og en række ting, der er værd at påpege, før jeg går videre til det næste lysbillede. Der er to datastrømme her. Den ene er en datastrøm i realtid, der går langs toppen af ​​diagrammet. Den anden er en langsommere datastrøm, der går langs bunden af ​​diagrammet.

Se i bunden af ​​diagrammet. Vi har Hadoop som et datareservoir. Vi har forskellige databaser. Vi har der en hel data der med en hel masse aktiviteter, der foregår på det, hvoraf det meste er analytisk aktivitet.

Det punkt, jeg gør her, og det eneste punkt, jeg virkelig ønsker at gøre her, er, at teknologien er hård. Det er ikke enkelt. Det er ikke nemt. Det er ikke noget, som enhver, der er ny til spillet, bare kan sammensætte. Dette er ret kompliceret. Og hvis du vil instrumentere en virksomhed til at udføre pålidelig analyse på tværs af alle disse processer, er det ikke noget, der vil ske specifikt hurtigt. Det kommer til at kræve, at en masse teknologi tilføjes til blandingen.

Okay. Spørgsmålet, hvad er en datavidenskabsmand, kunne jeg hævde at være datavidenskabsmand, fordi jeg faktisk blev uddannet i statistik, før jeg nogensinde blev uddannet i computing. Og jeg udførte et aktuarmæssigt job i en periode, så jeg kender den måde, en virksomhed organiserer, statistisk analyse, også for at køre selv. Dette er ikke en triviel ting. Og der er meget af god praksis involveret både på den menneskelige side og på teknologisiden.

Så når jeg stiller spørgsmålet "hvad er en datavidenskabsmand", har jeg sat Frankenstein-billedet simpelthen fordi det er en kombination af ting, der skal strikkes sammen. Der er projektledelse involveret. Der er dyb forståelse i statistikker. Der er domænevirksomhedskompetence, som nødvendigvis mere er et problem for en forretningsanalytiker end dataforskeren. Der er erfaring eller behovet for at forstå dataarkitektur og være i stand til at bygge dataarkitekt, og der er software-engineering involveret. Med andre ord er det sandsynligvis et hold. Det er sandsynligvis ikke et individ. Og det betyder, at det sandsynligvis er en afdeling, der skal organiseres, og dens organisation er nødt til at overveje temmelig omfattende.

At smide i blandingen faktumet med maskinlæring. Vi kunne ikke gøre, jeg mener, maskinlæring er ikke nyt i den forstand, at de fleste af de statistiske teknikker, der bruges i maskinlæring, har været kendt om i årtier. Der er et par nye ting, jeg mener, at neurale netværk er relativt nye, jeg tror, ​​de kun er omkring 20 år gamle, så nogle af dem er relativt nye. Men problemet med maskinlæring var, at vi virkelig ikke havde computerkraften til at gøre det. Og hvad der er sket bortset fra alt andet, er, at computerens strøm nu er på plads. Og det betyder meget, hvad vi siger, dataforskere har gjort før i form af modelleringssituationer, prøveudtagning af data og derefter styring af dem for at fremstille en dybere analyse af dataene. Faktisk kan vi bare kaste computerkraft på det i nogle tilfælde. Vælg bare maskinlæringsalgoritmer, smid dem på dataene og se hvad der kommer ud. Og det er noget, som en forretningsanalytiker kan gøre, ikke? Men forretningsanalytikeren skal forstå, hvad de laver. Jeg mener, det er virkelig problemet mere end noget andet.

Dette er bare at vide mere om forretning fra dens data end på nogen anden måde. Einstein sagde ikke det, det sagde jeg. Jeg lagde hans billede op for troværdighed. Men situationen begynder faktisk at udvikle sig, hvor teknologien, hvis den anvendes korrekt, og matematikken, hvis den anvendes korrekt, vil være i stand til at drive en virksomhed som ethvert individ. Vi har set dette med IBM. Først og fremmest kunne det slå de bedste fyre ved skak, og derefter kunne det slå de bedste fyre på Jeopardy; men til sidst vil vi være i stand til at slå de bedste fyre ved at drive et firma. Statistikkerne vil til sidst sejre. Og det er svært at se, hvordan det ikke sker, det er bare ikke sket endnu.

Så hvad jeg siger, og dette er en slags komplet af min præsentation, er disse to emner af virksomheden. Den første er, kan du få teknologien rigtigt? Kan du få teknologien til at fungere for det team, der rent faktisk vil være i stand til at præsidere det og få fordele for virksomheden? Og så for det andet, kan du få folket ret? Og begge disse ting er problemer. Og det er problemer, der ikke er, til dette tidspunkt, siger de, er løst.

Okay Eric, jeg videregiver det til dig. Eller jeg måske videregive den til Will.

Eric: Faktisk, ja. Tak, Will Gorman. Ja, der går du, Will. Så lad os se. Lad mig give dig nøglen til WebEx. Hvad har du så sket? Pentaho, tydeligvis, I har været i et stykke tid og open source BI's slags, hvor du startede. Men du har meget mere, end du plejede at have, så lad os se, hvad du fik i disse dage til analyse.

Will Gorman: Absolut. Hej allesammen! Jeg hedder Will Gorman. Jeg er chefarkitekt hos Pentaho. For dem af jer, der ikke har hørt om os, nævnte jeg lige Pentaho er et big data-integration og analysefirma. Vi har været i branchen i ti år. Vores produkter har udviklet sig side om side med big data-samfundet og starter som en open source-platform til dataintegration og -analyse, innovativt med teknologi som Hadoop og NoSQL, selv før kommercielle enheder blev dannet omkring disse tech. Og nu har vi over 1500 kommercielle kunder og mange flere produktionsaftaler som et resultat af vores innovation omkring open source.

Vores arkitektur er yderst integrerbar og udvidelig, specialbygget til at være fleksibel, da big data-teknologi især udvikler sig i et meget hurtigt tempo. Pentaho tilbyder tre vigtigste produktområder er, der arbejder sammen for at tackle big data analytics brugssager.

Det første produkt i omfanget af vores arkitektur er Pentaho Data Integration, der er rettet mod datateknolog og dataingeniører. Dette produkt tilbyder en visuel, træk-og-slip-oplevelse til at definere datapipelelinjer og processer til orkestrering af data i big data-miljøer og traditionelle miljøer også. Dette produkt er en let, metadatabase, dataintegrationsplatform bygget på Java og kan distribueres som en proces inden for MapReduce eller YARN eller Storm og mange andre batch- og real-time platforme.

Vores andet produktområde er omkring visuel analyse. Med denne teknologi kan organisationer og OEM'er tilbyde en rig træk-og-slip-visualiserings- og analyseroplevelse til forretningsanalytikere og forretningsbrugere af moderne browsere og tablets, hvilket tillader ad hoc-oprettelse af rapporter og dashboards. Samt præsentation af pixel-perfekt dashboarding og rapporter.

Vores tredje produktområde fokuserer på forudsigelig analyse målrettet mod dataforskere, maskinlæringsalgoritmer. Som nævnt før, som neurale netværk og sådan, kan indarbejdes i et datatransformationsmiljø, hvilket tillader dataforskere at gå fra modellering til produktionsmiljø, hvilket giver adgang til at forudsige, og det kan påvirke forretningsprocesser meget øjeblikkeligt, meget hurtigt.

Alle disse produkter er tæt integreret i en enkelt smidig oplevelse og giver vores erhvervskunder den fleksibilitet, de har brug for for at løse deres forretningsproblemer. Vi ser et hurtigt voksende landskab af big data i traditionelle teknologier. Alt, hvad vi hører fra nogle virksomheder i big data-rummet, at EDW er tæt på en ende. Det, vi ser hos vores virksomhedskunder, er faktisk, at de er nødt til at introducere big data i eksisterende forretnings- og it-processer og ikke erstatte disse processer.

Dette enkle diagram viser det punkt i arkitekturen, som vi ofte ser, som er en type EDW-implementeringsarkitektur med dataintegration og BI-brugssager. Nu ligner dette diagram Robin's lysbillede af big data-arkitektur, det inkluderer realtids- og historiske data. Når nye datakilder og realtidskrav dukker op, ser vi big data som en yderligere del af den overordnede IT-arkitektur. Disse nye datakilder inkluderer maskingenererede data, ustrukturerede data, standardvolumen og hastighed og forskellige krav, som vi hører om i big data; de passer ikke ind i traditionelle EDW-processer. Pentaho arbejder tæt sammen med Hadoop og NoSQL for at forenkle indtagelse, databehandling og visualisering af disse data samt blanding af disse data med traditionelle kilder for at give kunderne et fuldt overblik over deres datamiljø. Vi gør dette på en styret måde, så IT kan tilbyde en komplet analyseløsning til deres branche.

Afslutningsvis vil jeg gerne fremhæve vores filosofi omkring big data-analyse og integration; vi mener, at disse teknologier fungerer bedre sammen med en samlet arkitektur, hvilket muliggør en række brugssager, som ellers ikke ville være mulige. Vores kunders datamiljøer er mere end bare big data, Hadoop og NoSQL. Alle data er fair spil. Og store datakilder skal være tilgængelige og arbejde sammen for at påvirke forretningsværdien.

Endelig mener vi, at for at løse disse forretningsproblemer i virksomheder meget effektivt gennem data, er IT og forretningsområder nødt til at arbejde sammen om en styret, blandet tilgang til big data-analyse. Nå tak, fordi du har givet os tid til at tale, Eric.

Eric: Du satser. Nej, det er gode ting. Jeg vil vende tilbage til den side af din arkitektur, når vi kommer til spørgsmål og spørgsmål. Så lad os gå igennem resten af ​​præsentationen og tak meget for det. I fyre har bestemt bevæget sig hurtigt de sidste par år, det må jeg sige helt sikkert.

Så Steve, lad mig gå foran og overgive det til dig. Og bare klik der på pil ned og gå efter det. Så Steve, jeg giver dig nøglerne. Steve Wilkes, bare klik på den fjerneste pil ned der på dit tastatur.

Steve Wilkes: Der går vi.

Eric: Der går du.

Steve: Det er en god introduktion, du har givet mig.

Eric: Ja.

Steve: Så jeg er Steve Wilkes. Jeg er CCO på WebAction. Vi har kun været i de sidste par år, og vi har bestemt også bevæget os hurtigt siden da. WebAction er en real-time big data-analyse platform. Eric nævnte tidligere, slags, hvor vigtig realtid er, og hvor realtid dine applikationer får. Vores platform er designet til at bygge apps i realtid. Og for at aktivere den næste generation af datadrevne apps, der kan bygges trinvis på, og for at give folk mulighed for at bygge dashboards fra de data, der genereres fra disse apps, men som fokuserer på realtid.

Vores platform er faktisk en komplet ende-til-ende-platform, der gør alt fra dataindsamling, databehandling, hele vejen til datavisualisering. Og gør det muligt for flere forskellige typer mennesker i vores virksomhed at arbejde sammen om at skabe ægte apps i realtid, hvilket giver dem indsigt i ting, der sker i deres virksomhed, som de skete.

Og dette er lidt anderledes end hvad de fleste har set i big data, så den traditionelle tilgang - ja, traditionel de sidste par år - med Big Data har været at fange den fra en hel masse forskellige kilder og derefter hældes det op i et stort reservoir eller sø eller hvad du end vil kalde det. Og behandle det derefter, når du har brug for at køre en forespørgsel om det; at køre storstilet historisk analyse eller endda bare ad hoc-forespørgsel efter store mængder data. Det fungerer nu i visse tilfælde. Men hvis du ønsker at være proaktiv i din virksomhed, hvis du rent faktisk vil have at vide, hvad der foregår snarere end at finde ud af, når noget gik galt slags mod slutningen af ​​dagen eller ugens slutning, er du virkelig nødt til at flytte til realtid.

Og det skifter lidt rundt. Det flytter behandlingen til midten. Så effektivt tager du disse streams af store mængder data, der genereres kontinuerligt inden for virksomheden, og du behandler dem, når du får dem. Og fordi du behandler det, som du får det, behøver du ikke at gemme alt. Du kan bare gemme de vigtige oplysninger eller de ting, du har brug for for at huske, at der faktisk skete. Så hvis du sporer GPS-placeringen af ​​køretøjer, der bevæger sig ad vejen, er du ligeglad med hvor de er hvert sekund, behøver du ikke at gemme, hvor de er hvert sekund. Du skal bare passe på, har de forladt dette sted? Er de ankommet til dette sted? Har de kørt eller ej, motorvejen?

Så det er virkelig vigtigt at overveje, at når flere og flere data genereres, så er de tre Vs. Hastighed bestemmer dybest set, hvor meget data der genereres hver dag. Jo flere data der genereres, jo mere skal du gemme. Og jo mere du skal opbevare, jo længere tid tager det at behandle. Men hvis du kan behandle det, som du får det, får du en rigtig stor fordel, og du kan reagere på det. Du kan få at vide, at tingene sker snarere end at skulle søge efter dem senere.

Så vores platform er designet til at være meget skalerbar. Det har tre større stykker - erhvervelsesstykket, behandlingsstykket og derefter leveringsvisualiseringsdelene på platformen. På overtagelsessiden ser vi ikke kun på maskingenererede logdata som weblogs eller applikationer, der har alle de andre logfiler, der genereres. Vi kan også gå ind og ændre datafangst fra databaser. Så det dybest set gør det muligt for os, vi har set den ETL-side, som Will præsenterede, og traditionel ETL, du skal køre forespørgsler mod databaserne. Vi kan få at vide, når ting sker i databasen. Vi ændrer det, og vi fanger det og modtager disse begivenheder. Og så er der tydeligvis de sociale feeds og live-enhedsdata, der pumpes til dig over TCP- eller ACDP-stik.

Der er mange forskellige måder at hente data på. Og når vi taler om volumen og hastighed, ser vi mængder, der er milliarder af begivenheder pr. Dag, ikke? Så det er store, store mængder data, der kommer ind og skal behandles.

Det behandles af en klynge af vores servere. Serverne har alle den samme arkitektur og er alle i stand til at gøre de samme ting. Men du kan konfigurere dem til, slags, gøre forskellige ting. Og inden for serverne har vi et højhastighedsforespørgselsbehandlingslag, der giver dig mulighed for at lave noget realtidsanalyse af dataene, udføre berigelser af dataene, udføre hændelseskorrelation, at spore ting, der sker inden for tidsvinduer, for at forudsige analyse baseret på mønstre, der ses i dataene. Og disse data kan derefter gemmes forskellige steder - det traditionelle RDBMS, enterprise data warehouse, Hadoop, big data infrastruktur.

Og de samme live-data kan også bruges til at strømføre data-drevne apps i realtid. Disse apps kan have et realtidsbillede af, hvad der foregår, og folk kan også blive advaret, når vigtige ting sker. Så snarere end at skulle gå ind i slutningen af ​​dagen og finde ud af, at der virkelig skete noget dårligt tidligere på dagen, kan du blive advaret om det andet, hvor vi ser det, og det går direkte til siden træk ned for at finde ud af, hvad der er foregår.

Så det ændrer paradigmet helt fra at skulle analysere data efter det faktum til at blive fortalt, når interessante ting sker. Og vores platform kan derefter bruges til at bygge datadrevne applikationer. Og det er virkelig her, vi fokuserer på, bygger ud disse applikationer. For kunder, kunder, med en række forskellige partnere, der viser den rigtige værdi i realtid dataanalyse. Så det gør det muligt for folk, der eller virksomheder, der f.eks. Anvender webstedsapplikationer, at kunne følge kundebrug over tid og sikre, at kvaliteten af ​​tjenesten overholdes, for at se realtidssvig eller hvidvaskning af penge, at se flere logins eller hackforsøg og den slags sikkerhedsbegivenheder, til at styre ting som set-top-bokse eller andre enheder, ATM-maskiner til at overvåge dem i realtid for fejl, fejl, der er sket, kan ske, vil ske i fremtiden baseret på forudsigelig analyse. Og det går tilbage til punktet med strømlining af operationer, som Eric nævnte tidligere, for at være i stand til at se, hvornår noget vil ske, og organisere din virksomhed til at ordne disse ting i stedet for at skulle kalde nogen ud for faktisk at gøre noget efter det faktum, hvilket er meget dyrere.

Forbrugeranalyse er et andet stykke for at kunne vide, hvornår en kunde laver noget, mens de stadig er der i din butik. Data sendt til ledelsen for i realtid at kunne overvåge ressourceforbruget og ændre, hvor tingene kører, og for at kunne vide, hvornår tingene vil mislykkes på en meget mere rettidig måde.

Så det er vores produkter i en nøddeskal, og jeg er sikker på, at vi kommer tilbage til nogle af disse ting i spørgsmål om spørgsmål og svar. Tak skal du have.

Eric: Ja, ja. Godt arbejde. Okay godt. Og nu næste stop i vores lynrunde, har vi Frank Sanders, der kalder ind fra MarkLogic. Jeg har kendt til disse fyre i en årrække, en meget, meget interessant databaseteknologi. Så Frank, jeg vender det over til dig. Klik bare hvor som helst i det. Brug pil ned på dit tastatur, og du er ude til løbene. Værsgo.

Frank Sanders: Mange tak, Eric. Så som Eric nævnte, jeg er hos et firma, der hedder MarkLogic. Og hvad MarkLogic gør er, at vi leverer en virksomheds NoSQL-database. Og måske er den vigtigste kapacitet, som vi bringer til bordet med hensyn til det, muligheden for faktisk at bringe alle disse forskellige informationskilder sammen for at analysere, søge og bruge disse oplysninger i et system, der ligner det, du er vant til med traditionelle relationelle systemer, ikke?

Og nogle af de vigtigste funktioner, som vi bringer til tabellen i denne henseende, er alle de virksomhedsfunktioner, som du kunne forvente af et traditionelt databasestyringssystem, din sikkerhed, din HA, din DR, din sikkerhedskopi er i vente, dit aktiv transaktioner. Såvel som det design, der giver dig mulighed for at skalere ud enten på skyen eller i råvareshardware, så du kan håndtere lydstyrken og hastigheden af ​​de oplysninger, som du bliver nødt til at håndtere for at opbygge og analysere denne slags af information.

Og måske er den vigtigste kapacitet den kendsgerning, at vi planlægger agnostiker. Hvad det betyder praktisk, er, at du ikke behøver at beslutte, hvordan dine data skal se ud, når du begynder at opbygge dine applikationer, eller når du begynder at samle disse informationer sammen. Men med tiden kan du indarbejde nye datakilder, trække yderligere oplysninger ind og derefter bruge gearing og forespørgsel og analysere disse oplysninger, ligesom du ville gøre med alt, hvad der var der, fra det tidspunkt, du startede designet. Okay?

Så hvordan gør vi det? Hvordan gør vi det faktisk muligt for dig at indlæse forskellige slags oplysninger, hvad enten det drejer sig om, RDF-tredobbelte, geospatiale data, tidsmæssige data, strukturerede data og værdier eller binære filer. Og svaret er, at vi faktisk har opbygget vores server fra bunden til at inkorporere søgeteknologi, der giver dig mulighed for at lægge information i, og som informationen selv beskriver, og den giver dig mulighed for at forespørge, hente og søge informationen uanset deres kilde eller format .

Og hvad det praktisk betyder, er, at - og hvorfor det er vigtigt, når du laver analyse - er, at analyse og information er vigtigst, når det er korrekt konualiseret og målrettet, ikke? Så en meget vigtig nøgledel i enhver form for analyse er søgning, og den vigtigste del er søgeanalyse. Du kan virkelig ikke have den ene uden den anden og med succes opnå det, du har til hensigt at opnå. Ret?

Og jeg vil tale kort om tre og et halvt forskellige anvendelsestilfælde af kunder, som vi har i produktionen, der bruger MarkLogic til at drive denne slags analyser. Okay. Så den første sådan kunde er Fairfax County. Og Fairfax County har faktisk bygget to separate applikationer. Den ene er baseret på tilladelse og ejendomsadministration. Og den anden, som sandsynligvis er lidt mere interessant, er Fairfax County-politiets begivenhedsanvendelse. Hvad politiets begivenhedsansøgning faktisk gør, er at den samler information som politirapporter, borgerrapporter og klager, tweets, anden information, de har, såsom kønsmisdadere og uanset hvilken anden information de har adgang til fra andre agenturer og kilder. Derefter tillader de dem at visualisere det og præsentere dette for borgerne, så de kan foretage søgninger og se på forskellige kriminelle aktiviteter, politiaktiviteter, alt gennem et samlet geospatialt indeks, ikke? Så du kan stille spørgsmål som "hvad er kriminalitetsraten inden for fem miles" eller "hvilke forbrydelser der opstod inden for fem miles fra min placering?" Okay.

En anden bruger, vi har, en anden kunde, vi har, er OECD. Hvorfor OECD er vigtig for denne samtale, skyldes, at ud over alt det, vi har aktiveret for Fairfax County med hensyn til at samle information, ikke sandt; alle de oplysninger, du vil få fra alle forskellige lande, der er medlemmer af OECD, som de rapporterer om fra et økonomisk perspektiv. Vi lagde faktisk en målboremaskine i det, rigtigt. Så du kan se på venstre side, vi ser specifikt på Danmark, og du kan slags se et blomsterblad derover, der rangerer det på forskellige akser. Ret? Og det er alt sammen godt og godt. Men hvad OECD har gjort, er, at de er gået et skridt videre.

Ud over disse smukke visualiseringer og at samle alle disse oplysninger giver de dig faktisk mulighed for i realtid at oprette dit eget bedre livsindeks, ret, som du kan se på højre side. Så hvad du har der, er at du har et sæt skyder, der faktisk giver dig mulighed for at gøre ting som rang, hvor vigtig bolig er for dig eller indkomst, job, samfund, uddannelse, miljø, borgerskab, sundhed, tilfredshed med livet, sikkerhed og dit arbejde / livsbalance. Og dynamisk baseret på, hvordan du faktisk indlæser denne information og vægt disse ting, bruger MarkLogic sin realtidsindekseringsevne og forespørgselsfunktion for faktisk at ændre, hvordan hvert eneste af disse lande rangeres for at give dig en idé om, hvor godt din land eller din livsstilskort gennem et givet land. Okay?

Og det sidste eksempel, som jeg vil dele, er MarkMail. Og hvad MarkMail virkelig prøver at demonstrere er, at vi kan tilbyde disse muligheder, og du kan foretage den slags analyse ikke kun på strukturerede oplysninger eller oplysninger, der kommer i det numeriske, men faktisk på mere løst struktureret, ustruktureret information, ikke? Ting som s. Og hvad vi har set her, er at vi faktisk trækker information som geolocation, er, firma, stabler og koncepter som Hadoop nævnes inden for con og derefter visualiserer det på kortet samt ser på hvem disse personer og hvad liste på tværs af det, en sendt og en dato. Dette hvor du ser på ting, der traditionelt ikke er struktureret, som måske er løst struktureret, men stadig er i stand til at udlede en struktureret analyse fra disse oplysninger uden at skulle gå meget langt for faktisk at prøve at strukturere den eller behandle dem på en tid. Og det er det.

Eric: Hej, okay god. Og vi fik en mere. Vi har fået Hannah Smalltree fra Treasure Data, et meget interessant firma. Og dette er meget godt indhold, folkens. Tak så meget for alle for at bringe så gode lysbilleder og så god detalje. Så Hannah, jeg gav bare nøglerne til dig, klik hvor som helst og brug pil ned på dit tastatur. Du har det. Tage det væk.

Hannah Smalltree: Mange tak, Eric. Dette er Hannah Smalltree fra Treasure Data. Jeg er instruktør med Treasure Data, men jeg har en fortid som teknisk journalist, hvilket betyder, at jeg sætter pris på to ting. For det første kan disse være længe efter at sidde igennem en masse forskellige beskrivelser af teknologi, og det kan alle lyde som om det løber sammen, så jeg vil virkelig fokusere på vores differentiator. Og applikationer i den virkelige verden er virkelig vigtige, så jeg værdsætter, at alle mine kolleger har haft det godt med at levere dem.

Treasure Data er en ny type big data-service. Vi leveres helt på skyen i en software som en service- eller administreret servicemodel. Så til Dr. Bloors punkt tidligere kan denne teknologi være rigtig hård, og det kan være meget tidskrævende at komme i gang. Med Treasure Data kan du få alle disse slags muligheder, som du muligvis får i et Hadoop-miljø eller et kompliceret lokalt miljø i skyen meget hurtigt, hvilket er virkelig nyttigt for disse nye big data-initiativer.

Nu taler vi om vores service i et par forskellige faser. Vi tilbyder nogle meget unikke indsamlingsfunktioner til indsamling af streamingdata, så især begivenhedsdata, andre former for realtidsdata. Vi taler lidt mere om disse datatyper. Det er en stor forskel for vores service. Når du kommer ind på big data, eller hvis du allerede er i dem, ved du, at det ikke er trivielt at indsamle disse data. Når du tænker på en bil med 100 sensorer, der indlæser data hvert minut, selv de 100 sensorer, der indlæser data hvert tiende minut, tilføjer det virkelig hurtigt, når du begynder at multiplicere mængden af ​​produkter, du har derude med sensorer, og det bliver hurtigt meget vanskeligt at styre. Så vi taler med kunder, der har millioner, vi har kunder, der har milliarder af rækker med data om dagen, som de er med os. Og de gør det som et alternativ til at prøve og styre det selv i en kompliceret Amazon-infrastruktur eller endda prøve at bringe det ind i deres eget miljø.

Vi har vores eget skylagermiljø. Vi styrer det. Vi overvåger det. Vi har et team af mennesker, der gør al den tuning for dig. Og så dataene flyder ind, de går ind i vores administrerede lagermiljø.

Derefter har vi indlejrede forespørgselsmotorer, så din analytiker kan gå ind og køre forespørgsler og foretage nogle indledende dataopdagelser og efterforskning mod dataene. Vi har et par forskellige forespørgselsmotorer til det faktisk nu. Du kan bruge SQL-syntaks, som dine analytikere sandsynligvis kender og elsker, til at udføre nogle grundlæggende dataopdagelser, til at gøre nogle mere komplekse analyser, der er brugerdefinerede funktioner eller endda for at gøre tingene så enkle som at samle disse data og gøre dem mindre, så du kan bringe det ind i dit eksisterende datalagermiljø.

Du kan også forbinde dine eksisterende BI-værktøjer, dit Tableau, er en stor partner af vores; men virkelig de fleste BI'er, visualiserings- eller analyseværktøjer kan oprette forbindelse via vores industristandard JDBC og ODBC drivere. Så det giver dig dette komplette sæt big data-muligheder. Du har tilladelse til at eksportere dine forespørgselsresultater eller datasæt når som helst gratis, så du nemt kan integrere disse data. Behandl dette som et dataraffinaderi. Jeg kan godt lide at tænke på det mere som et raffinaderi end en sø, fordi du faktisk kan gøre ting med det. Du kan gå igennem, finde værdifulde oplysninger og derefter bringe dem ind i dine virksomhedsprocesser.

Den næste dias, vi taler om de tre V'er af big data - nogle mennesker siger fire eller fem. Vores kunder har en tendens til at kæmpe med omfanget og hastigheden af ​​de data, der kommer til dem. Og så for at få specifikke oplysninger om datatyperne - Clickstream, webadgangslogger, mobildata er et stort område for os, mobilapplikationslogfiler, applikationslogfiler fra brugerdefinerede webapps eller andre applikationer, hændelseslogfiler. Og i stigende grad har vi mange kunder, der beskæftiger sig med sensordata, så fra bærbare enheder, fra produkter, fra bilindustrien og andre typer maskindata. Så når jeg siger big data, er det den type big data, jeg taler om.

Nu bruger nogle få sager i perspektiv for dig - vi arbejder med en detailhandler, en stor forhandler. De er meget velkendte i Asien. De udvides her i USA. Du begynder at se butikker; de kaldes ofte asiatisk IKEA, så simpelt design. De har en loyalitetsapp og et websted. Og ved hjælp af Treasure Data var de faktisk i stand til at implementere denne loyalitetsapp meget hurtigt. Vores kunder er i gang inden for dage eller uger på grund af vores software og vores servicearkitektur, og fordi vi har alle de mennesker, der gør alt det hårde arbejde bag kulisserne for at give dig alle disse muligheder som en service.

Så de bruger vores service til analyse af mobilapplikationer og ser på opførselen, hvad folk klikker på i deres mobilloyalitetsapplikation. De ser på webstedets klik, og de kombinerer det med vores e-handel og POS-data for at designe mere effektive kampagner. De ville faktisk køre folk ind i butikkerne, fordi de fandt ud af, at folk, når de går ind i butikkerne, bruger flere penge, og jeg er sådan; at samle tingene bruger du flere penge.

En anden brugssag, som vi ser i digitale videospil, utrolig smidighed. De vil se nøjagtigt, hvad der sker i deres spil, og foretage ændringer i dette spil, selv inden for få timer efter dets frigivelse. Så for dem er denne realtidsvisning utroligt vigtig. Vi har netop frigivet et spil, men vi bemærkede i den første time, at alle dropper af på niveau 2; hvordan skal vi ændre det? De kan ændre det inden for samme dag. Så realtid er meget vigtig. De indfører os milliarder af begivenhedslogfiler pr. Dag. Men det kan være enhver form for mobilapplikation, hvor du vil have en form for realtidssyn på, hvordan nogen bruger det.

Og endelig er et stort område for os vores produktadfærd og sensoranalyse. Så med sensordata, der er i biler, det er i andre slags maskiner, værktøjer, det er et andet område for os, i bærbare enheder. Vi har forsknings- og udviklingshold, der hurtigt vil vide, hvad virkningen af ​​en ændring af et produkt er, eller mennesker, der er interesseret i opførslen af, hvordan mennesker interagerer med produktet. Og vi har meget mere brugssager, som vi selvfølgelig er glade for at dele med dig.

Og så til sidst, bare vise dig, hvordan dette kan passe ind i dit miljø, vi tilbyder igen muligheden for at indsamle disse data. Vi har meget unik indsamlingsteknologi. Så igen, hvis realtidssamling er noget, du kæmper med, eller du forventer at kæmpe med, så kig på Treasure Data-tjenesten. Vi har virkelig lavet muligheder for at indsamle streamingdata. Du kan også bulkindlæse dine data, gemme dem, analysere dem med vores indlejrede forespørgselsmotorer og derefter, som jeg nævnte, kan du eksportere dem direkte til dit datavarehus. Jeg tror, ​​Will nævnte behovet for at introducere big data i dine eksisterende processer. Så ikke gå rundt eller opret en ny silo, men hvordan gør du disse data mindre og derefter flytter de ind i dit datavarehus, og du kan oprette forbindelse til din BI, visualisering og avancerede analyseværktøjer.

Men måske er de vigtigste punkter, jeg vil overlade dig med, at vi administreres service, det er software som en tjeneste; det er meget omkostningseffektivt. En månedlig abonnementstjeneste, der starter på et par tusind dollars om måneden, og vi kommer dig i gang om et par dage eller uger. Så sammenlign det med omkostningerne på måneder og måneder til at bygge din egen infrastruktur og ansætte disse mennesker og finde den og bruge al den tid på infrastruktur. Hvis du eksperimenterer, eller hvis du har brug for noget i går, kan du komme hurtigt igang med Treasure Data.

Og jeg bare henviser dig til vores websted og vores starttjeneste. Hvis du er en praktisk person, der kan lide at spille, så tjek vores starttjeneste. Du kan komme videre, intet kreditkort kræves, bare navn og, og du kan lege med vores eksempeldata, indlæse dine egne data og virkelig få en fornemmelse af, hvad vi taler om. Så tak så meget. Tjek også vores hjemmeside. Vi blev navngivet Gartner Cool Vendor i Big Data i år, meget stolte af det. Og du kan også få en kopi af denne rapport gratis på vores websted såvel som mange andre hvidbøger fra analytikere. Så tak så meget.

Eric: Okay, meget tak. Vi har tid til spørgsmål her, folkens. Vi går også lidt længe, ​​fordi vi stadig har en masse folk her på linjen. Og jeg ved, at jeg selv har fået nogle spørgsmål, så lad mig gå videre og tage kontrol igen, og så vil jeg stille et par spørgsmål. Robin og Kirk, er du velkommen til at dykke ind, som du synes passer.

Så lad mig gå videre og hoppe lige til et af disse første lysbilleder, som jeg tjekket ud fra Pentaho. Så her, jeg elsker denne udviklende big data-arkitektur, kan du slags tale om, hvordan det er, at denne slags passer sammen i et firma? For selvfølgelig går du ind i en nogenlunde stor organisation, endda en mellemstor virksomhed, og du vil have nogle mennesker, der allerede har nogle af disse ting; hvordan deler du det hele sammen? Hvad ser applikationen ud, som hjælper dig med at sy alle disse ting sammen, og hvordan ser interface så ud?

Vilje: Fantastisk spørgsmål. Grænsefladerne er forskellige afhængigt af de involverede personer. Men som et eksempel kan vi gerne fortælle historien om - en af ​​paneldeltagere nævnte datafaffinaderiets brugssag - vi ser det meget hos kunder.

Et af vores kundeeksempler, som vi taler om, er Paytronix, hvor de har det traditionelle EDW-datamart-miljø. De introducerer også Hadoop, Cloudera især og med forskellige brugeroplevelser deri. Så først er der en teknisk oplevelse, så hvordan får du alle disse ting sammen? Hvordan opretter du limet mellem Hadoop-miljøet og EDW?

Og så har du den forretningsbrugeroplevelse, som vi talte om, et antal BI-værktøjer derude, ikke? Pentaho har et mere integreret OEM BI-værktøj, men der er store derude som f.eks. Tableau og Excel, hvor folk vil udforske dataene. Men normalt vil vi sikre os, at dataene styres, ikke? Et af spørgsmålene i diskussionerne, hvad med single-version oplevelse, hvordan styrer du det og uden teknologien som Pentaho-dataintegration for at blande disse data ikke på glasset, men i it-miljøerne. Så det beskytter og styrer dataene virkelig og giver mulighed for en enkelt oplevelse for forretningsanalytikere og forretningsbrugere.

Eric: Okay, god. Det er et godt svar på et vanskeligt spørgsmål, helt ærligt. Og lad mig bare stille spørgsmålet til hver af præsentanterne og så måske Robin og Kirk, hvis I fyre også vil springe ind. Så jeg vil gerne gå videre og skubbe dette lysbillede til WebAction, som jeg synes er virkelig et meget interessant firma. Faktisk kender jeg Sami Akbay, der også er en af ​​medstifterne. Jeg kan huske, at jeg talte med ham for et par år siden og sagde: "Hej mand, hvad laver du? Hvad har du op til? Jeg ved, at du skal arbejde på noget." Og det var han selvfølgelig. Han arbejdede på WebAction under covers her.

Et spørgsmål kom ind til dig, Steve, så jeg vil kaste det over til dig, om datarensning, ikke? Kan du tale om disse komponenter i denne realtidsevne? Hvordan håndterer du problemer som datarensning eller datakvalitet, eller hvordan fungerer det endda?

Steve: Så det afhænger virkelig af, hvor du får dine feeds fra. Hvis du henter dine feeds fra en database, når du ændrer datafangst, afhænger det typisk der af, hvordan dataene blev indtastet. Rengøring af data bliver virkelig et problem, når du får dine data fra flere kilder, eller folk indtaster dem manuelt, eller du har slags vilkårlige ting, som du er nødt til at prøve at trække ting ud af. Og det kunne bestemt være en del af processen, selvom den type simpelthen ikke egner sig til ægte, slags hurtige realtidsbehandling. Datarensning er typisk en kostbar proces.

Så det kan godt være, at det kunne gøres efter kendsgerningen på butikssiden. Men den anden ting, platformen er virkelig, virkelig god til, er korrelation, så i korrelation og berigelse af data. Du kan i realtid korrelere de indkommende data og kontrollere, om de stemmer overens med et bestemt mønster, eller det matcher data, der hentes fra en database eller Hadoop eller en anden butik. Så du kan korrelere det med historiske data, er en ting, du kan gøre.

Den anden ting, du kan gøre, er dybest set at analysere disse data og se, om den slags matcher bestemte krævede mønstre. Og det er noget, du også kan gøre i realtid. Men den traditionelle slags datarensning, hvor du korrigerer firmanavne, eller du korrigerer adresser og alle disse typer ting, burde sandsynligvis ske i kilden eller typen af ​​det, der er meget dyrt, og du beder at de ikke vil gøre dem i realtid.

Eric: Ja. Og I prøver virkelig at tackle de ting, der naturligvis er i realtid, men også få folk i tide. Og vi talte om, rigtigt, nævnte jeg øverst på timen, hele dette mulighedsvindue, og du er virkelig målrettet mod specifikke applikationer på virksomheder, hvor du kan samle data, der ikke går den sædvanlige rute, gå denne alternative rute og gøre det i så lav latenstid, at du kan beholde kunder. For eksempel kan du holde folk tilfredse, og det er interessant, da jeg snakede langsomt med samer om, hvad I fyre laver, gjorde han et rigtig godt punkt. Han sagde, hvis du ser på en masse af de nye webbaserede applikationer; lad os se på ting som, Bitly eller nogle af disse andre apps; de er meget anderledes end de gamle applikationer, som vi kiggede på fra, siger, Microsoft som Microsoft Word.

Jeg bruger ofte Microsoft som en piskende dreng og specifikt Word for at tale om udviklingen af ​​software. Fordi Microsoft Word startede som selvfølgelig et tekstbehandlingsprogram. Jeg er en af ​​de mennesker, der husker Word Perfect. Jeg elskede at være i stand til at gøre afsløringsnøglerne eller afslørekoden, dybest set, hvor du kunne se den faktiske kode derinde. Du kan rydde op i noget, hvis din liste med punkttegn var forkert, du kan rydde op. Nå, Word lader dig ikke gøre det. Og jeg kan fortælle dig, at Word indlejrer et bjerg af kode på hver side, du gør. Hvis nogen ikke tror mig, skal du gå til Microsoft Word, skrive "Hello World" og derefter "Eksporter som" eller "Gem som" .html. Åbn derefter dette dokument i en editor, og det vil være cirka fire sider med koder bare for to ord.

Så jer, jeg syntes det var meget interessant, og det var på tide, at vi talte om det. Og det er her I fokuserer på, ret, er at identificere, hvad I måske kalder cross-platform eller cross-enterprise eller cross-domain muligheder for at samle data på så hurtig tid, at du kan ændre spillet, ikke?

Steve: Ja, absolut. Og en af ​​nøglerne, som jeg tror, ​​du undgik, alligevel, er at du virkelig ønsker at vide om ting, der sker, før dine kunder gør det, eller før de virkelig bliver et problem. Som eksempel er set-top-bokse. Kabelkasser, de udsender telemetri hele tiden, belastninger og belastninger af telemetri. Og ikke bare kassens sundhed, men det er, hvad du ser, og alt det slags, ikke? Det typiske mønster er, at du venter til kassen mislykkes, og så ringer du til din kabeludbyder, og de siger: "Nå, vi kommer til dig en gang mellem kl. 06.00 og 23.00 i hele novembermåneden." Det er ikke en rigtig god kundeoplevelse.

Men hvis de kunne analysere denne telemetri i realtid, kunne de begynde at gøre ting, som vi ved, at disse kasser sandsynligvis mislykkes i de næste uges baserede historiske mønstre. Derfor planlægger vi vores kabelreparations fyr til at dukke op i denne persons hus, inden det mislykkes. Og vi gør det på en måde, der passer os snarere end at skulle til ham fra Santa Cruz op til Sunnyvale. Vi planlægger alt i en dejlig rækkefølge, rejsende sælgermønster osv., Så vi kan optimere vores forretning. Og så er kunden glad, fordi de ikke har en kabelfelt, der mangler. Og kabeludbyderen er glad, fordi de lige har strømline ting, og de behøver ikke at folk overalt. Det er bare et meget hurtigt eksempel.Men der er tonsvis af eksempler, hvor det at vide om ting, som de sker, inden de sker, kan spare virksomheder en formue og virkelig virkelig forbedre deres kundeforhold.

Eric: Ja, ret. Ingen tvivl om det. Lad os gå videre og gå videre til MarkLogic. Som jeg nævnte før, har jeg kendt til disse fyre i ganske lang tid, så jeg bringer dig ind i dette, Frank. I gik langt foran hele big data-bevægelsen med hensyn til at udbygge din ansøgning, det er virkelig database. Men byg det ud, og du talte om vigtigheden af ​​søgning.

Så mange mennesker, der fulgte rummet, ved, at mange af NoSQL-værktøjerne derude nu styrker søgefunktioner, hvad enten de er gennem tredjepart, eller de prøver at gøre deres egne. Men at have den søgning, der allerede er indlejret i det, indbygget så at sige, er virkelig en stor ting. For hvis du tænker over det, hvis du ikke har SQL, og hvordan skal du så gå ind og søge i dataene? Hvordan trækker du fra den dataressource? Og svaret er at typisk bruge søgning for at komme til de data, du leder efter, ikke?

Så jeg tror, ​​det er en af ​​de vigtigste differentierere for jer til side at kunne trække data fra alle disse forskellige kilder og gemme disse data og virkelig lette denne form for hybridmiljø. Jeg tænker på, at søgefunktion er en stor ting for dig, ikke?

Frank: Ja, absolut. Faktisk er det den eneste måde at løse problemet konsekvent, når du ikke ved, hvordan alle dataene ser ud, ikke? Hvis du umuligt kan forestille dig alle mulighederne, er den eneste måde at sikre dig, at du kan finde alle de ønskede oplysninger, at du kan finde dem konsekvent, og du kan finde dem uanset hvordan du udvikler din datamodel og dine datasæt er for at sikre, at du giver folk generiske værktøjer, der giver dem mulighed for at forhøre disse data. Og den nemmeste, mest intuitive måde at gøre det på er gennem et søgeparadigme, ikke? Og gennem den samme tilgang i søgningen tager vi, hvor vi oprettede et inverteret indeks. Du har poster, hvor du faktisk kan undersøge disse og derefter finde poster og dokumenter og rækker, der faktisk indeholder de oplysninger, du leder efter, for derefter at returnere dem til kunden og give dem mulighed for at behandle dem, som de finder det passende.

Eric: Ja, og vi talte meget om dette, men du giver mig en rigtig god mulighed for at grave i det - hele søge- og opdagelsessiden af ​​denne ligning. Men først og fremmest er det meget sjovt. For alle, der kan lide det, er dette den sjove del, ikke? Men den anden side af ligningen eller den anden side af mønten, må jeg sige, er, at det virkelig er en iterativ proces. Og du skal være i stand til - her bruger jeg noget af marketingsproget - have den samtale med dataene, ikke? Med andre ord skal du være i stand til at teste hypotesen, lege med den og se, hvordan det fungerer. Måske er der ikke der, test noget andet og konstant ændre ting og iterere og søge og undersøge og bare tænke på ting. Og det er en proces. Og hvis du har store forhindringer, hvilket betyder lange forsinkelser eller en vanskelig brugergrænseflade, eller du skal gå spørge IT; der bare dræber hele den analytiske oplevelse, ikke?

Så det er vigtigt at have denne form for fleksibilitet og være i stand til at bruge søgninger. Og jeg kan godt lide den måde, du har afbildet det her, fordi hvis vi ser på at søge i forskellige, slags, koncepter eller nøgler, hvis du vil, nøgleværdier og de er forskellige dimensioner. Du vil være i stand til at blande og matche disse ting for at gøre det muligt for din analytiker at finde nyttige ting, ikke?

Frank: Ja, absolut. Jeg mener, hierarki er også en vigtig ting, ikke? Så når du inkluderer noget som en titel, højre eller et specifikt udtryk eller værdi, så kan du faktisk pege på den rigtige. Så hvis du leder efter en titel på en artikel, får du ikke titler på bøger, ikke? Eller du får ikke titler på blogindlæg. Evnen til at skelne mellem dem og gennem hierarkiet af informationen er også vigtig.

Du har tidligere påpeget udviklingen, ikke? Evnen til at vores kunder rent faktisk kan trække nye datakilder inden for få timer, begynde at arbejde med dem, evaluere, om de er nyttige eller ikke, og så enten fortsætte med at integrere dem eller forlade dem ved siden af ​​vejen er ekstremt værdifulde. Når du sammenligner det med en mere traditionel applikationsudviklingsmetode, hvor det, du ender med at gøre, er du nødt til at finde ud af, hvilke data du vil indtage, kilde dataene, finde ud af, hvordan du kommer til at passe dem i din eksisterende datamodel eller model der i, ændre den datamodel for at inkorporere den og derefter faktisk begynde udviklingen, ikke? Hvor vi snu det på vores hoved og siger bare bringe det til os, giver dig mulighed for at begynde at gøre udviklingen med det og derefter senere beslutte, om du vil beholde det eller næsten med det samme, om det er af værdi.

Eric: Ja, det er et rigtig godt punkt. Det er et godt punkt. Så lad mig gå videre og hente vores fjerde programleder her, Treasure Data. Jeg elsker disse fyre. Jeg vidste ikke meget om dem, så jeg sparker lidt af mig selv. Og så kom Hannah til os og fortalte os, hvad de gjorde. Og Hannah nævnte, hun var en medieperson, og hun gik over til den mørke side.

Hannah: Det gjorde jeg, jeg afviste.

Eric: Det er dog okay, fordi du ved, hvad vi kan lide i medieverdenen. Så det er altid rart, når en medieperson går over til sælgersiden, fordi du forstår, hej, det her er ikke så let at artikulere, og det kan være vanskeligt at konstatere fra et websted, nøjagtigt, hvad dette produkt gør kontra hvad det produkt gør. Og det, I snakker om, er virkelig ret interessant. Nu er du en skystyret tjeneste. Så alle data, som nogen ønsker at bruge, de uploader til din sky, er det ikke? Og så vil du ETL eller CDC, yderligere data op til skyen, er det sådan, det fungerer?

Hannah: Nå, ja. Så lad mig gøre en vigtig sondring. De fleste af de data, big data, som vores kunder indtager os, ligger allerede uden for firewall - mobildata, sensordata, der findes i produkter. Og derfor bruges vi ofte som et mellemliggende sceneområde. Så data kommer ikke ofte fra en virksomheds virksomhed ind i vores service, så meget som de flyder fra et websted, en mobilapplikation, et produkt med mange sensorer i det - ind i vores skymiljø.

Hvis du nu ønsker at berige de store data i vores miljø, kan du helt sikkert bulk uploade nogle applikationsdata eller nogle kundedata for at berige det og udføre mere af analyserne direkte i skyen. Men meget af vores værdi er omkring indsamling af de data, der allerede er uden for firewall, og samlet et sted. Så selvom du agter at bringe denne slags bag din firewall og gøre mere af din avancerede analyse eller bringe den ind i dit eksisterende BI- eller analysemiljø, er det et rigtig godt iscenesættelsessted. Fordi du ikke ønsker at bringe en milliard rækker dag ind i dit datalager, er det ikke omkostningseffektivt. Det er endda svært, hvis du planlægger at gemme det et eller andet sted og derefter batchoverføre.

Så vi er ofte det første punkt, hvor data indsamles, der allerede er uden for firewall.

Eric: Ja, det er også et rigtig godt punkt. Fordi mange virksomheder vil være nervøse over at tage deres proprietære kundedata, sætte dem op i skyen og styre hele processen.

Hannah: Ja.

Eric: Og hvad du snakker om, er virkelig at få folk til en ressource til at knuse det tunge antal af, som du antyder, data, der er tredjepart som mobildata og de sociale data og al den slags sjove ting. Det er ret interessant.

Hannah: Ja, absolut. Og sandsynligvis er de nervøse for produkterne, fordi dataene allerede er udenfor. Og så ja, før jeg bringer det ind, og jeg kan virkelig godt lide det raffinaderiudtryk, som jeg nævnte, versus søen. Så kan du lave nogle grundlæggende raffinaderier? Få de gode ting ud, og før det derefter bag firewallen ind i dine andre systemer og processer til dybere analyse. Så det er virkelig alle data, som videnskabsmænd kan gøre, dataundersøgelse i realtid af denne nye big data, der strømmer ind.

Eric: Ja, det stemmer. Nå, lad mig gå foran og hente vores analytikere, så går vi slags tilbage i omvendt rækkefølge. Jeg starter med dig, Robin, med hensyn til Treasure Data, og så tager vi til Kirk for nogle af de andre. Og så tilbage til Robin og tilbage til Kirk bare for at få lidt mere vurdering af dette.

Og du kender dataraffinaderiet, Robin, som Hannah taler om her. Jeg elsker det koncept. Jeg har hørt kun et par mennesker tale om det på den måde, men jeg tror, ​​at du bestemt nævnte det før. Og det taler virkelig til, hvad der faktisk sker med dine data. Fordi selvfølgelig et raffinaderi, destillerer det dybest set ting ned til sit rodniveau, hvis du tænker på olieraffinaderier. Jeg har faktisk studeret dette et stykke tid, og det er temmelig grundlæggende, men den teknik, der går ind i det, skal være nøjagtigt korrekt, eller du får ikke de ting, du vil have. Så jeg synes, det er en fantastisk analogi. Hvad synes du om hele dette begreb Treasure Data Cloud Service, der hjælper dig med at tackle nogle af disse meget specifikke analytiske behov uden at skulle medbringe ting internt?

Robin: Nå, jeg mener, selvfølgelig afhængigt af omstændighederne, hvor praktisk det er. Men enhver, der faktisk har fået allerede foretaget proces, vil allerede sætte dig foran spillet, hvis du ikke selv har en. Dette er den første afhentning af noget lignende. Hvis nogen har samlet noget, har de gjort det, det er bevist på markedet og derfor er der en slags værdi i virkning, ja, arbejdet er allerede gået ind i det. Og der er også den meget generelle kendsgerning, at raffinering af data vil være et meget større problem, end det nogensinde var før. Jeg mener, det er ikke talt om, efter min mening er det ikke snakket om så meget, som det skal være. Bortset fra det faktum, at størrelsen på dataene er vokset, og antallet af kilder og forskellige kilder er vokset ganske betydeligt. Og pålideligheden af ​​dataene med hensyn til, om de er rene, de er nødt til at disambiguere dataene, alle mulige problemer, der opstår lige med hensyn til styring af dataene.

Så før du faktisk kommer rundt for at være i stand til at foretage pålidelig analyse af det, ved du, at hvis dine data er beskidte, bliver dine resultater skæve på en eller anden måde. Så det er noget, der skal adresseres, som skal kendes om. Og triangulatoren med at yde så vidt jeg kan se en meget bæredygtig service til at hjælpe med det.

Eric: Ja, ja. Nå, lad mig gå foran og bringe Kirk tilbage i ligningen her lige virkelig hurtigt. Jeg ville se på en af ​​disse andre lysbilleder og bare få et indtryk af tingene, Kirk. Så lad os måske gå tilbage til dette MarkLogic-dias. Og forresten, Kirk leverede linket, hvis du ikke kunne se det folk, til nogle af hans klassevisningsbilleder, fordi det er et meget interessant koncept. Og jeg tror, ​​at dette er en slags brygning bagerst i tankerne, Kirk, da jeg talte om dette for et øjeblik siden. Hele dette spørgsmål, som en af ​​de deltagende stillede om, hvordan skal du gå i gang med at finde nye klasser. Jeg elsker dette emne, fordi det virkelig taler til den slags, den svære side ved at kategorisere ting, fordi jeg altid har haft svært ved at kategorisere ting. Jeg kan lide, "Åh, gud, jeg kan passe ind i fem kategorier, hvor lægger jeg det?" Så jeg vil bare ikke kategorisere noget, ikke?

Og det er derfor, jeg elsker søgning, fordi du ikke behøver at kategorisere den, ikke behøver at lægge den i mappen. Bare søg efter det, så finder du det, hvis du ved, hvordan du søger. Men hvis du er i den proces med at prøve at segmentere, fordi det dybest set er, hvilken kategorisering det er, er det segmentering; at finde nye klasser, det er lidt interessant. Kan du tale med magten ved søgning og semantik og hierarkier, for eksempel som Frank talte om med hensyn til MarkLogic og den rolle, der spiller ved at finde nye klasser, hvad synes du om det?

Kirk: Nå, først og fremmest vil jeg sige, at du læser mit sind. Fordi det var det, jeg tænkte på et spørgsmål, allerede inden du talte, hele dette semantiske stykke her, som MarkLogic præsenterede. Og hvis du vender tilbage til min dias, behøver du ikke at gøre dette, men tilbage på dias fem på det, jeg præsenterede i eftermiddag; Jeg talte om denne semantik, at dataene skal indfanges.

Så hele denne idé om søgning, der går du. Jeg tror bestemt på det, og jeg har altid troet på, at med big data, slags tag analogien med Internet, mener jeg, bare Internettet, jeg mener, at det at have verdens viden og information og data i en webbrowser er en ting. Men for at få det let at søge og hente, som en af ​​de store søgemaskinefirmaer leverer os, så er det her den reelle opdagelsesstyrke er. Fordi du forbinder søgetermer, sorterer brugerens interesserområder til det bestemte datagranul, den bestemte webside, hvis du vil tænke på webeksemplet eller det bestemte dokument, hvis du taler om dokumentbibliotek. Eller en bestemt kundetype segment, hvis det er din plads.

Og semantik giver dig den slags videnopdeling på toppen af ​​bare en ordsøgning. Hvis du søger efter en bestemt type ting, kan du forstå, at et medlem af en klasse af sådanne ting kan have et bestemt forhold til andre ting. Inkluder endda den slags forholdsoplysninger, og det er en klassehierarkiinformation for at finde ting, der ligner det, du leder efter. Eller nogle gange endda det nøjagtige modsætning til det, du leder efter, fordi det på en måde giver dig en slags yderligere kerne af forståelse. Nå, sandsynligvis noget der er modsat af dette.

Eric: Ja.

Kirk: Så faktisk forstå dette. Jeg kan se noget der er modsat af dette. Og så er det semantiske lag en værdifuld komponent, der ofte mangler, og det er interessant nu, at dette ville komme op her i denne con. Fordi jeg har undervist et kandidatuddannelse i database, data mining, læring af data, data science, hvad du end vil kalde det i over et årti; og en af ​​mine enheder i dette semesterlange kursus handler om semantik og ontologi. Og ofte ser mine studerende på mig, hvad har det at gøre med det, vi taler om? Og selvfølgelig til sidst tror jeg, at vi forstår, at placere disse data i en slags videnramme. Så bare for eksempel leder jeg efter oplysninger om en bestemt kundeadfærd, for at forstå, at denne adfærd forekommer, det er hvad folk køber ved en sportsbegivenhed. Hvilken slags produkter tilbyder jeg mine kunder, når jeg bemærker på deres sociale medier - på eller - at de siger, at de skal til en sportsbegivenhed som fodbold, baseball, hockey, verdensmesterskab, hvad det måtte være.

Okay, så sportsbegivenhed. Så de siger, de skal til, lad os sige, et baseball-spil. Okay, jeg forstår, at baseball er en sportsbegivenhed. Jeg forstår, at det normalt er et socialt, og du går med mennesker. Jeg forstår, at det normalt er i et udendørs rum. Jeg mener, at forstå alle disse conual funktioner, det muliggør en slags, mere kraftfuld, slags, segmentering af den involverede kunde og din slags personalisering af den oplevelse, du giver dem, når de for eksempel interagerer med din plads gennem en mobilapp, mens de sidder i et stadion.

Så al den slags ting bringer bare så meget mere magt og opdagelsespotentiale til dataene i den slags indekseringsidee om at indeksere datagranulat efter deres semantiske sted og vidensrummet er virkelig temmelig betydningsfuldt. Og jeg var virkelig imponeret over, der kom ud i dag. Jeg tror, ​​det er slags en grundlæggende ting at tale.

Eric: Ja, det er det bestemt. Det er meget vigtigt i opdagelsesprocessen, det er meget vigtigt i klassificeringsprocessen. Og hvis du tænker over det, fungerer Java i klasser. Det er en objektorienteret, jeg gætte mere eller mindre, man kan sige form for programmering og Java-værker i klasser. Så hvis du faktisk designer software, er hele dette koncept med at prøve at finde nye klasser faktisk temmelig vigtige ting med hensyn til den funktionalitet, du prøver at levere. Fordi især i denne nye vilde, uldrige verden af ​​big data, hvor du har så meget Java derude, der kører så mange af disse forskellige applikationer, ved du, at der er 87.000 måder eller mere til at få noget gjort med en computer, for at få enhver form for bit af udført funktionalitet.

En af mine løbende vittigheder, når folk siger: "Åh, du kan bygge et datavarehus ved hjælp af NoSQL." Jeg kan godt lide, "godt, du kunne, ja, det er sandt. Du kan også bygge et datavarehus ved hjælp af Microsoft Word." Det er ikke den bedste idé, det klarer ikke meget godt, men du kan faktisk gøre det. Så nøglen er, at du er nødt til at finde den bedste måde at gøre noget på.

Fortsæt.

Kirk: Lad mig bare svare på det. Det er interessant, at du nævnte Java-klasseeksemplet, der ikke kom ind i mig, før du sagde det. Et af aspekterne ved Java og klasser og den slags objektorientering er, at der er metoder, der binder til specifikke klasser. Og dette er virkelig den slags, som jeg forsøgte at gøre i min præsentation, og at når du først har forstået nogle af disse datagranulater - disse vidennuggets, disse tags, disse kommentarer og disse semantiske etiketter - så kan du binde en metode til den. De har dybest set denne reaktion eller dette svar, og har dit system leveret denne form for automatiseret, proaktiv respons på denne ting næste gang vi ser det i datastrømmen.

Så begrebet bindende handlinger og metoder til en bestemt klasse er virkelig en af ​​kræfterne i automatiseret realtidsanalyse. Og jeg tror, ​​at du slags rammer noget.

Eric: God, god, god. Dette er gode ting. Så lad os se, Will, jeg vil give det tilbage til dig og faktisk kaste et spørgsmål til dig fra publikum. Vi har få af dem herinde også. Og folk, vi går lang tid, fordi vi ønsker at få nogle af disse gode koncepter i disse gode spørgsmål.

Så lad mig kaste et spørgsmål til dig fra et af seertallene, der siger: "Jeg kan ikke rigtig se, hvordan forretningsintelligens skelner mellem årsag og virkning." Med andre ord, når systemerne tager beslutninger baseret på observerbar information, hvordan udvikler de nye modeller for at lære mere om verden? Det er et interessant punkt, så jeg hører en årsag-og-virkning-sammenhæng her, analyse af rodårsager, og det er noget af den slags afancerede ting i analysen, som I snakker om i modsætning til traditionel BI, som virkelig er bare slags rapportering og slags forståelse af hvad der skete. Og selvfølgelig bevæger hele din retning, bare at se på dit lysbillede her, mod den forudsigelige evne til at tage disse beslutninger eller i det mindste gøre disse henstillinger, ikke? Så ideen er, at I fyrer forsøger at servicere hele rækkevidden af ​​det, der foregår, og I forstår, at nøglen, den virkelige magi, er i den analytiske målkomponent der til højre.

Vilje: Absolut.Jeg tror, ​​at dette spørgsmål kaster noget frem i fremtiden, i den forstand, at datavidenskaben, som jeg nævnte før, så lysbildet med kravene fra dataforskeren; det er en temmelig udfordrende rolle for nogen at være i. De skal have den rige viden om statistik og videnskab. Du skal have domæneviden for at anvende din matematiske viden på domænerne. Så hvad vi ser i dag er, at der ikke er disse out-of-the-box forudsigelsesværktøjer, som en forretningsbruger, som, kunne trække i Excel og automatisk forudsige deres fremtid, ikke?

Det kræver, at avanceret viden inden for teknologi på dette stadium. Nu en dag i fremtiden kan det være, at nogle af disse systemer, disse skaleringssystemer bliver opmærksomme og begynder at gøre nogle vilde ting. Men jeg vil sige på dette tidspunkt, at du stadig skal have en dataforsker i midten for at fortsætte med at opbygge modeller, ikke disse modeller. Disse forudsigelige modeller omkring datamining og sådan er meget afstemt og indbygget af dataforskeren. De genereres ikke alene, hvis du ved, hvad jeg mener.

Eric: Ja, nøjagtigt. Det er nøjagtigt. Og en af ​​mine linjer er "Maskiner lyver ikke, i det mindste endnu ikke."

Vilje: Ikke endnu, nøjagtigt.

Eric: Jeg læste en artikel - jeg må skrive noget om dette - om et eksperiment, der blev udført på et universitet, hvor de sagde, at disse computerprogrammer lærte at lyve, men jeg må fortælle dig, jeg tror ikke rigtig på det . Vi vil undersøge det, folkens.

Og til den sidste kommentar, så Robin, så bringer jeg dig tilbage for at se på denne WebAction-platform, fordi dette er meget interessant. Det er det, jeg elsker ved en hel plads, er at du får så forskellige perspektiver og forskellige vinkler taget af de forskellige leverandører til at imødekomme meget specifikke behov. Og jeg elsker dette format til vores show, fordi vi fik fire virkelig interessante sælgere, der ærligt talt ikke rigtig træder på hinandens tæer overhovedet. Fordi vi alle laver forskellige bits og stykker af det samme samlede behov, som er at bruge analyser, for at få ting gjort.

Men jeg vil bare få dit perspektiv på denne specifikke platform og deres arkitektur. Hvordan de går hen til gøre ting. Jeg synes det er ret overbevisende. Hvad synes du?

Robin: Nå, jeg mener, det er peget på ekstremt hurtige resultater fra streaming af data, og som søgning skal du arkitekt for det. Jeg mener, du vil ikke slippe af sted med at gøre noget, amatørmæssigt, da vi har noget af det. Jeg hører, at dette er ekstremt interessant, og jeg synes, at en af ​​de ting, vi har været vidne til i fortiden; Jeg mener, at jeg og du, vores kæbe er faldet mere og mere i løbet af de sidste par år, da vi så flere og flere ting dukke op, der var lige som ekstraordinært hurtigt, ekstraordinært smart og temmelig meget hidtil uset.

Dette er tydeligvis WebAction, dette er ikke den første rodeo, så at sige. Det er faktisk, det har været derude og taget navne i en vis grad. Så jeg kan ikke se, men antages, at vi skulle være overrasket over, at arkitekturen er ret skiftet, men den er det bestemt.

Eric: Nå, jeg siger hvad, folkens. Vi brændte gennem faste 82 minutter her. Jeg mener, tak til alle de mennesker, der har lytter hele tiden. Hvis du har spørgsmål, der ikke blev besvaret, skal du ikke være genert, en til din virkelig. Vi skulle have en fra mig liggende et eller andet sted. Og en stor, stor tak til begge vores præsentanter i dag, til Dr. Kirk Borne og til Dr. Robin Bloor.

Kirk, jeg vil gerne udforske nogle af de semantiske ting sammen med dig, måske i en fremtidig webcast. Fordi jeg tror, ​​at vi er i begyndelsen af ​​en meget ny og interessant fase nu. Hvad vi vil være i stand til at udnytte en masse af de ideer, som folk har, og få dem til at ske meget lettere, fordi, gæt hvad, softwaren bliver billigere, skal jeg sige. Det bliver mere anvendeligt, og vi får bare alle disse data fra alle disse forskellige kilder. Og jeg tror, ​​det vil blive en meget interessant og fascinerende rejse i de næste par år, da vi virkelig går i dybden, hvad det her kan gøre, og hvordan kan det forbedre vores forretninger.

Så stor tak også til Techopedia og selvfølgelig til vores sponsorer - Pentaho, WebAction, MarkLogic og Treasure Data. Og folk, wow, med det vil vi konkludere, men tak så meget for din tid og opmærksomhed. Vi fanger dig om cirka halvanden måned til det næste show. Og selvfølgelig fortsætter orienteringsrummet; radio holder ved med at køre; alle vores andre webcast-serier fortsætter med at rocke og rulle, folkens. Mange tak. Vi fanger dig næste gang. Hej hej.