Forward Momentum: Moving Relational Beyond Traditional

Tag væk: Værten Eric Kavanaugh diskuterer innovationer inden for databaseteknologi med eksperterne Dez Blanchfield, Robin Bloor og Bert Scalzo.

Du er ikke logget ind. Log ind eller tilmeld dig for at se videoen.

Eric Kavanagh: Mine damer og herrer, det er onsdag klokka fire østlige. Jeg er i New Orleans, sommeren kommer, det betyder, at den er varm! Det er tid til Hot Technologies, ja, ja, ja. Jeg hedder Eric Kavanagh, jeg vil være din vært. Jeg vil sparke bolden tilbage her for Hot Technologies. Emnet i dag er "Forward Momentum: Moving Relational Beyond Traditional." Folkens, vi har tre databaseeksperter på telefonen i dag, så alle spørgsmål, du har, dem de hårde, skal ikke være genert. Vi har en masse gode indhold, der er oprettet til dig i dag. Der er stedet om din virkelig, nok om mig. Naturligvis er dette år varmt. Vi taler alt om varme teknologier i dette show, som er et partnerskab med vores venner fra Techopedia. Og vi går helt ned til fundamentet for informationsstyring i dag, som naturligvis er databasen. Vi vil tale om, hvordan vi kom hertil, hvad der sker i dag og hvad der sker fremover. Masser af meget interessante ting foregår.

Det er klart, at vi har en seriøs innovation i databasepladsen. Det var lidt stille et stykke tid; hvis du taler med nogle af analytikerne i branchen, vil jeg sige sandsynligvis fra året som 2005 til 2009 eller ‘10 ’, det så ikke ud til, at der var for meget der foregår med hensyn til innovation.Og pludselig brød det bare ud, som et fængsel eller noget, og nu sker der alle slags interessante ting. Meget af det skyldes webens omfang og alle de seje webegenskaber, der laver forskellige interessante ting. Det er her NoSQL-konceptet kom fra. Og det betyder to forskellige ting: det betyder ingen SQL, da den ikke understøtter SQL, det betyder også ikke kun SQL. Der er et udtryk "NewSQL", som nogle mennesker har brugt. Men selvfølgelig er SQL - det strukturerede forespørgselssprog - virkelig fundamentet, det er grundlaget for forespørgsler.

Og det er interessant, at alle disse NoSQL-motorer, hvad skete der? Nå, de kom ud, der var en masse spænding ved det, og så et par år senere, hvad begyndte vi alle at høre? Åh, SQL på Hadoop. Nå, alle disse virksomheder begyndte at slå SQL-grænseflader på deres NoSQL-værktøjer, og alle, der er i programmeringsverdenen, ved, at det vil føre til nogle udfordringer og nogle vanskeligheder, og nogle krydsede ledninger og så videre. Så vi kommer til at finde ud af meget af det her i dag.

Der er vores tre præsentanter: Vi har fået Dez Blanchfield til at kalde ind fra Sydney, vores helt egen Robin Bloor, der er i Texas, og det samme er Bert Scalzo, han er også i Texas. Så for det første hører vi fra Dez Blanchfield. Folkens, vi vil tweet på hashtaggen til #HotTech, så føl dig fri til dine kommentarer eller dine spørgsmål gennem Q&A-komponenten i webcastkonsollen eller endda gennem chatvinduet. Og med det, Dez Blanchfield, tag det væk.

Dez Blanchfield: Tak, Eric. Hej allesammen. Så jeg vil prøve at indstille scenen på et 30.000 fots synspunkt om, hvad der skete i det sidste årti, og de betydelige skift, vi har set - eller mindst et halvt årti - alligevel - af databasestyringssystemer, og nogle af virkningerne fra et kommercielt eller teknisk synspunkt, og nogle af de tendenser, som vi har udholdt sent, og fører os ind i den samtale, vi er ved at føre i dag omkring emnet.

Mit forsidebillede her er en sandklit, og der blæser vind af små små sandstykker fra toppen af det. Og som et resultat af det, hvad der sker er, at sandklitten langsomt går fra det ene rum til det andet. Og det er et forbløffende fænomen, hvor disse massive 40- og 50-fots høje bjerge sand, faktisk, de faktisk bevæger sig. Og de bevæger sig meget langsomt, men de bevæger sig sikkert, og når de bevæger sig, ændrer de landskabet. Og det er noget at se på, hvis du overhovedet tilbringer nogen tid i et område, hvor sandklitter er en naturlig ting. Fordi du kan se ud af vinduet en dag og indse, at dette massive bjerg af sand, har små bittesmå korn bevæget sig af sig selv i kraft, og at vinden langsomt skifter det fra et sted til et andet.

Og jeg tror på mange måder, det har været databasesystemernes verden i ganske lang tid. Indtil for meget, for nylig, det meget lille skift i form af sandkorn, der flytter et kæmpe bjerg af sand i form af en klit. Der er kommet små skift i databaseplatformerne i årenes løb, og det har været et ret stabilt og solidt miljø omkring databasesystemer og platforme gennem mainframe fra mid-range æraen. Men sent har vi haft nogle forholdsvis betydelige ting, der sker med vores kommercielle behov og vores tekniske drivere. Jeg går gennem dem.

Jeg er af den opfattelse, at det grundlæggende koncept for en database, som vi kendte det i mange, mange år, og som du måske har hørt i før-show-skænderiet, havde vores to eksperter, der taler med mig i dag, en levetid i dette rum, og de har helt ret i at dele skønske rettigheder ved at være der, da det hele startede i de tidlige 80'ere. Men vi har set dette enorme skift i det sidste årti og lidt, og jeg vil hurtigt gå igennem os, før jeg overleverer det til Dr. Robin Bloor.

Vi har været igennem dette, hvad jeg kalder "større, bedre, hurtigere, billigere" oplevelse. Som sagt er definitionen af en database ændret. Landskabet, hvor databaseplatformerne har været nødt til at imødegå ydeevne, og tekniske og kommercielle krav er også ændret. Vi har set denne stigende efterspørgsel efter løsninger til at håndtere enten mere komplekse kommercielle eller mere komplekse tekniske krav. Og så et rigtig hurtigt kig gennem, hvad det faktisk betyder, efter min mening, er, at vi var nødt til at sortere fra 90'erne, og vi så databaseteknologi påvirket af introduktionen af internettet og slags hvad vi kaldte tilbage på Internettet vægt. Vi talte ikke bare om mennesker, der sad foran terminalerne, oprindeligt som teletypeterminaler med fysiske ers indbygget i dem og 132 kolonner med at komme ud i papir. Derefter de tidlige grønne skærmterminaler, stansning med tastaturer.

Men du ved, vores verden var terminaler og seriekabler eller netværkskabler, der talte med computere i lang tid. Derefter fulgte internettet, og denne eksplosive vækst af tilslutningsmuligheder, som du ikke behøver at være tilsluttet computeren mere. For at komme til et databasesystem havde du bare brug for en webbrowser. Så databaseteknologien måtte dramatisk ændres for at håndtere omfanget af alt fra de grundlæggende søgemaskinteknologier, der blev brugt til at indeksere verden og gemme et indeks med information i eksemplet med databaseformatskala. Og folk som Google og andre gav en platform til at gøre det. Og alle nye typer databaselagring og forespørgsel og indeksering blev produceret. Og så havde vi musikwebsteder og filmwebsteder kom med.

Og så i 2000'erne så vi dot-com boom, og det frembragte en endnu mere dramatisk eksplosion i antallet af mennesker, der brugte systemer, der altid var drevet af en database af en eller anden form. Dette stadie, relationelle databaser, der stadig er klaret med det meste af belastningen, vi lagde dem bare på større tin, og vi gik slags til de meget, meget, meget store mellemdistancesystemer, der kører Unix-platforme fra folk som IBM og Sun og så videre . Dot-com boom gjorde tingene større og hurtigere fra en hardware, ydeevne synspunkt, og der var nogle væsentlige ændringer i databasemotorerne, men for det bedre var det stadig det samme, som vi havde set for en lang tid.

Og så fik vi denne æra af web 2.0, som vi refererer til den. Og dette var et uhyrligt skift, for pludselig havde vi brug for meget enklere databaseplatforme, og der måtte være en skala i vandret form. Og det var et så markant skift i den måde, at vi nærmede os ideen om, hvad en database var. Vi er stadig virkelig ved at indhente nu efter min mening. Og nu har vi at gøre med hele denne quagmire, og jeg siger, at med en positiv spin, ikke en negativ konnotation, denne quagmire af det, vi kalder big data, og en enorm eksplosion, og jeg mener eksplosion. Dette skandaløst skift lodret på grafen over antallet af muligheder, vi har, når vi taler om en database, og en eller anden form for relationel forespørgselsevne.

Og interessant nok er jeg personligt af den opfattelse, at jeg synes, at big data virkelig er toppen af isbjerget. Vi er tilbøjelige til at blive lidt begejstrede for, hvad virkningen af big data har været, og hvilke typer valg vi har til rådighed nu. Vi har alt fra NoSQL-motorer, vi har grafmotorer, vi har alle disse forskellige typer platforme, som vi kan smide data på og gøre ting med det. Selv til det punkt, hvor faktisk en af de allerførste samtaler, jeg havde med Eric Kavanagh, som er her med os i dag, var omkring en samtale, der vedrørte en ting, der hedder Apache Drill, som er et open source-projekt, der giver dig mulighed for at spørge data inde i modellen forskellige datatyper: alt fra rå CSE-filer, der sidder på en harddisk, til HDFS-filsystemer i petabyte skala. Og du ved, det giver dig mulighed for at udføre disse SQL-stil forespørgsler om strukturerede og ustrukturerede data om alle slags spændende planter.

Vi er ved at se "smart bygning" blive en ting, og vi vil gerne tro, at vi har smarte bygninger med sikkerhed og varmestyring, men jeg taler om smarte bygninger, der ved meget mere om, hvem du er og hvor du er, når du går ind og gør alle slags pæne ting på det niveau, gennem til smarte byer - hele økosystemer på byniveau - der ved, hvordan man gør ting intelligent. Og ud over det har vi fået denne utrolige ting, som jeg ikke tror, at nogen i verden er fuldt ud forstået, og det er formen for tingenes internet. Der har været alle disse forskellige ændringer gennem det sidste årti og lidt, måske to årtier groft, hvis vi afrunder det, der efter min mening har påvirket verden af det, vi betragter som databaser, efter min mening.

Der har været et par væsentlige ting, der har gjort dette endnu muligt. Omkostningerne ved harddiske er faldet dramatisk, og det er på mange måder det, der gjorde det muligt at køre nogle af referencearkitekturerne, såsom Hadoop-modellen, idet vi tager masser af data og spreder dem ud på masser af harddiske, og gør smarte ting med det. Og i virkeligheden, hvad der efter min mening blev afskåret af den relationelle database eller traditionelle DB-enhedsmodel. Og RAM fik meget, meget billigt, og det gav os en helt ny mulighed for at lege med forskellige referencearkitekturer såsom in-memory og at gøre ting som at opdele meget, meget store klumper af data.

Og dette gav os dette lille billede, som vi ser på nu, hvilket er et diagram, der viser de typer platforme, der er tilgængelige, hvis du er i big data-landskabet. Og det er meget, meget vanskeligt at læse, og årsagen hertil er der bare for meget information om. Der er så mange fabrikations-, model- og fremstillingsmuligheder af måder at placere data i databasesystemer af enhver form og forespørge om og udføre de traditionelle læse-skrivninger. Og de er ikke alle kompatible, faktisk overholder meget få af dem endda nogen grundlæggende stilstandard, men de anser sig stadig for at være en database. Og jeg vil vise dig et par skærmbilleder på et sekund for at give dig nogle problemer med, hvad jeg mener med skiftet fra 90'erne og internetskalaen, til web 2.0, og derefter hele væksten gennem big data. Hvis vi synes, at denne store datateknologiske landskabsgrafik er spændende, fordi der er en masse muligheder på det, så lad os bare se på en nøgletal.

Lad os se på marketingteknologi. Her er mulighederne for databasestyringssystemer eller datastyring i bare mar-tech rummet, så teknologi relateret til markedsføring. Nu var det i 2011, så for et par år siden; for fem år siden så sådan ud som landskabet. Hvis jeg bare går et kort lysbillede tilbage, er det sådan, dagens datalandskab ser ud i de forskellige mærker og tilbud, vi har inden for databaseteknologier. Sådan lignede en lodret for fem år siden, bare inden for marketingteknologi.

Nu, hvis jeg går til dagens syn, er det sådan, det ser ud, og det er helt uigennemtrængeligt. Det er netop denne væg af mærker og indstillinger, og det er tusinder og tusinder af kombinationer af software, der betragter sig som i databaseklassen, at det kan fange, oprette eller gemme og hente data i forskellige former. Og jeg tror, at vi går ind i en meget, meget interessant og modig tid nu, hvor man engang kunne kende de store mærker, man kunne kende de fem eller seks forskellige platforme fra Oracle og Informix, DB2 og så videre, og være næsten en ekspert på alle de mærker, der var tilgængelige for ca. 20 år siden. For ti år siden blev det lidt lettere, fordi nogle af mærkerne faldt ned, og ikke alle mærker kunne klare omfanget af dot-com-boom, og nogle virksomheder gik bare knækket.

I dag er det absolut umuligt at være ekspert på al den databaseteknologi, der findes, hvad enten det er relationelle databaser eller standard databasestyringsplatforme, som vi har lært at kende i de sidste par årtier. Eller sandsynligvis tilfældet, jo mere moderne motorer som Neo4j og disse typer. Og derfor tror jeg, at vi er i en meget modig verden, hvor mange muligheder er tilgængelige, og vi har platforme i skala på vandret basis, enten i hukommelsen eller på disken nu. Men jeg synes, det er en udfordrende tid for teknologi- og forretningsbeslutnings beslutningstagere, fordi de er nødt til at tage nogle meget store beslutninger om teknologibunker, som i nogle tilfælde kun har eksisteret i det væsentlige måneder. Atten måneder gammel er ikke et skræmmende nummer nu for nogle af de mere spændende og nye open-source databaseplatforme. Og de begynder at flette platforme og blive endnu nyere og mere spændende.

Jeg tror, vi vil have en god samtale i dag om, hvordan alt dette har påvirket de traditionelle databaseplatforme, og hvordan de reagerer på det, og hvilke typer teknologier der bliver kastet på det. Og med det i tankerne, vil jeg gå videre til Dr. Robin Bloor og få hans indsigt. Robin, over til dig.

Robin Bloor: Okay, tak for det. Ja, dette er alt for stort emne. Jeg mener, hvis du bare tog en del af en af de illustrationer, som Dez netop viste dig, kunne du have en lang samtale næsten en af floderne. Men du ved, du kan gå i en database - Jeg har kigget på databaser, jeg ved det ikke siden 1980'erne, og du kan se på databasen på forskellige måder. Og en af de ting, som jeg regnede med, at jeg ville gøre, bare smide ind i samtalen i dag, var at tale om årsagen til, at forstyrrende ting er sket på hardware-niveau. Og du skal huske på, at der også er sket en masse forstyrrende ting på softwareniveauet, så dette er ikke det fulde billede af noget, dette er bare en hardware-ting.

Jeg har heller ikke tænkt mig at tale meget længe, jeg ville bare give dig hardwarebilledet. En database var dataopsamlingskapaciteter, der spænder over CPU, hukommelse og disk, og det ændrer sig dramatisk. Og grunden til at jeg siger det, var, at jeg lærte at forstå databasen ud fra det, du faktisk gjorde. Du ved, der er en forskel i latenstid mellem data, der faktisk er på CPU'en, og data, der trækkes ind i CPU'en fra hukommelsen, og data, der trækkes fra disk til hukommelse og gennem CPU'en. Og de gamle databasearkitekturer forsøgte bare at afbalancere det. Du ved, de sagde bare, ”Nå, dette går meget langsomt, vi cache dataene på disken, så de er i hukommelsen. Vi vil prøve at gøre det på en rigtig nøjagtig måde, så en rigtig god del af de data, vi beder om, allerede er i hukommelsen. Og vi vil marchere dataene på CPU'en så hurtigt som vi faktisk kan. ”

Og databaser blev skrevet i gamle dage maskiner er skrevet til små klynger. Og nu, for uvidende om parallelisme. For hvis du får nogle præstationer ud af en klynge, bliver du nødt til at gøre forskellige ting parallelt. Parallelisme er en del af spillet, intet som det er nu. Jeg går bare igennem hvad der skete.

Først og fremmest disk. Nå, disken er over, virkelig. Det er stort set ovre med hensyn til databaser. Jeg tror, at der er en række ulemper ved arkivering af data, og selv meget store datasøer, der kører på Hadoop, er den værste spindende disk sandsynligvis levedygtig i dag. Problemet med spindisk disk var, at læsehastighederne ikke forbedrede sig særlig meget. Og når CPU gik op med Moores lovhastigheder, en slags størrelsesorden, hurtigere hvert sjette år. Og hukommelsen fulgte slags i dens kølvandet, så holdt disse to rimeligt med hinanden, det var ikke helt glat, men de gjorde det.

Men den tilfældige læst til en disk, hvor hovedet flyver om disken, jeg mener, bortset fra alt andet, det er en fysisk bevægelse. Og hvis du foretager tilfældige læsninger fra en disk, er det utroligt langsomt sammenlignet med læsning fra hukommelsen, det er som 100.000 gange langsommere. Og temmelig for nylig har de fleste af de databasearkitekturer, jeg har set på nogen dybde, faktisk lige været serielæsning fra diske. Du vil virkelig på en eller anden måde bare cache så meget du kan fra disken og trække den af den langsomme enhed og læg den på en hurtig enhed. Og der er en masse smarte ting, du kan gøre med det, men det er slags ovre.

Og solid-state-diske eller flashdrev er virkelig, hvad de er, og erstatter meget hurtigt spin-disken. Og det ændrer sig igen, fordi den måde, hvorpå dataene er organiseret på en disk, er organiseret efter den måde, disken fungerer på. Det handler faktisk om et hoved, der bevæger sig hen over en roterende overflade, faktisk flere hoveder, der bevæger sig på tværs af flere roterende overflader, og henter dataene, mens de går. Et solidt drev er bare en blok med ting, som du kan læse. Jeg mener, den første ting er, at alle de traditionelle databaser blev konstrueret til spinding af disk, og de bliver nu konstrueret til SSD. Nye databaser kan sandsynligvis - enhver, der skriver en ny database lige nu, kan sandsynligvis ignorere spindisk disk, ikke overveje den overhovedet. Men Samsung, den største producent af SSD'er, fortæller os, at SSD'er faktisk er på Moore's lovkurve.

De var allerede, tror jeg, cirka tre eller fire gange hurtigere end spindisk disk, men de kommer nu meget hurtigere til hver 18. måned. Dobbelt i hastighed og 10 gange i hastighed op til ca. seks år. Hvis det bare var det, er det ikke det, som jeg vil fortælle dig om et øjeblik. Spinning disk bliver selvfølgelig et arkiveringsmedium.

Om hukommelse. Første ting først, RAM. CPU-forholdet mellem RAM pr. CPU øges bare hele tiden. Og det leverer naturligvis på en måde en frygtelig meget mere hastighed, fordi de hektar store hukommelse, du kan have nu, kan gemme meget mere. Hvad dette faktisk gør, er, at det formindsker trykket på MLTP-slags applikationer eller tilfældige læse applikationer, fordi det er lettere at imødekomme dem, fordi du nu har en masse hukommelse, og på den måde kan du cache noget, der er sandsynligvis læses i hukommelsen. Men du har problemer med en større dataheap, så big data er faktisk ikke så enkel, egentlig.

Og så har vi Intel med 3D Xpoint, og IBM med det, de kalder PCM, som er faseændringshukommelse, leverer noget, som de mener er - ja, det er mindst 10 gange hurtigere end nuværende SSD'er, og de tror, det vil få meget tæt på at være den samme hastighed som RAM. Og selvfølgelig er det billigere. Så tidligere havde du denne databasestruktur af CPU, hukommelse og disk, og nu bevæger vi os hen imod en struktur, der har fire lag. Det har CPU, hukommelse eller RAM, og derefter denne form for hurtigere end SSD-hukommelse, som faktisk er ikke-flygtig, og derefter SSD. Og disse nye teknologier er ikke-flygtige.

Og der er HP's memristor, som endnu ikke er, ved du, fordi den blev annonceret for omkring syv år siden, men den er endnu ikke dukket op. Men de rygter, jeg hører, er, at HP også vil ændre spillet lidt med en memristor, så du har lige en ny hukommelsessituation. Dette er ikke som om vi har fået hurtigere ting, det er som om vi har fået et helt nyt lag. Og så har vi det faktum, at SSD-adgang, du kan læse den parallelt. Du kan ikke læse spindisk disk parallelt, undtagen ved at have en masse forskellige spindeskiver. Men en blok af SSD, kan du faktisk læse parallelt. Og fordi du kan læse det parallelt, går det langt hurtigere end dets enkle læsehastigheder, hvis du faktisk konfigurerer flere processer på tværs af de forskellige processer på en enkelt CPU og bare har det med SSD.

Det anslås, at du kan få næsten op til RAM-hastigheder ved at gøre det. Og alt hvad dette siger er, at fremtiden for hukommelsesarkitektur er uklar. Jeg mener, virkeligheden er, at de forskellige dominerende leverandører, uanset hvad de viser sig at være, sandsynligvis vil bestemme retningen på hardware. Men ingen ved, hvor det går på dette tidspunkt. Jeg har talt med nogle databaseingeniører, der siger: ”Jeg er ikke bange for, hvad der sker,” men de ved ikke, hvordan man optimerer det fra start. Og du har altid gjort det, så det er interessant.

Og så er der CPU'en. Nå, CPU'er med flere kerner var ikke kun flercore CPU'er. Vi har også betydelige mængder af L1, L2 og L3 cache, især L3, hvilket er op til, jeg ved ikke, titusinder af megabyte. Du kan lægge meget der, ved du. Og derfor kan du faktisk bruge chippen som et cache-medium. Så det ændrede spillet. Og helt sikkert, vektorbearbejdning og datakomprimering har et antal leverandører faktisk gjort det, trukket disse ting på CPU'en for at få det hele til at gå meget hurtigere på CPU'en. Derefter får du det faktum, at godt, CPU'er med GPU'er er virkelig gode til at fremskynde analysen. Og de er virkelig ret gode til bestemte typer forespørgsler, det afhænger bare af, hvad din forespørgsel er.

Du kan enten oprette boards med CPU'er og GPU'er på, eller som AMD gør lige nu, producerer du noget, der kaldes en APU, som er et slags ægteskab mellem en CPU og en GPU; det har begge slags muligheder. Så det er en anden slags processor. Og så den nylige meddelelse fra Intel om, at de vil sætte en FPGA på chippen, den slags gjorde mit hoved i. Jeg tænkte: "Hvordan i alverden skal det ske?" Fordi hvis du har mulighed for CPU, GPU, og du har muligheden for CPU, FPGA - og forresten, hvis du virkelig vil, på det samme bord kan du placere en CPU, en GPU og en FPGA. Jeg har ingen idé om, hvordan du rent faktisk ville køre noget på den måde, men jeg ved om virksomheder, der laver ting som dette, og de får meget, meget hurtige spørgsmålssvar. Dette er ikke noget, der vil blive ignoreret, dette er noget, der vil blive brugt af de etablerede leverandører, og måske af nye leverandører, der kommer op. DBMS'er var altid parallelle, men nu er de parallelle muligheder lige eksploderet, fordi dette giver dig mulighed for at parallelisere dette med det, med det, med det på forskellige måder.

Endelig at skalere eller skalere ud? Opskalering er virkelig den bedste løsning, men for en ting. Du får langt bedre knudepræstation, hvis du bare absolut kan optimere ydelsen på CPU'en og hukommelsen på disken på en knude. Og du vil bruge færre noder, så det bliver billigere, ikke? Og det vil være lettere at administrere. Desværre er det et hardware-afhængigt design, og når hardware ændres, bliver det mindre og mindre muligt at gøre det, medmindre dine ingeniører vil være i stand til at køre så hurtigt, som hardware skifter. Og du får problemer med arbejdsbyrden, for når du skalerer op, gør du forskellige antagelser om, hvad arbejdsbyrden vil gøre.

Hvis du skalerer ud, det vil sige, hvis din arkitektur lægger vægt på skala inden skalering - faktisk skal du gøre dem begge, er det bare det, du understreger en. Derefter får du bedre netværksydelse, fordi arkitekturen vil håndtere det. Det vil være dyrere med hensyn til hardware, fordi der vil være flere noder, men der vil være færre problemer med arbejdsbyrden, og der vil være mere fleksibelt design.

Og jeg tænkte bare, at jeg ville smide det ind, for hvis du rent faktisk tænker på alle hardwareændringer, pegede jeg bare min finger på, og så tænkte du på, hvordan skal du skalere og skalere ud på det? Så er du klar over, at databasingeniører efter min mening i det mindste er godt underbetalte. Så hvis du bare overvejer hardwarelaget, er databaseudfordringerne klare. Nu videregiver jeg dette til Bert, der vil få os alle til at føle os uddannet.

Eric Kavanagh: Det er det! Bert?

Bert Scalzo: Mange tak. Lad mig bare komme lige ind i disse lysbilleder. Jeg har en masse dias at gå igennem, så på ganske mange af dem går jeg måske ret hurtigt. Vi vil tale om dette "Fremadspændingsmoment: Flytte relationelle ud over traditionelle." Det er ikke din fars database mere. Tingene har ændret sig, og som en tidligere taler sagde, landskabet har ændret sig radikalt de sidste seks til syv år.

Selv har jeg lavet databaser siden midten af 80'erne. Jeg har skrevet bøger om Oracle, SQL Server, benchmarking og en hel del andre ting. ”Verden ændrer sig meget hurtigt. Big vil ikke slå lille længere. Det vil være den hurtige slå den langsomme. ”Jeg tilføjede“ at tilpasse sig. ”Det var fra Rupert Murdoch. Jeg tror virkelig, dette vil være sandt. Du vil ikke være i stand til at udføre databasestoffer, som du gjorde for 10, 15, 20 år siden. Du bliver nødt til at gøre det, som virksomheden ønsker det nu.

Jeg vil prøve at forblive lidt generisk i det, jeg præsenterer, men de fleste af de funktioner, jeg taler om, finder du i Oracle, du finder i SQL Server, MySQL, MariaDB og nogle af de andre store afspillere. Den relationelle database revolution, jeg er slags igen enig med de tidligere talere. Hvis du ser ret omkring 2010, gik vi fra den røde racerbil til den gule racerbil. Der skete en betydelig ændring, og i 2020 tror jeg, du vil se en anden radikal ændring. Vi er i en meget interessant tid.

Nu, dette dias er nøglen, det er derfor, jeg lægger en nøgle derop. Der sker al denne ændring, og på venstre side har jeg teknologi, og på højre side har jeg forretning. Og spørgsmålet er, hvilken der forårsager hvilken, og hvilken støtter hvilken? Vi har alle disse hardwareændringer: diske, der kommer ned, diskstørrelse går op, nye typer diske, så det blev dækket af de tidligere højttalere. Prisen for hukommelse taber, alle disse nyere versioner af databaser. Men til højre har vi databeskyttelse og overholdelse, datalagring, forretningsinformation, analyse, obligatorisk datalagring. Begge sider af ligningen kører, og begge sider af ligningen vil gøre brug af alle disse nye funktioner.

Først og fremmest har vi vores typiske SAS-spindisk, de er op til 10 terabyte nu. Hvis du ikke har set, Western Digital, har HGST det, de kalder deres helium-drev, der går op til ca. 10 terabyte lige nu. Omkostningerne til spindiskdisken bliver temmelig lave. Som nævnt tidligere kan du få solid-state-diske op til cirka to terabyte, men Samsung har en 20-terabyte-enhed, der kommer snart. Omkostningerne bliver rimelige. Én ting, jeg skal tale om de andre ikke gjorde, er begrebet flash-diske. PCIe, dets PCI Express versus NVMe, har du måske eller måske ikke hørt om denne, ikke-flygtige hukommelsesekspress. Grundlæggende kommer NVMe til at erstatte SAS og SATA, og det er virkelig mere en kommunikationsprotokol end noget andet. Men disse diske er op til cirka tre terabyte nu.

Du har måske også set, at nogle SAS-drev nu leveres med U.2-stik, som er slags et andet stik end et SAS eller SATA, der understøtter NVMe med en standarddisk - disken skal selvfølgelig også understøtte det. Og så SATA med M.2-stik, og de begynder at få NVMe. Der er faktisk notebook-leverandører, der nu sælger bærbare computere, der har en NVMe-flashdisk i, og disse ting vil skrige sammenlignet med den teknologi, du har brugt før.

En masse mennesker ved ikke, hvad alle disse forskellige blink er. Hvis du ser i nederste højre hjørne, er det et eksempel på en M.2. Du kan måske sige, "Nå ja, det ligner meget mSATA-drevet til venstre for det." Men som du kan se, har det to huller i stifterne i modsætning til en, og det er lidt større. Og også M.2 kan komme i tre forskellige størrelser.

Og så blokerer PCI Express og NVMe. Nu er NVMe-flashen også PCI Express, men PCI Express er typisk stadig en SAS- eller SATA-type controlleralgoritme, der blev skrevet til spindisk disk, og NVMe er de algoritmer eller teknikker, der blev skrevet specifikt til flash. Og igen vil du se alle disse.

NVMe tilbyder ganske mange ting. Jeg tror, at de to største forbedringer er, op i øverste højre hjørne reduceres latensen med op til 70 procent. Jeg har faktisk set endnu højere end det. Hvis du ser i nederste højre hjørne, når dit operativsystem taler til NVMe-disken, gennemgår det langt færre niveauer af software. Grundlæggende går du gennem NVMe-driveren, der nu er inkluderet i operativsystemet, og det taler direkte til medierne. Der er mange grunde til, at denne teknologi radikalt ændrer databaseverdenen.

Og mange gange vil folk sige, ”Nå, hvor hurtigt er NVMe?” Du ved, de gode gamle dage, tilbage i 2004 og før, blev vi spændte, hvis vi havde Ultra-320 SCSI, 300 megabyte per sekund. Dagens hastigheder, mange af dig er sandsynligvis på fiber eller InfiniBand, og den slags top out. NVMe derovre til højre, starter ved, hvor de nuværende teknologier slutter. Hvad jeg får ved, er, at PCI Express 3.0 med et otte-banes-link starter på næsten 8000, og det vil gå op, når vi får nyere versioner af PCI Express, version fire og så videre. NVMe har ingen steder at gå bortset fra.

Hvad er der nogle af de ting, der ændrer sig i databasen? Nu i de øverste højre hjørner af mine lysbilleder lægger jeg de forretningsgrunde, som jeg tror, teknologien dukkede op. I dette tilfælde på grund af datalagring og på grund af lovmæssige årsager til obligatorisk datalagring, begynder databaserne at tilbyde komprimering i dem. Nogle databaser tilbyder komprimering som add-on, nogle tilbyder den som indbygget i standarden, lad os sige virksomhedsudgave af deres database, og alligevel kan nogle databaser, ligesom i Oracle, endda have en endnu bedre version af komprimering, der er i, for eksempel, deres Exadata-platform, så de har faktisk bygget hardware, der kan understøtte en meget specialiseret komprimering, og den i Exadata, for eksempel, får en 40x komprimeringsfrekvens, og derfor er den meget betydelig. Og jeg tror, det er den obligatoriske dataopbevaring, folk vil bare have data længere. Virksomhederne, for at gøre analyse og BI, har de brug for de sidste 5, 10, 15 års værdi af data.

Nu blev en anden funktion, der begyndte at dukke op lige omkring den periode 2008, 2009, partitionering. Igen finder du dette i databaser som Oracle, SQL Server, og i begge dem skal du betale for det. I Oracle skal du købe partitionsindstillingen, og i SQL Server skal du være på datacenterudgaven. Det er din traditionelle kløft-og-erobringsteknik, og hvad du gør, er at du har konceptet med et logisk stort bord øverst der, og når det sættes på disken, opdeles det faktisk i spande. Og du kan se, at disse spande er organiseret efter nogle kriterier for at adskille, typisk henvist til eller kaldes din partitioneringsfunktion, og så kan du også på samme måde underinddeles i nogle databaseplatforme, og du kan gå endnu længere.

Igen tror jeg, både datalagring og den obligatoriske datalagring har skubbet dette, og i nogle af disse databaser kan du have op til 64.000 partitioner, og jeg tror på nogle andre databaser, endda op til 64.000 underpartitioner. Dette giver dig mulighed for at dele dine data op i håndterbare stykker. Du vil også opdele indekserne; det er en mulighed, som du ikke behøver, men du kan også opdele dine indekser. En af grundene til at gøre dette kan være, at du har et skydevindue med data. Du vil beholde 10 års værdi af data, men for at slippe indekserne for at køre i aftenens batchbelastning, behøver du ikke at skulle slippe indekserne på hver enkelt række, kun på de rækker, der er i den aktuelle spand. Partitionering er faktisk et meget godt administrativt værktøj, selvom de fleste mener, at dets store fordel er at afbryde partitioneliminering i dine planer og derfor fremskynde dine spørgsmål. Det er virkelig slags prikken over i'et.

Nu har du sandsynligvis hørt om spaltning, og du tænker sandsynligvis, "Nå, hvorfor har du lagt dette lysbillede ind her?" Dette er et af disse NoSQL - dette er et af disse Hadoop-miljøer. Oracle 12c frigav to, som endnu ikke er G8, men som vises eller forhåndsvises, faktisk har afskærmning i det. Du kommer til at have et traditionelt databasesystem som Oracle, og du vil være i stand til at skærme som du gør i Hadoop-modellen, og så får du en anden kløft-og-erobringsteknik, som vil dele din tabel rækkevis i grupperinger pr. knude, og det vil være - ligesom hvad du ser i nogle af dine NoSQL-databaser. Og faktisk MySQL, du kan faktisk udføre dette temmelig ved hjælp af en af deres klyngeteknikker, men det kommer til en traditionel database, og jeg gætter på, at Microsoft ikke ønsker at blive tilbage. Disse to spiller springfrø med hinanden hele tiden, så jeg ville forvente at se skærme i måske den næste version af SQL Server.

Styring af livscyklus af data, igen obligatorisk datalagring, men også til forretningsinformation og analyse. Virkelig, dette er en kløft-og-erobringsteknik, og typisk gør DBA'er dette manuelt, og det vil sige, ”Jeg vil opbevare dette års data på hurtige diske, sidste års data om lidt langsommere diske, måske går jeg at beholde de sidste to år før det på endnu langsommere diske, og så har jeg en arkivmetode. ”Det er typisk ikke båndet mere, det er typisk - du har en slags netværksfast lager eller en enhed, der har masser opbevaring og er, du ved, omkostningseffektiv, men det er stadig roterende disk.

Og så nu kan du faktisk - både på Oracle og på SQL Server - du kan købe en mulighed, hvor du definerer reglerne, og dette sker bare automatisk i baggrunden. Du behøver ikke at skrive manuskripter mere, du behøver ikke at gøre noget. Og hvis du har set SQL Server 2016, der netop kom ud første juni, er der en ny funktion, der kaldes "Stretch Databases", som dybest set giver dig mulighed for - i nederste højre hjørne der - kan du flytte fra flere lag direkte i skyen og igen er dette en funktion, der er indbygget i databasen, du siger bare noget i retning af, "Hvis dataene er mere end 365 dage gamle, skal du flytte dem ind i skyen og, ved du, gøre det automatisk for mig."

Dette bliver en rigtig cool funktion, faktisk tænker jeg, at det kan være det, vi vil se i fremtiden, hvilket er, at du vil have hybriddatabaser, hvor du vil holde nogle lokale og nogle i skyen. Før dette tænkte folk, ”Åh, jeg skal enten lave on-premiss, eller jeg skal gøre på skyen.” Nu ser vi ægteskabet mellem de to teknologier på denne hybride måde. Jeg tror, dette vil være ret stort, og Microsoft kom der først.

Redaktion, dette skyldes databeskyttelse og overholdelse. Nu i de gode gamle dage har vi måske sagt: ”Hej, applikationsudvikler, når du viser dette i rapporten, når du viser dette på skærmen, her er nogle af de sikkerhedsmæssige ting, du skal kontrollere og vær venlig, du ved, kun vise dataene de skal se eller maske eller redaktere de data, som de ikke skal se. ”Nå, som sædvanligt, når du skubber dem ud til applikationen, gøres det ikke på et sted, så det bliver gjort anderledes, eller det gør det ikke bliver det ikke nogle steder. Og nu har du faktisk fået denne funktion i dine databasesystemer.

Nu i SQL Server 2016 er denne funktion indbygget, så den ikke er en valgfri omkostningspost, der endnu ikke er på datacentret, tror jeg; og i Oracle 12 er du nødt til at købe deres add-on til livscyklusstyring, men dette er noget nyt, og igen styres det af virksomheden. Og især fordi du opbevarer så meget data nu, og du laver data mining, så BI og analytics, skal du vide, hvem der får adgang til hvilke data, og sørger for, at de kun har lov til at se, hvad de får lov til at se.

Ligeledes igen se på det, databeskyttelse og overholdelse. Du vil opdage, at mange af databasesystemerne nu bygger komprimering, eller jeg er ked af, kryptering direkte i databasen, og hvad der er vigtigt med denne kryptering, hvis du ser på pilen ned og pilen op på diagrammet, skriver den det ned til disk krypteret, og derefter læser den det op igen i hukommelsen og dekrypterer det. Det er faktisk en model, der er en anden model, som du ved, faktisk kun gør det, når det kommunikerer disse data over netværket til den faktiske klientapplikation.

I så fald ville den endda stadig på databaseserveren i hukommelsen kunne krypteres og kun dekrypteres, når den sendes til klientapplikationen. Der er to forskellige modeller her, og du kan finde disse i databaserne, og faktisk en af databaserne, der netop har tilføjet dette for nylig var MariaDB i deres version 10.X; Jeg tror, de er på 10.1 eller 10.2 nu. Og jeg lavede faktisk nogle benchmarking på denne kryptering, og for at få denne kryptering oplevede jeg kun ca. 8 procent reduktion i output eller hastighed. I en benchmarking-test forårsagede krypteringen ikke så meget, og det er derfor en meget nyttig funktion.

Nu har vi nævnt tidligere om flashhukommelse og SSD'er og lignende ting. En af de funktioner, du har i Oracle og SQL Server, som mange mennesker ikke er klar over, er at du kan tage en flash eller SSD, der findes på din databaseserver, og du kan sige til databasen, ”Brug dette som om de var hukommelse. Behandl RAM'en som præference, men lader som om dette er langsom hukommelse og brug det som en udvidet cache. ”Nu i SQL Server 2014 kom dette ud og blev kaldt" Buffer Pool Extension ", det er gratis. I Oracle kom det ud i 11g R2, og det blev kaldt "Database Flash Cache", og det var også gratis der.

Mit råd er dog at prøvekøre denne funktion omhyggeligt. Hver gang du gør cachen større, når du tager et opslag, tager det længere tid. Hvis du lægger et tre-terabyte flash-kort og siger til databasen, "Føj det til din hukommelse", kan du faktisk opleve, at noget er bremset på grund af tiden til at kigge ind og se, er det i flash, er det en beskidt eller ren? Der er et punkt i at mindske tilbagevenden. Mit råd er igen prøvekørsel dette, se hvad der fungerer for dig, men igen, det er i din database og i tilfælde af Oracle's, i både SQL Server og Oracle, har den været der i et par år nu.

Og så bringer det os til bedstefar, der var databaserne i hukommelsen, og det er fordi databasepriserne er faldet. Den anden grund til, at du sandsynligvis ville tro, at dette er sket, er meget af analysen, der kræver, at dataene er meget hurtigt tilgængelige, og derfor skal de være i hukommelsen. Bemærk, at de algoritmer, som databaserne bruger til at få adgang til disse data, til at komprimere dem, for at kryptere dem, for at gemme dem, ved du i nogle tilfælde nogle databaser kan fortsætte med at gemme hukommelsen som en række.

I nogle tilfælde kan nogle databaser opdele dette i en kolonneorienteret, og grunden til, at de gør det, er, at de får et meget højere komprimeringsniveau, et sted omkring 11 til 12X ved at gemme det i kolonne rækkefølge kontra rækkefølge. Dette blev først vist i SQL Server 2014, det blev kaldt “Hekaton.” Det er blevet radikalt forøget i SQL Server 2016, de vil se det henvist til med nogle forskellige navne, og det kom ud i Oracle 12c; Jeg siger den anden udgivelse her, ikke R2. Der var to forskellige udgivelser af Oracle 12c, 12.1.0.1 og 12.1.0.2. Det er den anden udgivelse af R1-versionen af databasen.

Og den måde, du definerer det, in-memory-objektet ligner i begge databaser. Her kan du se i højre øverste hjørne, jeg opretter en SQL Server, og du kan se den siger med hukommelse optimeret og holdbarhed er kun skema. Jeg vil ikke gå over alle disse syntaksbetydninger, og i Oracle er det faktisk endnu enklere, du ændrer bare et bord og siger i hukommelsen eller ej, og du kan ændre det. Jeg kan sige, at det i dag er i hukommelsen, og i morgen er det ikke, og det er meget fleksibelt.

Jeg lavede nogle tests på Oracle med in-memory tabeller, jeg havde nogle tests, der tog næsten 40 minutter at køre, der oppe på øverste række. Hvad der nu er vigtigt, var, da jeg kom til de to nederste rækker, jeg havde øget runtime eller reduceret det, skulle jeg sige, til fem minutter ca., og da jeg kiggede på komprimeringsfaktoren, var dataene i hukommelsen faktisk 3,6 til 4,6 gange mindre. Det er vigtigt, fordi jeg i dette tilfælde brugte kolonneorienteret format, og det er komprimering. Og så gæt hvad? Jeg passede faktisk næsten fire til fem gange så meget data i min hukommelse. Ikke kun fik jeg fordelen ved in-memory, fordelen ved kolonneorienteret, men også fordelen med langt flere data - op til fem gange så meget data i hukommelsescachen, så dette er en temmelig kraftig teknik. Igen Oracle og SQL Server, du vil se på disse, de er virkelig seje funktioner. Og med det tror jeg, at jeg åbner det for spørgsmål.

Eric Kavanagh: Nå Bert, først og fremmest har du været meget uselvisk i al denne vidunderlige uddannelse. Kunne du tale et øjeblik om, hvad I fyre gør? Fordi du har noget aktiverende teknologi, der kan lette det, du har talt om. Bare tale et øjeblik om, hvad I gutter, og lad os derefter få Dez og Robin ned i ligningen her.

Bert Scalzo: Ja, jeg arbejder for et firma kaldet IDERA. Vi er i Texas, vi har hovedkvarter i Houston, og jeg sidder faktisk i Austin lige nu, men jeg har base i Dallas. Vi laver databaseværktøjer, og vi laver databaseværktøjer til at hjælpe dig med at løse problemer. Dette problem kan være noget så simpelt som produktivitet, i hvilket tilfælde vi har et værktøj kaldet DBwartan, der giver dig mulighed for at udføre dine databaseadministrationsopgaver, og det er et værktøj, der giver dig mulighed for at administrere 12 forskellige databaseplatforme. Jeg kan administrere SQL Server, jeg kan administrere Oracle, jeg kan administrere MySQL, DB2, Postgres, og jeg bruger et værktøj, et eksekverbart, et GUI-design og et konsistent sæt arbejdsgange. Vi laver også værktøjer til overholdelse, vi har et værktøj kaldet SQL Compliance Manager til at hjælpe dig med at imødekomme dine overholdelsesbehov. Et andet værktøj kaldet SQL Security, så vi prøver at lave de værktøjer, der hjælper dig med at være effektiv og effektiv, og hvad der virkelig er rart, hvis du går til vores websted, vi har en hel masse freeware derude, så hvis ikke andet, skal du downloade - Jeg tror, vi har 20 eller 25 freewares. Der er nogle rigtig gode freeware-ting derude, som om der er en SQL Server og en Windows Hjælp-kontrol, der bare dybest set vil se på, hvad du har, og fortælle dig, om du har problemer eller ting, og det er helt gratis.

Eric Kavanagh: Og du virkelig slags -

Bert Scalzo: Helt klart det første -

Eric Kavanagh: Du taler med heterogeniteten på markedet i dag, der plejede at være en slags ligning i én størrelse, som jeg faktisk husker at have interviewet Dr. Michael Stonebraker langt tilbage, da han i 2005, da han gik på et stort skub han talte om dom over den søjleorienterede databasebevægelse, og han talte alt om, hvordan en-størrelse-passer-alle relationelle model dominerede i mange år, og han forudsagde, at alt ville ændre sig, og dreng havde han ret i det. Nu har vi dette rigtig mangfoldige og interessante miljø med masser af forskellige muligheder og muligheder, men du har brug for nogen til at styre alt dette, og det ser ud til, at din virksomhed er temmelig akut fokuseret på at løse matematikproblemer og dermed være en muliggørelse af overskrift af heterogenitet, ikke?

Bert Scalzo: Absolut. Jeg mener, at der altid vil være DBA'er, der siger: ”Jeg vil ikke bruge et GUI-værktøj, jeg gør alt med scripts,” ved du? De tror, de er superman-typen af DBA, og det er fint, men for de fleste af os mennesker ønsker vi bare at få gjort arbejde, og - du ved, jeg bruger Microsoft Word til at skrive mine dokumenter. Jeg bruger Microsoft Outlook til at gøre mit. Jeg mener, jeg har værktøjer til at udføre opgaver. Vi bygger den samme type koncept, vi bygger værktøjer til databaseadministratorer og -udviklere til at hjælpe dem med at fokusere på, hvad de vil gøre, og ikke hvordan de skal gøre det.

Eric Kavanagh: Det giver mening, men lad mig vende dig til vores eksperter, og folk er velkomne til at dykke i. Vi har fået et par kommentarer fra publikum. Måske Dez, et par spørgsmål og Robin et par spørgsmål?

Dez Blanchfield: Jo da. Et af de første spørgsmål, som jeg vil smide på dig, i betragtning af den enorme række af erfaringer, du har, ser du snart et tidspunkt, når noget af dette vil aftage? Eller tror du, vi virkelig er lige ved indgangen til denne kontinuerlige vækstlinje af ændringer? Jeg tror, at et af de største problemer, som virksomhederne står overfor, og derefter altid de mennesker, der prøver at støtte teknologien, som disse virksomheder får til at drive deres forretning, er, at ændringshastigheden er så dramatisk, at de bare ikke kan følge med alle de forskellige funktioner, software, systemer og rammer og arkitekturer, og ny kode kommer op, og derefter hardwaren under det, ser du den aktuelle ændringshastighed overhovedet aftage? Jeg mener, du beskæftiger dig med en så bred vifte af platforme med hele IDERA-pakken, vil vi bremse hurtigt, eller er vi slags på dette vanvittige løbsk godstog i lang tid endnu?

Bert Scalzo: Jeg tror, vi er ved de første 20 procent af denne vækstkurve, og vi har en lang vej at gå, og der er to ting, der skubber det. Teknologien udvikler sig fortsat. Du har nævnt nogle af de nye hukommelsestyper, der vil komme ud, det vil være fantastisk. Samsung vil have et 20-terabyte flashdrev her virkelig snart. Det vil ændre tingene. Vi har alle disse NoSQL- og cloud-databaser, dette vil bare fortsætte. Den ene ting, der dog er lidt morsom, er, når jeg ser på databaser som Oracle og SQL Server og nogle af de andre, de er virkelig ikke relationelle databaser længere. Jeg kan lægge ustrukturerede data i Oracle og alligevel opretholde ACID-overholdelse. Hvis du ville have fortalt mig det for 20 år siden, havde jeg bare sagt, at du var på medicin.

Dez Blanchfield: Ja, ja, de er seje. Nå, selv nu er de motorer, der har ret gode nicheforretninger som GIS, bare bedre end indbygget kapacitet nu. Du kom med nogle gode kommentarer om de udfordringer, som DBA'er står overfor, og de forskellige tidspunkter for DBAer, som vi håber at se rundt omkring i stedet, men hvordan ser verden ud med den slags lag af virksomheden, du har med at gøre? Jeg mener, det er disse mennesker, der bruger de forskellige platforme fra din diagnosemanager, til inventarværktøjerne, og helt ned til bælgen til defraggeringen, hvordan håndterer DBA'er denne ændring, og hvordan kan de sortere - du ved , hvad laver de med dine værktøjer til en slags behandling af dette betydelige skift i deres landskab?

Bert Scalzo: Nå, jeg skal tilbage næsten 20 år siden, så vil jeg sige, at DBA løser en meget specifik rolle i en organisation. De arbejder typisk med en databaseplatform, måske to, og de administrerede et relativt lille antal databaser. Nu hurtigt frem til i dag og databaseadministratoren, han kender faktisk 10 databaseplatforme. Han administrerer, og dette er ingen vittighed, i nogle tilfælde tusinder af databaser; det er mere om SQL Server-verdenen eller MySQL-verdenen. Men stadig i Oracle-verdenen kunne de administrere hundredevis af databaser. Og så har de fået alle disse nye funktioner ud, de har alle disse nye platforme, og de har alle disse databaser, de er ansvarlige for. De leder efter værktøjer, der muliggør deres produktivitet og også for at hjælpe dem med at lære nogle ting.

Og jeg vil give dig et eksempel - hvis jeg vil partitionere en tabel, er det en temmelig uklar syntaks, og hvis jeg vil subpartitionere den, bliver syntaksen endnu vanskeligere. Jeg ved hvad jeg vil gøre, jeg vil oprette spande. Hvis jeg har et værktøj som DBwartan, der siger: ”Hej, her er en dejlig skærm, der lader dig koncentrere dig om, hvad du prøver at gøre, snarere end hvordan du prøver at gøre det, og oh forresten, skub på Vis SQL-knap, når du er færdig, og vi viser dig, hvad SQL var, så du kan begynde at virkelig lære og mestre dette. ”

DBA'er finder ud af, at værktøjer, der hjælper dem med at få jobbet gjort, men også hjælper med at lære dem alle disse nye ting, som de bruger, og det samme ville være sandt - lad os sige, jeg er en Oracle-fyr, og jeg går over til MySQL og siger, ”Okay, opret en database, DBbrevan. Vis mig nu SQL, fordi jeg spekulerer på, hvordan det er at oprette en database på MySQL, og jeg har lige lært at syntaks. ”Og så hjælper vi dem ikke kun med at arbejde på tværs af databasen, vi uddanner dem også på tværs af databasen.

Dez Blanchfield: Det bliver endnu mere interessant, når du kommer ud til nogle af de mere moderne - eller ikke mere moderne, det er ikke en fair ting at sige - men engang en gang er en database en database. I disse dage ser jeg alt hvad du taler om der med den ekstra udfordring, teknologien stabler, som vi traditionelt ser fra leverandører, og du slags open source ind i den, og også at de er gode. Ikke bare beskæftige sig med databasemotorerne og forespørgselssprogene, men de beskæftiger sig også med datatyperne, det strukturerede og ustrukturerede, du ved, udfordringen ved at skulle håndtere alt fra den yderste ende af spektret af en multi-petabyte HDFS miljø til små bittesmå containere og pakkefiler og forskellige logfilformater.

Og jeg tror, at det er noget, vi nu ser, hvor bare intet menneske, uanset hvor meget af en supermand, superwoman, hvad de måtte mene, de er, de fysisk, de bare ikke mentalt kan håndtere den ændringshastighed og variationen skala. Jeg tror, at pakken med værktøjer, du tilbyder nu, kommer til et punkt, hvor de næsten vil være på et standardsæt på mange måder, så vi ikke kan køre databasemiljøerne, vi har uden dem, fordi vi bare fysisk kan ikke kaste så mange kroppe på dem. Jeg nød virkelig din præsentation. Jeg overgår til Dr. Robin Bloor, jeg er sikker på, at han også har masser af spørgsmål at kaste på dig.

Robin Bloor: Okay. Nå, jeg har bestemt spørgsmål. Bert, jeg ved ikke, hvor du skal - jeg havde en rigtig interessant samtale for et par dage siden, hvor nogen begyndte at fortælle mig om den nyeste DU-databeskyttelse, og det syntes mig ud fra hvad de sagde, at det var utroligt drakonisk med hensyn til ting, de insisterede på. Jeg spekulerede på, om du faktisk så på det; er det noget, du er bekendt med?

Bert Scalzo: Absolut. Ja.

Robin Bloor: 2016, okay, fortæl os om det.

Bert Scalzo: Og jeg har faktisk -

Robin Bloor: Dybt interessant.

Bert Scalzo: Jeg arbejdede faktisk et stykke tid for en flash-leverandør, i deres databaseområde og hjalp dem med at opbygge flashprodukter til databaser, og jeg kan fortælle dig, at den drakoniske går helt ned. Hvad jeg mener er, hvis du husker min ene dias, sagde jeg i nogle databaser, det vil gøre krypteringen, men det sætter den i serverhukommelsen og i nogle databaser er krypteringen - den er stadig krypteret i serverhukommelsen, den bliver kun dekrypteret, når det bliver sendt til klienten. Hvad du også finder, er nogle af disse regeringsstandarder, især Department of Defense eller militær her i USA, de går også helt ned til flashniveauet, og de vil ikke kun vide, at du understøtter kryptering og dekryptering i din hardware, men at hvis nogen stjal chips, der - ved du, trak dem ud af tinget, ud af din server, at hvad der er der er krypteret, og selvom de har plads, kan det ikke være, og de ville helt ned til selve - ikke til selve flashdelen, men ned til de enkelte chips. De ville vide, at chip efter chip, alt var krypteret.

Robin Bloor: Wow. Jeg mener, der er en masse ting, som - du ved, jeg tror, det var kun en eller to lysbilleder, som du har bragt op om dette, men det var noget, et scenarie, som jeg synes er virkelig interessant. Reduktion af oplysninger for eksempel, der skal være lidt klogt end bare at maske ud forskellige felter, fordi du især med maskinlæring i dag kan gøre deduktive ting, der giver dig mulighed for at overflade information, som du ikke tidligere kunne overflade.

Hvis du prøver at beskytte, lad os sige helbredsoplysninger, så er det en meget, meget drakonisk regel i USA med hensyn til sundhedsoplysninger, men du kan faktisk ved hjælp af forskellige maskinlæringsmetoder, kan du ofte finde ud af, hvem der er nogen's medicinske oplysninger. faktisk er det. Jeg spekulerede bare på, om du har noget at sige om det, fordi de alle synes, det er et interessant område.

Bert Scalzo: Ja, absolut, og jeg bruger bare dette som eksempel, jeg prøver ikke at sige, at en database er bedre end en anden, men dette er et meget godt eksempel på, hvad du lige har spurgt. I Oracle, hvis jeg ikke har tilladelse til at se en række med data for eksempel, må jeg ikke have lov til at se John Smith-medicinske poster. I Oracle, hvis jeg siger, "Vælg den post", blokeres jeg, eller jeg får lov til at se, hvad jeg har lov til at se, og den vil blive redigeret. Og hvis jeg siger, ”Vælg kontostjerne fra tabellen, der er lig med John Smith,” får jeg nul.

I SQL Server kan den udføre redaktion, men den har nogle huller. Hvis jeg siger, "Vælg kontostjerne fra tabellen, hvor det er lig med John Smith," får jeg faktisk en tilbage, så jeg ved, at der er en John Smith. Den ene er mere sikker end den anden. Nu forventer jeg, at de ordner det, de spiller altid springfrø med hinanden. Og igen, jeg forsøger ikke at skelne mellem databaserne andet end at vise et eksempel på - se på, hvad vi taler om nu, noget så simpelt som udvalgt konto skal også skæres af redigeringen, selvom teknisk set der tales, er der intet der bliver redigeret andet end eksistensen af rækken.

Robin Bloor: Yeah sikkert. Det er slags interessant. Jeg mener, et andet generelt spørgsmål, fordi jeg ikke har meget tid, handler egentlig kun om forbedringerne.Jeg mener, at du har været i et, hvor jeg ved, at du har vist os eksempler på forskellige testresultater, du har kørt - tror du, at de traditionelle databaser, lad os kalde dem de dominerende databaser, SQL Server og Oracle, gør du tror du, at de kommer til at forblive færdiggjort? Eller tror du, at de rent faktisk vil blive fanget af en eller anden af forskellige slags forstyrrelser på markedet, der virkelig løber for dem? Hvad er din mening?

Bert Scalzo: Jeg har en mening, og det er - du ved, igen vil jeg sige det er min mening - Microsoft for eksempel i post-Ballmer-æraen er bare at imponere den levende helvede ud af mig. Jeg mener, at denne strækningsdatabase får SQL Server på Linux, får .NET over på Linux, får PowerShell over på Linux; Jeg tror ikke, at traditionelle databaseleverandører vil komme tilbage. Jeg tror, de har besluttet, ”Hej, lad de nye fyre, startups definere noget. Lad dem finde ud af, hvad afskærmning er, og hvordan det skal perfekteres, og når de først har gjort al forskning og udvikling, ved vi nøjagtigt, hvad brugerne vil have, lad os nu tilføje afskærmning til Oracle. ”Jeg tror, de bare bliver smarte og at sige, "Hej, det er ikke dårligt at være anden eller tredje, når du er den dominerende spiller, fordi folk ikke migrerer væk fra dig."

Robin Bloor: Ja, jeg mener, det er en strategi, der er blevet brugt. Jeg mener, at IBM plejede at gøre det og det hele - for hele deres produktserier, og det vurderes rimeligt godt, indtil nogen kommer på noget, der bare er helt væk fra væggen, som ingen nogensinde har tænkt på, men du kan ikke planlægge imod det alligevel.

Spørgsmål fra publikum, Eric?

Eric Kavanagh: Ja, men du har tid, jeg tænker bare på én, og jeg ved, at Bert er nødt til at løbe. Der var noget her i - okay, afskæringsarkitekturen på Oracle 12c er en indikation af - eller hvad er den indikation for efter din mening, hvad tror du, der sker der?

Bert Scalzo: Nå, Oracle absorberer eller / og tilbyder alt det, som alle de andre databaseleverandører er. For eksempel kan jeg lægge ustrukturerede data i Oracle. Jeg ved ikke, hvordan du kan lægge ustrukturerede data og derefter kalde det en relationel database, så det giver ikke mening, men du kan. Og nu tilføjer Oracle skærning, så Oracle siger: ”Ved du hvad? Uanset hvad markedet ønsker, vil vi tilbyde vores database tilbud, fordi markedet ønsker, hvad markedet ønsker, og vi ønsker at levere løsningen, vi vil have dem til at blive hos os. ”

Jeg tror, at du vil se flere ting. Jeg vil ikke være overrasket over at se Hadoop-lignende klynge af databaseknudepunkter ikke i et Oracle-rack eller en reel applikationsklynge, men dybest set i mere af en traditionel Hadoop-type klynge, der gør det afskærmning. Og derfor tror jeg, at du vil være i stand til at implementere en database som Oracle, som du ville have en Hadoop, og denne type tendenser vil fortsætte. Disse store databaseleverandører, de tjener milliarder af dollars, og de ønsker ikke at miste deres marked, så de er villige til at tilpasse sig noget eller vedtage noget.

Eric Kavanagh: Nå, du ved, det er sjovt, fordi jeg har fulgt open source-leverandørerne i ganske lang tid og har undret mig over alt det, hvor stor en indflydelse det vil have på traditionel lukket dørsteknologi, og i et stykke tid føltes det sikkert som open source-sælgerne gjorde noget alvorligt, og nu, når jeg ser på markedet, ser jeg slags, hvad du siger, at de store fyre har gjort deres matematik, har skærpet deres blyanter og fundet ud af, hvordan de kan væve en masse af det i deres arkitekturer. Uanset om det er IBM, eller Oracle eller SAP - Jeg var lige på SapphireNow-konferencen i sidste måned, og Steve Lucas, der leder halvdelen af det firma, pralede, at SAP nu indarbejder i deres HANA-skyplatform, mere open-source-komponenter end nogen af deres konkurrenter. Hvis du laver matematik på det, er det en temmelig imponerende udsagn, og det fortæller mig, at de store fyre ikke kommer nogen steder snart.

Bert Scalzo: Nej, jeg ville satse mine penge på begge. Jeg mener, hvis du ser, Microsofts aktie for nylig var omkring $ 50, og du ved, bare for et par år siden var den på 25. Du fordoble ikke din aktiekurs i en kort periode, medmindre du gør gode ting, og du ved, fra at gøre alt fra Windows 10 ved at være gratis det første år til alle de andre smarte ting, de laver, denne strækningsdatabase-funktion synes jeg bare er fænomenal. Jeg tror, hvad der vil ske, er at mange mennesker ender i Azure, ikke direkte, ikke som de sagde: ”Lad os migrere min database til Azure.” Det kommer til at migrere derovre magisk, fordi det vil blive arkiveret derovre ved hjælp af denne nye stretchdatabasefunktion, og så antagelsen af Azure vil bare skyrocket.

Eric Kavanagh: Nå, det er en af trends på markedet, som jeg selv kan se, selv på din Mac. Når du går ind på din Mac for at gemme nogle dokumenter, de nu - og de nyere Mac'er følger bare gennem skyen, ikke? Jeg mener, der er meget mening i den strategi, og jeg ser også på den og går, ”Okay fyre, I prøver at lokke mig stykkevis ind i deres skymiljø, og derefter en dag, når jeg vil se en film, hvis mit kreditkort er udløbet, vil jeg have problemer. ”

Bert Scalzo: Ja, men du gør det videre.

Eric Kavanagh: Ja. Det er rigtigt.

Bert Scalzo: Du lægger alt på.

Eric Kavanagh: Nå, ikke helt alt.

Bert Scalzo: Nej, jeg mener -

Eric Kavanagh: Ja, gå videre.

Bert Scalzo: Disse sociale tendenser rækker ud i virksomhederne. Nu har virksomheder stadig mange andre ting, de skal gøre, men de ser disse tendenser, og de gør de samme slags ting. Jeg ser hverken Oracle eller Microsoft gå væk. Faktisk vil jeg købe aktier på begge hver gang der er en dukkert.

Eric Kavanagh: Ja bestemt. Nå folkens, gå til idera.com, I-D-E-R-A dot com. Som Bert sagde, de har en hel masse gratis ting deroppe, og det er en af de nye trends på markedet - give dig nogle gratis ting at lege med, få dig tilsluttet, og så køb de rigtige ting.

Folkens, dette har været en anden hot teknologi. Tak for din tid i dag, Bert, Dez selvfølgelig og Robin også. Vi vil tale med dig i næste uge, folkens, masser af ting der foregår. Hvis du har nogle ideer, er du velkommen til din virkelig,. Vi taler med dig næste gang folk skal passe på. Hej hej.