Big Data i skyen - Hvor sikre er vores data? - Teknologi

Video.: 30 глупых вопросов Data Engineer [Карьера в IT]

Indhold

Sikkerhedsspørgsmål i distribuerede programmeringsrammer
Problemer med data og transaktionslog
Problemer med datavalidering
Real-time Big Data Security Monitoring
Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv
Strategier til at imødegå sikkerhedstrusler
Forbedring af troværdighed inden for distribuerede programmeringsrammer
Stærke databeskyttelsespolitikker
Analyse
Registrer outliers under indsamling af data
Konklusion

Kilde: Cuteimage / Dreamstime.com

Tag væk:

Udforsk de største trusler mod big data i skyen, og lær måder at beskytte mod dem.

Mængden af big data øges vildt dag for dag. Fra 2.500 exabyte i 2012 forventes big data at stige til 40.000 exabyte i 2020. Datalagring er derfor en alvorlig udfordring, som kun skyinfrastrukturen er i stand til at håndtere. Skyen er blevet en populær mulighed hovedsageligt på grund af dens enorme lagerkapacitet og dens brugsbetingelser, som ikke pålægger abonnenten nogen forpligtelser. Cloudopbevaring kan tilbydes i form af abonnementer og tjenester, der varer i en forudbestemt periode. Derefter er der ingen forpligtelse fra klientens side til at fornye den.

Opbevaring af big data i skyen åbner dog nye sikkerhedsudfordringer, som ikke kan stilles over for sikkerhedsforanstaltninger vedtaget for regelmæssige, statiske data. Selvom big data ikke er et nyt koncept, er indsamlingen og brugen først begyndt at øge tempoet i de senere år. Tidligere var store datalagring og analyse begrænset til kun store selskaber og regeringen, der havde råd til den nødvendige infrastruktur til datalagring og minedrift. Sådan infrastruktur var proprietær og ikke udsat for generelle netværk. Imidlertid er big data nu billig tilgængelig for alle typer virksomheder gennem den offentlige skyinfrastruktur. Som et resultat er nye, sofistikerede sikkerhedstrusler opstået, og de fortsætter med at formere sig og udvikle sig.

Sikkerhedsspørgsmål i distribuerede programmeringsrammer

Distribuerede programmeringsrammer behandler big data med parallelle beregnings- og lagerteknikker. I sådanne rammer kan uautentificerede eller ændrede kortlæggere - som deler store opgaver i mindre underopgaver, så opgaverne kan samles for at skabe en endelig output - kompromittere data. Fejl eller ændrede arbejderknudepunkter - som tager input fra kortlæggeren for at udføre opgaverne - kan kompromittere data ved at trykke på datakommunikation mellem kortlæggeren og andre arbejderknudepunkter. Rogue arbejderknudepunkter kan også oprette kopier af legitime arbejderknudepunkter. Den kendsgerning, at det er ekstremt vanskeligt at identificere useriøse kortlæggere eller knudepunkter i en sådan enorm ramme, gør datasikkerheden endnu mere udfordrende.

De fleste skybaserede datarammer bruger NoSQL-databasen. NoSQL-databasen er fordelagtig til håndtering af enorme, ustrukturerede datasæt, men fra et sikkerhedsmæssigt perspektiv er den dårligt designet. NoSQL blev oprindeligt designet med næsten ingen sikkerhedshensyn i tankerne. En af de største svagheder ved NoSQL er transaktionsintegritet. Det har dårlige godkendelsesmekanismer, hvilket gør det sårbart over for mand-i-midten eller gentagelsesangreb. For at gøre tingene værre understøtter NoSQL ikke tredjepartsmodulintegration til at styrke godkendelsesmekanismer. Da godkendelsesmekanismer er ret slappe, udsættes data også for insiderangreb. Angreb kan gå upåaktet hen og blive sporet på grund af dårlig logning og loganalysemekanismer.

Problemer med data og transaktionslog

Data gemmes normalt i lagret medie i flere lag. Det er relativt let at spore data, når lydstyrken er relativt lille og statisk. Men når volumen eksponentielt øges, anvendes auto-tiering-løsninger. Auto-tiering-løsninger gemmer data i forskellige lag, men sporer ikke placeringerne. Dette er et sikkerhedsproblem. For eksempel kan en organisation have fortrolige data, der sjældent bruges. Imidlertid vil auto-tiering-løsninger ikke skelne mellem følsomme og ikke-følsomme data og bare gemme de sjældent tilgængelige data i det nederste niveau. De nederste lag har den laveste tilgængelige sikkerhed.

Problemer med datavalidering

I en organisation kan store data indsamles fra forskellige kilder, der inkluderer endepunktenheder såsom softwareprogrammer og hardwareenheder. Det er en stor udfordring at sikre, at de indsamlede data ikke er ondsindede. Enhver med ondsindede intentioner kan manipulere med den enhed, der leverer data eller med applikationen, der indsamler data. For eksempel kan en hacker påføre et Sybil-angreb på et system og derefter bruge de forfalskede identiteter til at levere ondsindede data til den centrale indsamlingsserver eller -system. Denne trussel gælder især i et bringe din egen enheds-scenario (BYOD), fordi brugere kan bruge deres personlige enheder i virksomhedsnetværket.

Real-time Big Data Security Monitoring

Overvågning af data i realtid er en stor udfordring, fordi du skal overvåge både big data-infrastrukturen og de data, de behandler. Som påpeget tidligere udsættes stordatainfrastrukturen i skyen konstant for trusler. Ondsindede enheder kan ændre systemet, så det får adgang til dataene og derefter ubarmhjertigt genererer falske positiver. Det er yderst risikabelt at ignorere falske positiver. På toppen af dette kan disse enheder forsøge at undgå detektering ved at bygge undvikelsesangreb eller endda bruge dataforgiftning for at reducere pålideligheden af de data, der behandles.

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Strategier til at imødegå sikkerhedstrusler

Store datasikkerhedsstrategier er stadig i en begynnende fase, men de er nødt til at udvikle sig hurtigt. Svarene på sikkerhedstruslerne ligger i selve netværket. Netværkskomponenterne har brug for absolut pålidelighed, og det kan opnås med stærke databeskyttelsesstrategier. Der bør være nul-tolerance for slappe databeskyttelsesforanstaltninger. Der skal også være en stærk, automatiseret mekanisme til indsamling og analyse af hændelseslogfiler.

Forbedring af troværdighed inden for distribuerede programmeringsrammer

Som påpeget tidligere kan ikke betroede kortlæggere og arbejderknudepunkter kompromittere datasikkerheden. Så pålidelighed af kortlæggere og knudepunkter er påkrævet. For at gøre dette skal kortlæggere regelmæssigt autentificere arbejderknudepunkterne. Når en arbejderknude opretter en forbindelsesanmodning til en master, godkendes anmodningen med forbehold af, at arbejderen har et foruddefineret sæt tillidsegenskaber. Derefter gennemgås medarbejderen regelmæssigt for overholdelse af tillid og sikkerhedspolitikker.

Stærke databeskyttelsespolitikker

Sikkerhedstruslerne mod data på grund af den iboende svage databeskyttelse i den distribuerede ramme og NoSQL-databasen skal løses. Adgangskoder skal hashes eller krypteres med sikker hashingsalgoritmer. Data i hvile skal altid være krypteret og ikke udeladte i det fri, selv efter at have taget hensyn til effektpåvirkningen. Hardware- og bulk-filkryptering er hurtigere karakter, og det kan i et vist omfang løse problemerne med ydeevnen, men en hardwareenhedskryptering kan også overtrædes af angribere. I betragtning af situationen er det en god praksis at bruge SSL / TLS til at etablere forbindelser mellem klienten og serveren og til kommunikation på tværs af klynknoder. Derudover skal NoSQL-arkitekturen tillade tilslutbare tredjepartsgodkendelsesmoduler.

Analyse

Big data-analyse kan bruges til at overvåge og identificere mistænkelige forbindelser til klynknoder og konstant mine af logfilerne for at identificere eventuelle trusler. Selvom Hadoop-økosystemet ikke har nogen indbyggede sikkerhedsmekanismer, kan andre værktøjer bruges til at overvåge og identificere mistænkelige aktiviteter under forudsætning af, at disse værktøjer opfylder visse standarder. For eksempel skal sådanne værktøjer overholde retningslinjerne for Open Web Application Security Project (OWASP). Det forventes, at realtidsovervågning af begivenheder vil forbedre sig med nogle af de udviklinger, der allerede finder sted. F.eks. Anvendes SCAP (Security Content Automation Protocol) gradvis på big data. Apache Kafka og Storm lover at være gode overvågningsværktøjer i realtid.

Registrer outliers under indsamling af data

Der er stadig intet indbrudssikkert system til rådighed for fuldstændigt at forhindre uautoriserede indtrængen på tidspunktet for dataindsamling. Imidlertid kan indtrængen reduceres betydeligt. Først skal dataindsamlingsapplikationer udvikles for at være så sikre som muligt, og husk BYOD-scenariet, når applikationen kan køre på adskillige ikke-betroede enheder. For det andet vil besluttsomme angribere sandsynligvis bryde selv den stærkeste af forsvar og ondsindede data til det centrale indsamlingssystem. Så der skal være algoritmer til at detektere og filtrere sådanne ondsindede input.

Konklusion

Big data sårbarheder i skyen er unikke og kan ikke adresseres ved traditionelle sikkerhedsforanstaltninger. Big databeskyttelse i skyen er stadig et begyndende område, fordi visse bedste fremgangsmåder såsom overvågning i realtid stadig udvikler sig, og tilgængelige bedste fremgangsmåder eller foranstaltninger ikke bliver anvendt strengt. I betragtning af hvor lukrative big data er, er sikkerhedsforanstaltningerne sikker på at indhente den nærmeste fremtid.