Hvorfor Hadoop er en perfekt match til genomsekventering

Video.: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Indhold

Genomics nutid og fremtid
Behovene for genomkartlægningsindustrien
Hvad forventes der i løsningen?
Hvorfor Hadoop er den bedste løsning til genomsekventering
Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv
Hvad andet kan Hadoop gøre?
Muligheder for Hadoop
Crossbow: Den næste generation af datastyringsplatform
Anden Hadoop-baseret Genomics-software
Konklusion

Kilde: A3701027 / Dreamstime.com

Tag væk:

Genomsekventering har brug for kraftfulde teknologiværktøjer til at håndtere alle dets data, og Hadoop er op til opgaven.

Klinisk genomik er et fascinerende emne, hvor folk arbejder på avancerede teknologier for at behandle hurtige og præcise resultater. Der er mange genomsekventer, der er tilgængelige på markedet, og de producerer petabytes af sekvensdata, og væksten i sekventering vil producere exabyte med data i den nærmeste fremtid. Her er Hadoop den perfekte platform til behandling af kompleks genomisk arbejdsgang. Hadoop kan gemme og sortere enorme mængder information og kan også give en meningsfuld analyse. (For at få en idé om, hvor meget data dette virkelig indebærer, skal du læse Forståelse af bits, byte og deres multiple.)

Genomics nutid og fremtid

I dag har genomkortlægning nået sit højdepunkt i udviklingen. Mange mennesker, der er forbundet med genomikindustrien, sprænger af nysgerrighed, og når nye muligheder præsenterer sig selv, er bedre teknologi behovet for timen. Genomsekventering er en meget gentagen og ressourceintensiv opgave. Alene i 2013 blev ca. 15 petabytes data produceret og kun af 2.000 sequencere. Denne kæbefaldende mængde inkluderede 300 KB sekventerede humane genomdata. Ved denne hastighed af dataproduktion kan det estimeres, at i 2018 vil der blive produceret ca. en exabyte af data. Dette skyldes væksten af sequencere, der vil producere flere og flere data pr. Kørsel. En anden grund er fremkomsten af ekstremt magtfulde og billige omkostningsgenomekventeringsmaskiner. Siden 2008 er prisen på disse maskiner faldet støt. Dette er på grund af kraftfulde næste generations maskiner, der er kommet ind på markedet.

Behovene for genomkartlægningsindustrien

Komplekse algoritmer bruges til behandling af de data, der indsamles fra det humane genom. Derefter skal denne information gemmes. Det kan blive revideret i fremtiden for sammenligning med de originale data. Opgaven med at behandle og opbevare 100 GB data er ikke så svær, især når du gør det med de magtfulde maskiner, der er ansat i sekvenseringscentre. Undersøgelser viser, at denne mængde data kan behandles på næsten 1.000 CPU-timer, så det er meget let. Med denne tekniske udvikling fremgår det, at genomindustrien snart vil behandle tusinder af gigabyte på kun få sekunder.

Datastyring og lagringsteknikker udvikler sig imidlertid ikke så hurtigt, hvorfor der kan forventes et stort tab af dyrebare data. Dette er virkelig uønsket, da det alvorligt vil hindre de fremskridt, der er gjort inden for human genomik. Så behovet for en effektiv datastyringsteknik, som let kan opdateres, er meget stort. Dette kan være effektivt, især i den nærmeste fremtid, hvor genomkortlægning vil flytte fra store laboratorier med kraftfulde computere til små hospitaler og laboratorier.

Hvad forventes der i løsningen?

Det tempo, hvorpå nye genomiske sekventeringsteknikker opdages og udvikles, er ekstremt højt. Dette tempo kan være meget gavnligt for medicinsk videnskab i form af et kraftfuldt skridt mod udryddelse af større sygdomme. Imidlertid kan dette tempo også være meget udfordrende.

Udfordringen kommer i form af at styre de store mængder data, der produceres af sekventeringsprojekterne. Så der er brug for en effektiv løsning, der hjælper med lagring og behandling af big data. Denne løsning skal være billig og hurtig, mens den også er tilpasningsdygtig. Analysen leveret af denne løsning skal også være nøjagtig og konstant. Så hvad er løsningen på problemet? Uden tvivl er det Hadoop. (For mere information om anvendelse af Hadoop, se 5 Indblik i Big Data (Hadoop) som en tjeneste.)

Hvorfor Hadoop er den bedste løsning til genomsekventering

Hvad genomics-industrien har brug for, er en overlegen løsning, der kan hjælpe dem effektivt med at administrere dataene, behandle dem og opbevare dem til fremtidig brug. Denne løsning ser ud til at være en perfekt match med Hadoop-softwaren. Så Hadoop kan betragtes som den perfekte big data management software, der i høj grad kan forbedre de nuværende datalagringsteknikker inden for genomics industrien.

Hadoops realtidsfunktioner gør det muligt for genomsekventer at analysere og gemme store mængder data på en gang i realtid. Dette muliggør også datas fremtidige brug. Hadoop kan slå mange gamle systemer, da det er meget hurtigere og mere pålideligt end dem.

Ingen fejl, ingen stress - Din trinvis vejledning til oprettelse af livsændrende software uden at ødelægge dit liv

Du kan ikke forbedre dine programmeringsevner, når ingen er interesseret i softwarekvalitet.

Hvad andet kan Hadoop gøre?

På grund af Hadoop er der åbnet et stort antal muligheder og muligheder inden for genomik og gensekventering. Hadoop tilbyder parallelle computermuligheder på grund af hvilken hurtigere sekventering er mulig. Ved hjælp af MapReduce-funktionen i Hadoop kan et stort antal gener kortlægges meget let. På grund af dette bliver sekvensering med Hadoop virkelig "næste-gener" og vil være meget mindre kompliceret.

Muligheder for Hadoop

Hadoop har adskillige muligheder i genomindustrien, men den bedste blev afledt af Lynda Chins artikel “At give mening af kræftgenomiske data” i tidsskriftet Genes & Development. I denne artikel diskuterer hun, hvordan moderne genomik har åbnet nye døre, og dette har ført til mange positive resultater som opdagelsen af genomisk information om kræft. På grund af dette er vi tættere på at opdage kuren mod kræft i sig selv. Dette har dog brug for lidt mere opmærksomhed og en kraftfuld datastyringsapplikation for bedre forskningskapacitet på området. Dette kan være den bedste mulighed for Hadoop til at bevise sin hastighed, kraft og nøjagtighed.

Crossbow: Den næste generation af datastyringsplatform

Crossbow, som er en softwarepipeline, der er beregnet til analyse af gengenekventering, er en af de bedste løsninger. Det var resultatet af integration inden i Hadoop mellem en hurtig algoritme til justering af de sekventerede data, der kaldes Bowtie, og en kraftig algoritme, der sammenligner og undersøger de sekventerede data, dvs. en genotyper ved navn SoapSNP. Det er bygget på Apache Hadoop og er baseret på en implementering af MapReduce-rammen. Crossbow er bærbar, skalerbar og er også velegnet som et cloud computing-værktøj.

Med denne kraftfulde integration kan et komplet genom undersøges på kun en dag på en lokal klynge med 10 noder. Med en 40-knude klynge er processen endnu hurtigere og afsluttes på kun tre timer med en samlede omkostning på under $ 100! En undersøgelse foretaget for at teste nøjagtigheden af Crossbow viste, at den kan sammenligne hvert genom med 99 procents nøjagtighed. En anden nyttig funktion ved Crossbow er, at den kører på skyen. Således vil Crossbow gøre det muligt for de tusinder af fremtidige sekventeringscentre, som hospitaler, at sekvensere store mængder genomdata uden behov for kraftige, dyre computere og teknologi.

Anden Hadoop-baseret Genomics-software

Mange virksomheder har anerkendt Hadoops styrke i at ændre genomikens verden. De har passende modificeret Hadoop for at udnytte dets potentiale for avanceret genomsekventering. Nogle eksempler på berømte Hadoop-baserede genomsekvensopløsninger er givet nedenfor:

Hadoop-BAM: Dette er et kraftfuldt datahåndteringsværktøj, der bruger Mapoopreduceringsfunktionen i Hadoop til forskellige aktiviteter relateret til genomik, som genotyping. Dette fungerer i formatet Binary Alignment / Map.
Cloudburst: Denne Hadoop-baserede løsning blev oprettet i 2009. Den er ekstremt effektiv til sammenligning af genomsekvenser og kortlægning af individuelle gener. Dette er også en af de første Hadoop-baserede applikationer designet til dette formål.

Konklusion

Integrationen mellem big data og genomikindustrien viser sig at være en velsignelse i moderne tid. Disse platforme er effektive til at opdage behandlinger af flere sygdomme som kræft. De data, der findes ved genomkortlægning, kan bruges til formulering af forebyggende information om sådanne sygdomme. Fremkomsten af big data kan betragtes som et vendepunkt i genomikens verden, og hvis informationen bruges klogt, muligvis også inden for det bredere område inden for sundhedsområdet. Den eneste måde for dette felt at gå videre er brugen af korrekte datastyringsværktøjer som Hadoop.