Prečo je Hadoop perfektným zápasom pre sekvenovanie genómu

Autor: Roger Morrison
Dátum Stvorenia: 19 September 2021
Dátum Aktualizácie: 5 Smieť 2024
Anonim
Prečo je Hadoop perfektným zápasom pre sekvenovanie genómu - Technológie
Prečo je Hadoop perfektným zápasom pre sekvenovanie genómu - Technológie

Obsah


Zdroj: A3701027 / Dreamstime.com

Zobrať:

Sekvencia genómu potrebuje výkonné technologické nástroje na spracovanie všetkých svojich údajov a Hadoop je na tejto úlohe.

Klinická genomika je fascinujúcim subjektom, v ktorom ľudia pracujú na najmodernejších technológiách na spracovanie rýchlych a presných výsledkov. Na trhu je veľa genómových sekvencerov, ktoré produkujú petabajty sekvenčných údajov a rast v sekvencovaní v blízkej budúcnosti vyprodukuje exabajty údajov. Hadoop je tu perfektnou platformou na spracovanie zložitých pracovných postupov v genomike. Hadoop dokáže ukladať a triediť veľké množstvo informácií a môže tiež vykonávať zmysluplnú analýzu. (Ak chcete získať predstavu o tom, koľko údajov to skutočne znamená, prečítajte si článok Porozumenie bitom, bajtom a ich násobkom.)


Súčasnosť a budúcnosť genomiky

Dnes mapovanie genómu dosiahlo svoj vrchol. Mnohí ľudia spojení s genomickým priemyslom sú zvedaví a keďže sa objavujú nové príležitosti, lepšia technológia si vyžaduje hodinu. Genómové sekvenovanie je veľmi opakujúca sa a náročná na zdroje. Len v roku 2013 sa vyrobilo asi 15 petabajtov údajov a iba 2 000 sekvencerov. Toto množstvo klesajúce čeľuste obsahovalo 300 KB sekvenovaných údajov o ľudskom genóme. Pri tomto tempe výroby údajov sa dá odhadnúť, že do roku 2018 bude vytvorených asi jeden exabyte údajov. Dôvodom bude nárast sekvenátorov, ktoré budú produkovať stále viac údajov za cyklus. Ďalším dôvodom je príchod extrémne výkonných a lacných strojov na sekvenovanie genómu. Od roku 2008 cena týchto strojov neustále klesá. Je to kvôli výkonným strojom novej generácie, ktoré vstúpili na trh.


Potreby odvetvia mapovania genómu

Na spracovanie údajov získaných z ľudského genómu sa používajú zložité algoritmy. Potom je potrebné tieto informácie uložiť. Môže byť v budúcnosti skontrolovaný na porovnanie s pôvodnými údajmi. Úloha spracovania a ukladania 100 GB údajov nie je príliš náročná, najmä ak to robíte s výkonnými strojmi zamestnanými v strediskách sekvencovania. Štúdie ukazujú, že toto množstvo údajov je možné spracovať za približne 1 000 hodín CPU, takže je to veľmi jednoduché. Pri tomto tempe technického pokroku je zrejmé, že priemysel genómu čoskoro spracuje tisíce gigabajtov za pár sekúnd.

Techniky spravovania a ukladania údajov sa však nevyvíjajú tak rýchlo, vďaka čomu možno očakávať veľkú stratu cenných údajov. Je to skutočne nežiaduce, pretože to vážne zabraňuje pokrokom v ľudskej genomike. Potreba efektívnej techniky správy údajov, ktorú je možné ľahko aktualizovať, je veľmi vysoká. Toto môže byť efektívne najmä v blízkej budúcnosti, keď sa mapovanie genómu presunie z veľkých laboratórií s výkonnými počítačmi do malých nemocníc a laboratórií.

Čo sa v riešení očakáva?

Tempo, v ktorom sa objavujú a vyvíjajú nové techniky genómového sekvenovania, je mimoriadne vysoké. Toto tempo môže byť veľmi prospešné pre lekárske vedy vo forme silného kroku k odstráneniu závažných chorôb. Toto tempo však môže byť veľmi náročné.

Výzva prichádza vo forme správy veľkého množstva údajov vytvorených v rámci sekvenčných projektov. Preto je potrebné efektívne riešenie, ktoré pomôže s ukladaním a spracovaním veľkých údajov. Toto riešenie musí byť lacné a rýchle, aj keď je tiež adaptívne. Analýza poskytnutá týmto riešením musí byť tiež presná a stála. Aké je riešenie problému? Nepochybne je to Hadoop. (Viac informácií o použití Hadoop nájdete v časti 5 Štatistiky o veľkých údajoch (Hadoop) ako služba.)

Prečo je Hadoop najlepším riešením pre sekvenovanie genómu

Odvetvie genomiky potrebuje vynikajúce riešenie, ktoré im môže pomôcť efektívne spravovať údaje, spracovávať ich a ukladať na budúce použitie. Toto riešenie sa javí ako dokonalá zhoda so softvérom Hadoop. Preto je možné Hadoop považovať za dokonalý softvér na správu veľkých dát, ktorý môže výrazne zlepšiť súčasné techniky ukladania údajov v genomickom priemysle.

Schopnosti spoločnosti Hadoop v reálnom čase umožňujú sekvencerom genómu analyzovať a ukladať veľké množstvo údajov naraz v reálnom čase. To tiež umožňuje budúce použitie údajov. Hadoop dokáže poraziť mnoho starších systémov, pretože je oveľa rýchlejší a spoľahlivejší ako tie.

Žiadne chyby, žiadny stres - Váš sprievodca krok za krokom k vytvoreniu softvéru na zmenu života bez zničenia vášho života

Svoje programovacie schopnosti si nemôžete vylepšiť, keď sa nikto nestará o kvalitu softvéru.

Čo iného môže Hadoop robiť?

Vďaka Hadoopu sa otvorilo veľké množstvo možností a príležitostí v oblasti genomiky a sekvencovania génov. Hadoop ponúka možnosti paralelného výpočtu, vďaka ktorým je možné rýchlejšie sekvenovanie. Tiež pomocou funkcie MapReduce Hadoop sa dá veľmi ľahko zmapovať veľké množstvo génov. Z tohto dôvodu sa sekvenovanie s Hadoopom skutočne stane „budúcim génom“ a bude oveľa menej komplikované.

Príležitosti pre spoločnosť Hadoop

Hadoop má v genómovom priemysle niekoľko príležitostí, ale najlepšia bola odvodená z článku Lynda Chin „Dáva zmysel pre genomické údaje o rakovine“ v časopise Genes & Development. V tomto článku sa diskutuje o tom, ako moderná genomika otvorila nové dvere, čo viedlo k mnohým pozitívnym výsledkom, ako je objavenie genomických informácií o rakovine. Z tohto dôvodu sme bližšie k objaveniu liečby rakoviny ako takej. To si však vyžaduje trochu viac pozornosti a výkonnú aplikáciu na správu údajov, aby bolo možné lepšie výskumné schopnosti v tejto oblasti. To môže byť pre spoločnosť Hadoop najlepšia príležitosť preukázať svoju rýchlosť, výkon a presnosť.

Crossbow: Platforma pre správu dát novej generácie

Crossbow, čo je softvérový program určený na analýzu opakovaného sekvenovania genómu, je jedným z najlepších riešení. Bol to výsledok integrácie v rámci systému Hadoop medzi rýchlym algoritmom na zarovnanie sekvenovaných údajov, ktorý sa nazýva Bowtie, a výkonným algoritmom, ktorý porovnáva a skúma sekvenované údaje, t. J. Genotyper s názvom SoapSNP. Je postavený na Apache Hadoop a je založený na implementácii rámca MapReduce. Kuša je prenosná, škálovateľná a je tiež vhodná ako cloud computing nástroj.

Vďaka tejto silnej integrácii je možné celý genóm preskúmať v jednom dni v miestnom klastri s 10 uzlami. Pri klastri so 40 uzlami je proces ešte rýchlejší a dokončí sa za tri hodiny s celkovými nákladmi nižšími ako 100 dolárov! Štúdia vykonaná na testovanie presnosti Crossbow ukázala, že dokáže porovnávať každý genóm s presnosťou 99 percent. Ďalšou užitočnou vlastnosťou Crossbow je to, že beží na cloudu. Crossbow tak umožní tisícom budúcich stredísk sekvencovania, ako sú nemocnice, sekvenovať veľké množstvá genómových údajov bez potreby akýchkoľvek výkonných a nákladných počítačov a technológií.

Iný softvér založený na Hadoope

Mnoho spoločností uznalo silu spoločnosti Hadoop pri zmene sveta genomiky. Majú vhodne modifikovaný Hadoop, aby využili jeho potenciál pre pokročilé sekvenovanie genómu. Niekoľko príkladov známych riešení na riešenie genómu na báze hadoopu je uvedených nižšie:

  • Hadoop-BAM: Jedná sa o výkonný nástroj na správu údajov, ktorý využíva funkciu MapReduce spoločnosti Hadoop na rôzne činnosti súvisiace s genomikou, ako je napríklad genotypizácia. Funguje to vo formáte Binárne zarovnanie / mapa.
  • Cloudburst: Toto riešenie založené na Hadoope bolo vytvorené v roku 2009. Je veľmi efektívne pri porovnávaní genómových sekvencií a mapovaní jednotlivých génov. Toto je tiež jedna z prvých aplikácií na báze Hadoop navrhnutých na tento účel.

záver

Integrácia medzi veľkými dátami a genomickým priemyslom sa v modernej dobe ukazuje ako výhoda. Tieto platformy sú účinné pri objavovaní liečby niekoľkých chorôb, ako je rakovina. Údaje, ktoré sa našli pomocou mapovania genómu, sa môžu použiť na formuláciu preventívnych informácií o takýchto chorobách. Príchod veľkých údajov možno považovať za zlom vo svete genomiky, a ak sa informácie používajú rozumne, potom možno aj v širšej oblasti zdravotnej starostlivosti. Jediným spôsobom, ako v tomto poli napredovať, je použitie vhodných nástrojov na správu údajov, ako je napríklad Hadoop.