Genoomiteadlased koguvad arvutitarkvara tööriistu inimgenoomiprojekti ja sellega seotud jõupingutuste toorandmete üleujutamiseks

Genoomiteadlased koguvad arvutitarkvara tööriistu inimgenoomiprojekti ja sellega seotud jõupingutuste toorandmete üleujutamiseks
Genoomiteadlased koguvad arvutitarkvara tööriistu inimgenoomiprojekti ja sellega seotud jõupingutuste toorandmete üleujutamiseks
Anonim

WASHINGTON, D.C. – Arvutiteaduse ja biotehnoloogia ristumiskohas on tekkinud uus distsipliin, mis toob arenenud arvutustehnikate võimsuse kaasa keerukate molekulaarbioloogia probleemide lahendamisele. See uus valdkond, mida nimetatakse bioinformaatikaks või arvutusbioloogiaks, pakub olulisi tööriistu geneetika ja muude bioloogia põhivaldkondade uuringute tipptasemel teadlastele.

Geenide järjestamise jõupingutused, nagu inimgenoomi projekt koos uute tehnikatega elusrakkudes geenide aktiivsuse uurimiseks, toodavad tohutul hulgal algandmeid. Need andmed kogunevad kiiresti kiirenevas tempos erinevatesse avalikesse arvutiandmebaasides, nagu need, mida haldab riiklike tervishoiuinstituutide riiklik biotehnoloogiateabe keskus.

"Bioinformaatika liikumapanevaks jõuks on nende suurte andmebaaside kättesaadavus ja vajadus töötada välja keerukad arvutimudelid nendest kasuliku teabe hankimiseks," ütles California ülikooli arvutiteaduse professor David Haussler. Santa Cruz.

Haussler arutas arvutustehnikate kasutamist geneetiliste andmete analüüsimisel laupäeval (19. veebruaril) Ameerika Teaduse Edendamise Ühingu aastakoosolekul Washingtonis

Haussler, kes juhib UCSC biomolekulaarse tehnika keskust, liitus hiljuti inimgenoomi projekti bioinformaatika meeskonnaga.Bioinformaatika mängib projektis üha olulisemat rolli, mis on rahvusvaheline püüdlus tuvastada ja mõista kõiki ligikaudu 100 000 inimese geeni.

"Arvutianalüüs on geenide tuvastamise ja nende funktsioonide mõistmise lahutamatu osa," ütles Haussler.

Geneetilised juhised organismi – selle genoomi – loomiseks sisalduvad pikkades niidilaadsetes DNA molekulides, mis on kenasti pakitud iga raku tuuma kromosoomidesse. Keemiliste ühikute järjestus DNA-s on omamoodi kood, mis määrab valgu molekulide struktuurid, mis täidavad enamikku elusrakkude funktsioonidest.

Inimese genoomi täielik DNA järjestus, kui see raamatutesse koondada, täidaks Manhattani telefoniraamatu suuruse 200 köidet. Inimgenoomiprojekti teadlased on selle järjestuse umbkaudse kavandi saamisele lähedal, kuid see on alles esimene samm. Genoomijärjestusse on maetud geenid – spetsiifilisi valke kodeerivad DNA järjestused –, mis lõpuks määravad kõik inimese pärilikud omadused.

Geenide leidmine genoomsetes DNA järjestustes on üks esimesi ülesandeid, mille lahendamiseks on teadlased pöördunud bioinformaatika poole. Arvatakse, et vähem kui 10 protsenti inimese genoomist sisaldab valke kodeerivaid geenijärjestusi. Geenide vahele jäävad kontrolljärjestused, mis reguleerivad geenide aktiivsust, ja muud "mittekodeerivad piirkonnad", mille funktsioonid on ebaselged.

Haussler ja tema kolleegid Santa Cruzi ülikoolist on välja töötanud mõned kõige tõhusamad arvutustehnikad geenide leidmiseks DNA järjestustest. Nad võtsid selle probleemi lahendamiseks kasutusele nüüd laialdaselt kasutatava statistilise meetodi, mida nimetatakse Markovi varjatud modelleerimiseks.

Inimese genoomi järjestuse umbkaudse mustandi analüüsimiseks teeb Haussler tihedat koostööd Massachusettsi Tehnoloogiainstituudi Whiteheadi Instituudi teadlastega. Whiteheadi instituut on üks viiest peamisest inimgenoomi projektiga seotud järjestuskohast.

Järjestusega töötamine on aga tohutult keeruline ülesanne, ütles Haussler."Probleem on selles, et töötlemata süvis ei taga pidevat DNA järjestust igas kromosoomis – paljud genoomi piirkonnad on kaetud vaid väikeste tükkidega," ütles ta.

Esimene ülesanne, millega Haussler ja Whiteheadi rühm tegelevad, on järjestada kõik seni sekveneeritud inimese genoomi segmendid nende õiges järjekorras ja orientatsioonis piki kromosoome. Järgmine samm on geenide leidmine genoomi järjestuses. Seda tehakse koostöös Neomorphicuga, Berkeleys asuva genoomikaettevõttega, kasutades arvutiprogrammi nimega Genie.

Genie töötas algselt välja Haussleri rühm ja Lawrence Berkeley riikliku labori (LBNL) teadlased. Selle litsentseeris ja arendas edasi Neomorphic, mille asutas LBNL-i, UC Berkeley ja UCSC teadlaste rühm. Geniet kasutati hiljuti geenide tuvastamiseks eelmisel aastal sekveneeritud äädikakärbse Drosophila melanogaster genoomis.Neomorphic töötab praegu välja Genie uut versiooni, mis on optimeeritud inimese genoomi järjestuse umbkaudse mustandi jaoks.

Uuringud selliste organismide nagu Drosophila, pärm ja ümaruss Caenorhabditis elegans geneetika kohta on aidanud panna aluse inimeste palju keerulisema genoomi uurimisele. Paljud inimese geenid on tihed alt seotud nendes lihtsamates organismides leiduvate geenidega, mida kasutatakse laialdaselt geneetika ja molekulaarbioloogia uuringute mudelsüsteemidena. Nende mudelorganismide uuringud on juba andnud palju väärtuslikke teadmisi geenifunktsioonide, normaalse geeniregulatsiooni, geneetiliste haiguste ja evolutsiooniprotsesside kohta.

Haussleri sõnul suureneb bioinformaatika roll seda tüüpi uuringutes pidev alt, kuna katsemeetodid muutuvad keerukamaks ja keerukamaks. Näiteks DNA mikrokiibid või "geenikiibid" annavad väärtuslikku teavet geeniekspressiooni kohta – millal, kus ja mil määral on konkreetsed geenid aktiivsed.See teave on oluline geeni bioloogilise funktsiooni mõistmiseks. Kuid geenikiibid, nagu genoomse järjestuse tehnoloogia, toodavad tohutul hulgal andmeid, mida saab analüüsida ja mõista ainult keerukate arvutusmeetodite abil.

"Geenifunktsiooni kohta on palju teavet, mis muutub kättesaadavaks geenikiipe ja muid meetodeid kasutavate laiaulatuslike katsete tulemusena, mis genereerivad tohutuid andmekogumeid tuhandete geenide funktsioonide kohta, " Haussler ütles.

Nende keeruliste andmekogumite analüüsimiseks on Haussler teerajajaks uue statistilise meetodi kasutamisel, mis põhineb tugivektori masinate (SVM) teoorial. SVM-id on võimelised käsitlema suuremõõtmelisi andmekogumeid, milles igal andmepunktil on palju funktsioone või atribuute.

"Seda on raske visualiseerida, kuna elame kolmemõõtmelises maailmas ja me räägime andmekogumite analüüsimisest kümne tuhande või enama mõõtmega. Kuid me leiame, et SVM-id on geenikiibi andmete jaoks äärmiselt kasulikud, " Haussler ütles.

Genoomiline järjestus ja geenikiibid esindavad seda, mida Haussler nimetab "suure läbilaskevõimega genoomitehnoloogiateks", mis on võimsad uued tehnikad molekulaarbioloogia mõistmiseks. Nende tehnikate kasutamine kasvab ja kõik need kujutavad endast märkimisväärseid arvutuslikke väljakutseid. Üks Haussleri eesmärke on töötada välja uued statistilised ja algoritmilised meetodid nende erinevat tüüpi genoomiandmete integreerimiseks.

Praegu on Haussleri jõupingutuste keskmes inimese genoomi järjestuse umbkaudse mustandi analüüs. Kuid pikemas perspektiivis näeb ta arvutiteaduse ja molekulaarbioloogia abielule ette õnnelikku ja jõukat tulevikku. Ta ütles, et inimese genoomika rakendamine sellistes valdkondades nagu ravimite avastamine ja kliiniline diagnostika nõuab kahtlemata uusi arvutusmetoodikaid.

"Meie nägemus bioinformaatikast hõlmab laia spektrit, alustades molekulaarbioloogiast ja lõpetades kliinilise diagnostikaga," ütles Haussler.

Lisateavet Haussleri uurimisprogrammi kohta leiate veebist aadressil

Populaarne teema