Od kada je 1995. sekvencioniran prvi mikrobni genom, naučnici su rekonstruisali genomski sastav stotina hiljada mikroorganizama i čak su osmislili metode za popis bakterijskih zajednica na koži, u crevima, zemljištu, vodi i drugim mestima. na masovnim uzorcima, što je dovelo do pojave relativno nove oblasti proučavanja poznate kao metagenomika.
Raščlanjivanje metagenomskih podataka može biti zastrašujući zadatak, slično kao pokušaj sastavljanja nekoliko masivnih slagalica sa svim delovima pomešanim zajedno. Preuzimajući ovaj jedinstveni računarski izazov, stručnjak za grafičko-veštačku inteligenciju (AI) Univerziteta Rajs Santjago Segara i računarski biolog Tod Treangen udružili su se da istraže kako bi analiza podataka zasnovana na veštačkoj inteligenciji mogla da pomogne u izradi novih alata za pojačanje istraživanja metagenomije.
Dvojac naučnika usredsredio se na dve vrste podataka koje metagenomsku analizu čine posebno izazovnom — ponavljanja i strukturne varijante — i razvio alate za rukovanje ovim tipovima podataka koji nadmašuju postojeće metode.
Ponavljanja su identične sekvence DNK koje se ponavljaju u celom genomu pojedinačnih organizama i u više genoma u zajednici organizama.
„DNK u metagenomskom uzorku iz više organizama može se predstaviti kao graf“, rekao je Segarra, docent za elektrotehniku i računarstvo.
„U suštini, jedan od alata koje smo razvili koristi strukturu ovog grafikona kako bi odredio koji se delovi DNK pojavljuju više puta bilo među mikrobama ili unutar istog mikroorganizma.“
Nazvan GraSSRep, metod kombinuje samonadgledano učenje, proces mašinskog učenja gde se AI model obučava da razlikuje skrivene i dostupne ulazne podatke, i grafičke neuronske mreže, sisteme koji obrađuju podatke koji predstavljaju objekte i njihove međusobne veze kao grafove.
Rad, takođe dostupan na serveru za preprint arXiv, predstavljen je na 28. sesiji godišnje međunarodne konferencije o istraživanju u računarskoj molekularnoj biologiji, RECOMB 2024. Projekat je vodio Rajsov diplomirani student i naučni asistent Ali Azizpur. Advait Balaji, student doktorskih studija Rice, takođe je autor studije.
Ponavljanja su od interesa jer igraju značajnu ulogu u biološkim procesima kao što je reakcija bakterija na promene u njihovom okruženju ili interakcija mikrobioma sa organizmima domaćinima. Specifičan primer fenomena gde ponavljanja mogu igrati ulogu je rezistencija na antibiotike.
Uopšteno govoreći, praćenje istorije ponavljanja ili dinamike u bakterijskom genomu može baciti svetlo na strategije mikroorganizama za adaptaciju ili evoluciju. Štaviše, ponavljanja ponekad zapravo mogu biti prerušeni virusi ili bakteriofagi. Od grčke reči za „žderati“, fagi se ponekad koriste za ubijanje bakterija.
„Ovi fagi zapravo izgledaju kao ponavljanja, tako da možete pratiti dinamiku bakterija-faga na osnovu ponavljanja sadržanih u genomima“, rekao je Treangen, vanredni profesor računarskih nauka.
„Ovo bi moglo dati naznake o tome kako se riješiti bakterija koje je teško ubiti ili dati jasniju sliku o tome kako ovi virusi komuniciraju sa bakterijskom zajednicom.“
Ranije, kada je pristup zasnovan na grafu korišćen za sprovođenje detekcije ponavljanja, istraživači su koristili unapred definisane specifikacije za ono što treba tražiti u podacima grafikona. Ono što GraSSRep izdvaja od ovih prethodnih pristupa je nedostatak takvih unapred definisanih parametara ili referenci koje bi informisale kako se podaci obrađuju.
„Naš metod uči kako da bolje koristimo strukturu grafa da bismo otkrili ponavljanja za razliku od oslanjanja na početni unos“, rekao je Segarra. „Samonadgledano učenje omogućava ovom alatu da se obuči u odsustvu bilo kakve temeljne istine utvrđujući šta je ponavljanje, a šta nije ponavljanje. Kada rukujete metagenomskim uzorkom, ne morate da znate ništa o tome šta je u tamo da ga analiziramo.“
Isto važi i u slučaju druge metagenomske metode analize koju su zajedno razvili Segarra i Treangen – detekcija strukturnih varijanti bez referenci u mikrobiomima putem dugo čitanih grafova sastavljanja, ili rhea. Njihov rad o nadi će biti predstavljen na godišnjoj konferenciji Međunarodnog društva za računarsku biologiju, koja će se održati od 12. do 16. jula u Montrealu.
Vodeći autor rada je Rajsova doktorantka iz kompjuterskih nauka Kristen Kari, koja će se pridružiti laboratoriji Rajana Čikija – takođe koautora rada – na Institutu Pasteur u Parizu kao postdoktorski naučnik. Verzija rada je dostupna na bioRkiv serveru za preprint.
Dok je GraSSRep dizajniran da se bavi ponavljanjima, rea se bavi strukturnim varijantama, koje su genomske promene od 10 ili više parova baza koje su relevantne za medicinu i molekularnu biologiju zbog svoje uloge u različitim bolestima, regulacije ekspresije gena, evolucione dinamike i promovisanja genetske raznolikosti. unutar populacija i među vrstama.
„Identifikovanje strukturnih varijanti u izolovanim genomima je relativno jednostavno, ali je teže to učiniti u metagenomima gde ne postoji jasan referentni genom koji bi pomogao u kategorizaciji podataka“, rekao je Treangen.
Trenutno jedna od široko korišćenih metoda za obradu metagenomskih podataka je putem genoma sastavljenih u metagenome ili MAG-ova.
„Ovi de novo ili referentni vođeni asembleri su prilično dobro uspostavljeni alati koji podrazumevaju čitav operativni cevovod sa detekcijom ponavljanja ili identifikacijom strukturnih varijanti koje su samo neke od njihovih funkcionalnosti“, rekao je Segarra.
„Jedna stvar koju razmatramo je zamena postojećih algoritama našim i da vidimo kako to može poboljšati performanse ovih veoma široko korišćenih metagenomskih asemblera.“
Rhea-i nisu potrebni referentni genomi ili MAG-ovi za otkrivanje strukturnih varijanti, i nadmašila je metode koje se oslanjaju na takve unapred određene parametre kada se testiraju na dva lažna metagenoma.
„Ovo je bilo posebno primetno jer smo dobili mnogo detaljnije čitanje podataka nego što smo to uradili koristeći referentne genome“, rekao je Segarra.
„Druga stvar koju trenutno razmatramo je da primenimo alat na skupove podataka iz stvarnog sveta i vidimo kako se rezultati odnose na biološke procese i kakve bi nam uvide to moglo dati.
Treangen je rekao da GraSSRep i rhea kombinovani — nadovezujući se na prethodne doprinose u ovoj oblasti — imaju potencijal „da otključaju osnovna pravila života koja upravljaju evolucijom mikroba“.
Projekti su rezultat dugogodišnje saradnje između laboratorija Segarra i Treangen.
„Ovo je bio proizvod višegodišnjeg kolaborativnog istraživanja u različitim oblastima stručnosti, što je omogućilo našim studentima Aliju i Kristen da izazovu postojeće paradigme i razviju nove pristupe postojećim problemima u metagenomici“, rekao je Treangen.