Virusi su misteriozna i slabo shvaćena sila u mikrobnim ekosistemima. Istraživači znaju da mogu da zaraze, ubiju i manipulišu ljudskim i bakterijskim ćelijama u skoro svakom okruženju, od okeana do vašeg creva.
Ali naučnici još uvek nemaju potpunu sliku o tome kako virusi utiču na okolinu u velikoj meri zbog njihove izuzetne raznolikosti i sposobnosti da se brzo razvijaju.
Zajednice mikroba je teško proučavati u laboratorijskim uslovima. Mnogi mikrobi su izazovni za kultivisanje, a njihovo prirodno okruženje ima mnogo više karakteristika koje utiču na njihov uspeh ili neuspeh nego što naučnici mogu da repliciraju u laboratoriji.
Dakle, sistemski biolozi poput mene često sekvenciraju svu DNK prisutnu u uzorku – na primer, fekalni uzorak od pacijenta – izdvajaju sekvence virusne DNK, a zatim označavaju delove virusnog genoma koji kodiraju proteine.
Ove beleške o lokaciji, strukturi i drugim karakteristikama gena pomažu istraživačima da razumeju funkcije koje virusi mogu da obavljaju u okruženju i pomažu u identifikaciji različitih vrsta virusa.
Istraživači označavaju viruse tako što uparuju virusne sekvence u uzorku sa prethodno označenim sekvencama dostupnim u javnim bazama podataka virusnih genetskih sekvenci.
Međutim, naučnici identifikuju virusne sekvence u DNK prikupljenoj iz okoline brzinom koja daleko nadmašuje našu sposobnost da označimo te gene. To znači da istraživači objavljuju nalaze o virusima u mikrobnim ekosistemima koristeći neprihvatljivo male delove dostupnih podataka.
Da bismo poboljšali sposobnost istraživača da proučavaju viruse širom sveta, moj tim i ja smo razvili novi pristup za označavanje virusnih sekvenci pomoću veštačke inteligencije.
Kroz modele jezika proteina koji su slični velikim modelima jezika kao što je ChatGPT, ali specifični za proteine, bili smo u mogućnosti da klasifikujemo ranije nevidljive virusne sekvence. Ovo otvara vrata istraživačima da ne samo da saznaju više o virusima, već i da se pozabave biološkim pitanjima na koja je teško odgovoriti trenutnim tehnikama
Veliki jezički modeli koriste odnose između reči u velikim skupovima podataka teksta da bi pružili potencijalne odgovore na pitanja na koja nisu eksplicitno „naučeni“ da odgovore.
Kada pitate chatbot-a „Koji je glavni grad Francuske?“ na primer, model ne traži odgovor u tabeli glavnih gradova. Umesto toga, koristi svoju obuku o ogromnim skupovima dokumenata i informacija kako bi zaključio odgovor: „Glavni grad Francuske je Pariz“.
Slično tome, modeli jezika proteina su AI algoritmi koji su obučeni da prepoznaju odnose između milijardi proteinskih sekvenci iz okruženja širom sveta. Kroz ovu obuku, oni će možda moći da zaključe nešto o suštini virusnih proteina i njihovim funkcijama.
Pitali smo se da li modeli jezika proteina mogu da odgovore na ovo pitanje: „S obzirom na sve označene virusne genetske sekvence, koja je funkcija ove nove sekvence?“
U našem dokazu koncepta, obučili smo neuronske mreže na prethodno označenim sekvencama virusnih proteina u prethodno obučenim modelima jezika proteina, a zatim ih koristili za predviđanje komentara novih sekvenci virusnih proteina.
Naš pristup nam omogućava da ispitamo šta model „vidi“ u određenoj virusnoj sekvenci koja vodi do određene beleške. Ovo pomaže da se identifikuju proteini kandidati od interesa bilo na osnovu njihovih specifičnih funkcija ili na osnovu toga kako je njihov genom raspoređen, prekrivajući prostor za pretragu ogromnih skupova podataka.
Identifikovanjem udaljenijih funkcija virusnih gena, modeli jezika proteina mogu dopuniti postojeće metode kako bi pružili novi uvid u mikrobiologiju.
Na primer, moj tim i ja smo mogli da koristimo naš model da otkrijemo ranije neprepoznatu integrazu – vrstu proteina koji može da pomera genetske informacije u i iz ćelija – u globalno bogatim morskim pikocijanobakterijama Prochlorococcus i Sinechococcus.
Posebno, ova integraza može biti u stanju da pomeri gene u i iz ovih populacija bakterija u okeanima i omogući ovim mikrobima da se bolje prilagode promenljivom okruženju.
Naš jezički model je takođe identifikovao novi virusni kapsid protein koji je široko rasprostranjen u globalnim okeanima. Napravili smo prvu sliku o tome kako su njegovi geni raspoređeni, pokazujući da može da sadrži različite skupove gena za koje verujemo da ukazuju na to da ovaj virus obavlja različite funkcije u svom okruženju.
Ovi preliminarni nalazi predstavljaju samo dve od hiljada napomena koje je dao naš pristup.
Većina stotina hiljada novootkrivenih virusa ostaje neklasifikovana. Mnoge virusne genetske sekvence odgovaraju porodicama proteina bez poznate funkcije ili nikada ranije nisu viđene. Naš rad pokazuje da bi slični modeli jezika proteina mogli pomoći u proučavanju pretnje i obećanja mnogih virusa naše planete koji nisu okarakterisani.
Dok se naša studija fokusirala na viruse u globalnim okeanima, poboljšano označavanje virusnih proteina je ključno za bolje razumevanje uloge koju virusi imaju u zdravlju i bolestima u ljudskom telu.
Mi i drugi istraživači pretpostavili smo da se aktivnost virusa u mikrobiomu ljudskog creva može promeniti kada ste bolesni. To znači da virusi mogu pomoći u identifikaciji stresa u mikrobnim zajednicama.
Međutim, naš pristup je takođe ograničen jer zahteva visokokvalitetne napomene. Istraživači razvijaju novije modele jezika proteina koji uključuju druge „zadatke“ kao deo njihove obuke, posebno predviđanje proteinskih struktura za otkrivanje sličnih proteina, kako bi ih učinili moćnijim.