Naučnici su se uhvatili u koštac s izazovom istraživanja virusa, misterioznih i složenih entiteta u mikrobnim ekosistemima. Iako su svesni njihove sposobnosti da zaraze, ubiju i manipulišu ćelijama, potpuna slika o tome kako virusi utiču na okolinu ostaje delimično nedokučena zbog njihove izuzetne raznolikosti i brze evolucije.
Laboratorijsko proučavanje mikrobnih zajednica nailazi na brojne prepreke. Mnogi mikrobi su teški za kultivisanje, a njihovo prirodno okruženje ima nekoliko karakteristika koje se ne mogu precizno replikovati u laboratoriji.
Stoga, sistemski biolozi poput Libuše Keli često se oslanjaju na sekvenciranje DNK kako bi istražili virusne sekvence. Ova metoda omogućava izdvajanje delova virusnog genoma koji kodiraju proteine, što istraživačima pruža uvid u funkcije virusa i pomaže u identifikaciji različitih vrsta.
Međutim, identifikacija virusnih sekvenci u DNK uzorcima često nadmašuje kapacitet istraživača za označavanje tih gena. To je dovelo do situacije u kojoj su naučnici primorani da objavljuju rezultate istraživanja virusa koristeći nepotpune podatke.
Kako bi prevazišli ovaj izazov, Keli i njen tim razvili su inovativni pristup za označavanje virusnih sekvenci koristeći veštačku inteligenciju. Kroz modele jezika proteina, slične velikim jezičkim modelima poput ChatGPT, ali specifične za proteine, istraživači su uspeli da klasifikuju ranije nevidljive virusne sekvence.
Ova tehnika otvara nova vrata u istraživanju virusa i omogućava istraživačima da se bave biološkim pitanjima koja su do sada bila teško rešiva. Pored toga, modeli jezika proteina mogu pružiti nove uvide u mikrobiologiju identifikujući udaljene funkcije virusnih gena.
U dokazu koncepta, Keli i njen tim su obučili neuronske mreže na prethodno označenim sekvencama virusnih proteina i koristili ih za predviđanje novih sekvenci virusnih proteina. Ovaj pristup omogućava istraživačima da identifikuju proteine od interesa i otkriju nove funkcije virusa.
Preliminarni nalazi otkrivaju samo deo potencijala ovog novog pristupa. Mnoge virusne genetske sekvence ostaju neklasifikovane, a novi modeli jezika proteina mogu biti ključni za njihovo istraživanje.
Iako se ova studija fokusirala na viruse u okeanima, poboljšano označavanje virusnih proteina ima potencijal da unapredi razumevanje uloge virusa u ljudskom zdravlju i bolestima. Naime, aktivnost virusa u mikrobiomu ljudskog creva može se promeniti tokom bolesti, što može pomoći u identifikaciji zdravstvenih problema.
Keli ističe da je njihov pristup ograničen visokokvalitetnim podacima, ali veruje da će dalji razvoj modela jezika proteina omogućiti napredak u istraživanju virusa i njihovih funkcija.
Kroz primenu FAIR principa podataka – podataka koji su dostupni, dostupni, interoperabilni i za višekratnu upotrebu – istraživači će biti u boljoj poziciji da razumeju kompleksnost virusnih ekosistema i doprinesu napretku medicine i biologije.