Mogu li jezički modeli čitati genom?

Mogu li jezički modeli čitati genom?

Ista klasa veštačke inteligencije koja je napravila naslove za kodiranje softvera i polaganje pravosudnog ispita naučila je da čita drugačiju vrstu teksta — genetski kod.

Taj kod sadrži uputstva za sve životne funkcije i prati pravila koja se razlikuju od onih koja vladaju ljudskim jezicima. Svaka sekvenca u genomu pridržava se zamršene gramatike i sintakse, struktura koje stvaraju značenje. Baš kao što promena nekoliko reči može radikalno da promeni uticaj rečenice, male varijacije u biološkoj sekvenci mogu napraviti ogromnu razliku u oblicima koje sekvenca kodira.

Sada istraživači sa Univerziteta Prinston, predvođeni stručnjakom za mašinsko učenje Mengdijem Vangom, koriste jezičke modele da bi ušli u delimične sekvence genoma i optimizovali te sekvence za proučavanje biologije i poboljšanje medicine. I već su u toku.

U radu objavljenom 5. aprila u časopisu Inteligencija mašina prirode, autori su detaljno opisali jezički model koji je koristio svoje moći semantičkog predstavljanja da dizajnira efikasniju mRNA vakcinu poput onih koje se koriste za zaštitu od COVID-19.

Naučnici imaju jednostavan način da sumiraju tok genetskih informacija. Oni to nazivaju centralnom dogmom biologije. Informacije se kreću od DNK do RNK do proteina. Proteini stvaraju strukture i funkcije živih ćelija.

Messenger RNA, ili mRNA, pretvara informacije u proteine u tom završnom koraku, koji se zove translacija. Ali mRNA je zanimljiva. Samo deo sadrži šifru za protein. Ostatak nije preveden, ali kontroliše vitalne aspekte procesa prevođenja.

Upravljanje efikasnošću proizvodnje proteina je ključni mehanizam kojim funkcionišu mRNK vakcine. Istraživači su fokusirali svoj jezički model tamo, na neprevedeni region, da vide kako mogu da optimizuju efikasnost i poboljšaju vakcine.

Nakon obuke modela na malom broju vrsta, istraživači su generisali stotine novih optimizovanih sekvenci i potvrdili te rezultate kroz laboratorijske eksperimente. Najbolje sekvence su nadmašile nekoliko vodećih merila za razvoj vakcine, uključujući povećanje ukupne efikasnosti proizvodnje proteina od 33%.

Povećanje efikasnosti proizvodnje proteina čak i za malu količinu predstavlja veliki podsticaj za nove terapeutike, prema istraživačima. Osim COVID-19, mRNA vakcine obećavaju da će zaštititi od mnogih zaraznih bolesti i raka.

Vang, profesor elektrotehnike i računarstva i glavni istraživač u ovoj studiji, rekao je da uspeh modela takođe ukazuje na fundamentalniju mogućnost. Obučen na mRNA od nekoliko vrsta, bio je u stanju da dekodira nukleotidne sekvence i otkrije nešto novo o regulaciji gena. Naučnici veruju da je regulacija gena, jedna od najosnovnijih životnih funkcija, ključ za otkrivanje porekla bolesti i poremećaja. Jezički modeli poput ovog mogli bi da obezbede novi način ispitivanja.

Vangovi saradnici uključuju istraživače iz biotehnološke firme RVAC Medicines, kao i Medicinskog fakulteta Univerziteta Stanford.

Novi model se razlikuje po stepenu, a ne ljubaznosti, od velikih jezičkih modela koji pokreću današnje AI chat botove. Umesto da se obučava na milijardama stranica teksta sa interneta, njihov model je obučen na nekoliko stotina hiljada sekvenci. Model je takođe obučen da uključi dodatna znanja o proizvodnji proteina, uključujući strukturne i informacije vezane za energiju.

Istraživački tim je koristio obučeni model za kreiranje biblioteke od 211 novih sekvenci. Svaki je optimizovan za željenu funkciju, pre svega povećanje efikasnosti prevođenja. Ti proteini, poput šiljastog proteina ciljanog vakcinama protiv COVID-19, pokreću imuni odgovor na zarazne bolesti.

Prethodne studije su kreirale jezičke modele za dekodiranje različitih bioloških sekvenci, uključujući proteine i DNK, ali ovo je bio prvi jezički model koji se fokusirao na neprevedeni region mRNK. Pored povećanja ukupne efikasnosti, takođe je bio u stanju da predvidi koliko će se sekvenca dobro ponašati na različitim povezanim zadacima.

Vang je rekao da je pravi izazov u ​​stvaranju ovog jezičkog modela u razumevanju punog konteksta dostupnih podataka. Obuka modela zahteva ne samo neobrađene podatke sa svim njegovim karakteristikama, već i nizvodne posledice tih karakteristika. Ako je program dizajniran da filtrira neželjenu poštu iz e-pošte, svaka e-pošta na kojoj se obučava biće označena kao „neželjena pošta“ ili „nije neželjena pošta“. Usput, model razvija semantičke reprezentacije koje mu omogućavaju da odredi koji nizovi reči ukazuju na oznaku „neželjena pošta“. U tome leži smisao.

Vang je rekao da posmatranje jednog uskog skupa podataka i razvoj modela oko njega nije dovoljno da bude korisno za naučnike o životu. Morala je da uradi nešto novo. Pošto je ovaj model radio na vrhuncu biološkog razumevanja, podaci koje je pronašla bili su posvuda.

„Deo mog skupa podataka dolazi iz studije u kojoj postoje mere za efikasnost“, rekao je Vang. „Drugi deo mog skupa podataka potiče iz druge studije [koja] meri nivoe ekspresije. Takođe smo prikupili podatke bez komentara iz više izvora.“ Organizovanje tih delova u jednu koherentnu i robusnu celinu – višestruki skup podataka koji je mogla da koristi za obuku sofisticiranog jezičkog modela – bio je ogroman izazov.

„Obuka modela nije samo sastavljanje svih tih sekvenci, već i sastavljanje sekvenci sa oznakama koje su do sada prikupljene. Ovo nikada ranije nije urađeno.“