Mogu li jezički modeli čitati genom?

Ista klasa veštačke inteligencije koja je napravila naslove za kodiranje softvera i polaganje pravosudnog ispita naučila je da čita drugačiju vrstu teksta — genetski kod.

Taj kod sadrži uputstva za sve životne funkcije i prati pravila koja se razlikuju od onih koja vladaju ljudskim jezicima. Svaka sekvenca u genomu pridržava se zamršene gramatike i sintakse, struktura koje stvaraju značenje. Baš kao što promena nekoliko reči može radikalno da promeni uticaj rečenice, male varijacije u biološkoj sekvenci mogu napraviti ogromnu razliku u oblicima koje sekvenca kodira.

Sada istraživači sa Univerziteta Prinston, predvođeni stručnjakom za mašinsko učenje Mengdijem Vangom, koriste jezičke modele da bi ušli u delimične sekvence genoma i optimizovali te sekvence za proučavanje biologije i poboljšanje medicine. I već su u toku.

U radu objavljenom 5. aprila u časopisu Inteligencija mašina prirode, autori su detaljno opisali jezički model koji je koristio svoje moći semantičkog predstavljanja da dizajnira efikasniju mRNA vakcinu poput onih koje se koriste za zaštitu od COVID-19.

Naučnici imaju jednostavan način da sumiraju tok genetskih informacija. Oni to nazivaju centralnom dogmom biologije. Informacije se kreću od DNK do RNK do proteina. Proteini stvaraju strukture i funkcije živih ćelija.

Messenger RNA, ili mRNA, pretvara informacije u proteine u tom završnom koraku, koji se zove translacija. Ali mRNA je zanimljiva. Samo deo sadrži šifru za protein. Ostatak nije preveden, ali kontroliše vitalne aspekte procesa prevođenja.

Upravljanje efikasnošću proizvodnje proteina je ključni mehanizam kojim funkcionišu mRNK vakcine. Istraživači su fokusirali svoj jezički model tamo, na neprevedeni region, da vide kako mogu da optimizuju efikasnost i poboljšaju vakcine.

Nakon obuke modela na malom broju vrsta, istraživači su generisali stotine novih optimizovanih sekvenci i potvrdili te rezultate kroz laboratorijske eksperimente. Najbolje sekvence su nadmašile nekoliko vodećih merila za razvoj vakcine, uključujući povećanje ukupne efikasnosti proizvodnje proteina od 33%.

Povećanje efikasnosti proizvodnje proteina čak i za malu količinu predstavlja veliki podsticaj za nove terapeutike, prema istraživačima. Osim COVID-19, mRNA vakcine obećavaju da će zaštititi od mnogih zaraznih bolesti i raka.

Vang, profesor elektrotehnike i računarstva i glavni istraživač u ovoj studiji, rekao je da uspeh modela takođe ukazuje na fundamentalniju mogućnost. Obučen na mRNA od nekoliko vrsta, bio je u stanju da dekodira nukleotidne sekvence i otkrije nešto novo o regulaciji gena. Naučnici veruju da je regulacija gena, jedna od najosnovnijih životnih funkcija, ključ za otkrivanje porekla bolesti i poremećaja. Jezički modeli poput ovog mogli bi da obezbede novi način ispitivanja.

Vangovi saradnici uključuju istraživače iz biotehnološke firme RVAC Medicines, kao i Medicinskog fakulteta Univerziteta Stanford.

Novi model se razlikuje po stepenu, a ne ljubaznosti, od velikih jezičkih modela koji pokreću današnje AI chat botove. Umesto da se obučava na milijardama stranica teksta sa interneta, njihov model je obučen na nekoliko stotina hiljada sekvenci. Model je takođe obučen da uključi dodatna znanja o proizvodnji proteina, uključujući strukturne i informacije vezane za energiju.

Istraživački tim je koristio obučeni model za kreiranje biblioteke od 211 novih sekvenci. Svaki je optimizovan za željenu funkciju, pre svega povećanje efikasnosti prevođenja. Ti proteini, poput šiljastog proteina ciljanog vakcinama protiv COVID-19, pokreću imuni odgovor na zarazne bolesti.

Prethodne studije su kreirale jezičke modele za dekodiranje različitih bioloških sekvenci, uključujući proteine i DNK, ali ovo je bio prvi jezički model koji se fokusirao na neprevedeni region mRNK. Pored povećanja ukupne efikasnosti, takođe je bio u stanju da predvidi koliko će se sekvenca dobro ponašati na različitim povezanim zadacima.

Vang je rekao da je pravi izazov u stvaranju ovog jezičkog modela u razumevanju punog konteksta dostupnih podataka. Obuka modela zahteva ne samo neobrađene podatke sa svim njegovim karakteristikama, već i nizvodne posledice tih karakteristika. Ako je program dizajniran da filtrira neželjenu poštu iz e-pošte, svaka e-pošta na kojoj se obučava biće označena kao „neželjena pošta“ ili „nije neželjena pošta“. Usput, model razvija semantičke reprezentacije koje mu omogućavaju da odredi koji nizovi reči ukazuju na oznaku „neželjena pošta“. U tome leži smisao.

Vang je rekao da posmatranje jednog uskog skupa podataka i razvoj modela oko njega nije dovoljno da bude korisno za naučnike o životu. Morala je da uradi nešto novo. Pošto je ovaj model radio na vrhuncu biološkog razumevanja, podaci koje je pronašla bili su posvuda.

„Deo mog skupa podataka dolazi iz studije u kojoj postoje mere za efikasnost“, rekao je Vang. „Drugi deo mog skupa podataka potiče iz druge studije [koja] meri nivoe ekspresije. Takođe smo prikupili podatke bez komentara iz više izvora.“ Organizovanje tih delova u jednu koherentnu i robusnu celinu – višestruki skup podataka koji je mogla da koristi za obuku sofisticiranog jezičkog modela – bio je ogroman izazov.

„Obuka modela nije samo sastavljanje svih tih sekvenci, već i sastavljanje sekvenci sa oznakama koje su do sada prikupljene. Ovo nikada ranije nije urađeno.“

Mogu li jezički modeli čitati genom?

Kosovska policija uhapsila pet osoba u Štrpcu u okviru istrage o navodnim ratnim zločinima

Merc: Izbori u Baden-Virtembergu gorak rezultat, nećemo sarađivati sa AFD

Fritule sa slaninicom

AUTOPUT PAKOVRAĆE–POŽEGA: Tunel bez dozvole, deonica bez funkcije, građani bez odgovora

VUČIĆEV PAD: Šta stoji iza gubitka podrške predsedniku Srbije

Specijalizovano tužilaštvo odbilo zahtev Tačija za privremeno puštanje iz pritvora

Tramp zapretio Iranu: Za svaki napad na brod u Ormuskom moreuzu, SAD će bombardovati most ili elektranu

Kreni-Promeni: Savo Manojlović dobio pretnje smrću nakon kampanje targetiranja na režimskim medijima

Apolo galerija u Luvru otvorena prvi put posle velike oktobarske pljačke nakita

Zaposlenost na određeno vreme u Srbiji: Analiza trenutnog stanja i uzroka

Specijalizovano tužilaštvo odbilo zahtev Tačija za privremeno puštanje iz pritvora

Tramp zapretio Iranu: Za svaki napad na brod u Ormuskom moreuzu, SAD će bombardovati most ili elektranu

Kreni-Promeni: Savo Manojlović dobio pretnje smrću nakon kampanje targetiranja na režimskim medijima

Marta Kos: Napredak Kosova ka EU zavisi od konstruktivnog dijaloga sa Srbijom

Zvezda gostuje u Surdulici, Partizan na Banovom brdu, Vojvodina na Karaburmi

Fico objavio video-snimak povodom druge godišnjice pokušaja atentata

Specijalizovano tužilaštvo odbilo zahtev Tačija za privremeno puštanje iz pritvora

Tramp zapretio Iranu: Za svaki napad na brod u Ormuskom moreuzu, SAD će bombardovati most ili elektranu

Kreni-Promeni: Savo Manojlović dobio pretnje smrću nakon kampanje targetiranja na režimskim medijima

Ajkula koja može da živi 400 godina: Naučnici otkrivaju tajnu vrste koja prkosi starenju

Dim iz požara u Kanadi utiče na zdravlje ljudi u SAD-u, upozoravaju stručnjaci

Dodik upozorava na dugotrajnost rata u Ukrajini i posledice za EU

Požar kod Madrida uništio 26.000 hektara, 1.200 ljudi evakuisano

Melatonin može pomoći u ublažavanju hronične boli, otkriva nova studija

Nova bugarska vlada učvrstila protivljenje podršci EU Ukrajini nakon izbora

Požar u podzemnoj garaži na Zvezdari zahvatio nekoliko automobila

Teška povreda tokom karnevalske parade: helikopterom prebačena osoba u bolnicu

FK Crvena zvezda: U prodaji karte za utakmicu protiv Vojvodine

Odložena utakmica između fudbalera Radničkog iz Kragujevca i Železničara

Fudbaleri Železničara večeras dočekuju Bragu u kvalifikacijama za Ligu konferencije

Aleksej Pokuševski nije više košarkaš Partizana

Fudbaleri Zvezde ubedljivom pobedom „završili posao“ protiv Larna u Severnoj Irskoj

Danas promenljivo oblačno sa sunčanim intrevalima, temperatura do 26 stepeni

Danas oblačno i nestabilno vreme, mestimično sa kišom i pljuskovima sa grmljavinom

U Srbiji danas promenljivo oblačno s kišom, temperatura do 33 stepena

Pročitajte još