Naučnici sa Univerziteta u Mančesteru i Oksfordu razvili su okvir veštačke inteligencije koji može da identifikuje i prati nove varijante COVID-19 koje se tiču i može pomoći kod drugih infekcija u budućnosti.
Okvir kombinuje tehnike smanjenja dimenzija i novi objašnjivi algoritam grupisanja nazvan CLASSIKS, koji su razvili matematičari sa Univerziteta u Mančesteru. Ovo omogućava brzu identifikaciju grupa virusnih genoma koji bi mogli predstavljati rizik u budućnosti zbog ogromnih količina podataka.
Studija, predstavljena u časopisu PNAS, mogla bi da podrži tradicionalne metode praćenja evolucije virusa, kao što je filogenetska analiza, koje trenutno zahtevaju opsežnu ručnu kuraciju.
Roberto Cahuantzi, istraživač sa Univerziteta u Mančesteru i prvi i odgovarajući autor rada, rekao je: „Od pojave COVID-19, videli smo više talasa novih varijanti, povećanu prenosivost, izbegavanje imunoloških odgovora i povećanu ozbiljnost od bolesti.
„Naučnici sada intenziviraju napore da preciziraju ove zabrinjavajuće nove varijante, kao što su alfa, delta i omikron, u najranijim fazama njihovog nastanka. Ako možemo pronaći način da to uradimo brzo i efikasno, to će nam omogućiti da budemo proaktivniji u našem odgovoru, kao što je prilagođeni razvoj vakcine i može nam čak omogućiti da eliminišemo varijante pre nego što postanu uspostavljene.“
Kao i mnogi drugi RNK virusi, COVID-19 ima visoku stopu mutacija i kratko vreme između generacija, što znači da se razvija izuzetno brzo. To znači da identifikacija novih sojeva koji će verovatno biti problematični u budućnosti zahteva značajne napore.
Trenutno postoji skoro 16 miliona sekvenci dostupnih u bazi podataka GISAID (Globalna inicijativa za deljenje svih podataka o gripu), koja omogućava pristup genomskim podacima o virusima gripa.
Mapiranje evolucije i istorije svih genoma COVID-19 iz ovih podataka trenutno se vrši korišćenjem izuzetno velikih količina računarskog i ljudskog vremena.
Opisani metod omogućava automatizaciju ovakvih zadataka. Istraživači su obradili 5,7 miliona sekvenci visoke pokrivenosti za samo jedan do dva dana na standardnom modernom laptopu; ovo ne bi bilo moguće za postojeće metode, stavljajući identifikaciju zabrinjavajućih sojeva patogena u ruke većeg broja istraživača zbog smanjenih potreba za resursima.
Tomas Haus, profesor matematičkih nauka na Univerzitetu u Mančesteru, rekao je: „Neviđena količina genetskih podataka generisanih tokom pandemije zahteva poboljšanja naših metoda kako bismo ih temeljno analizirali. Podaci nastavljaju brzo da rastu, ali ne pokazuju korist od kustosa ovih podataka, postoji rizik da će biti uklonjeni ili izbrisani.
„Znamo da je vreme stručnjaka ograničeno, tako da naš pristup ne bi trebalo da u potpunosti zameni rad ljudi, već da radimo zajedno sa njima kako bismo omogućili da se posao obavi mnogo brže i oslobodili naše stručnjake za druge vitalne razvoje.
Predloženi metod funkcioniše tako što se genetske sekvence virusa COVID-19 razlažu na manje „reči“ (nazvane 3-mer) predstavljene kao brojevi tako što se prebrojavaju. Zatim grupiše slične sekvence na osnovu njihovih obrazaca reči koristeći tehnike mašinskog učenja.
Stefan GA¼ttel, profesor primenjene matematike na Univerzitetu u Mančesteru, rekao je: „Algoritam za grupisanje CLASSIKS koji smo razvili je mnogo manje računarski zahtevan od tradicionalnih metoda i potpuno je objašnjiv, što znači da pruža tekstualna i vizuelna objašnjenja izračunatih klastera.
Roberto Cahuantzi je dodao: „Naša analiza služi kao dokaz koncepta, pokazujući potencijalnu upotrebu metoda mašinskog učenja kao alata za upozorenje za rano otkrivanje glavnih varijanti u nastajanju bez oslanjanja na potrebu za generisanjem filogenija.
„Dok filogenetika ostaje ‘zlatni standard’ za razumevanje virusnog porekla, ove metode mašinskog učenja mogu da prime nekoliko redova veličine više sekvenci od trenutnih filogenetskih metoda i uz niske računske troškove.“