Koji molekul leka je najefikasniji? Istraživači grozničavo traže efikasne aktivne supstance za borbu protiv bolesti. Ova jedinjenja se često vezuju za proteine, koji su obično enzimi ili receptori koji pokreću specifičan lanac fizioloških akcija.
U nekim slučajevima, određeni molekuli takođe imaju za cilj da blokiraju neželjene reakcije u telu – kao što je preterani inflamatorni odgovor. S obzirom na obilje dostupnih hemijskih jedinjenja, ovo istraživanje na prvi pogled liči na traženje igle u plastu sena. Otkriće lekova, stoga, pokušava da koristi naučne modele za predviđanje koji će molekuli najbolje pristati na odgovarajući ciljni protein i snažno se vezati. Ovi potencijalni kandidati za lek se zatim detaljnije istražuju u eksperimentalnim studijama.
Od napretka veštačke inteligencije, istraživanje otkrivanja lekova takođe sve više koristi aplikacije za mašinsko učenje. Kao jedna „Graph neuronske mreže“ (GNN) pružaju jednu od nekoliko mogućnosti za takve aplikacije. Oni su prilagođeni da predvide, na primer, koliko se snažno određeni molekul vezuje za ciljni protein.
U tu svrhu, GNN modeli su obučeni sa grafovima koji predstavljaju komplekse formirane između proteina i hemijskih jedinjenja (liganda). Grafovi se generalno sastoje od čvorova koji predstavljaju objekte i ivica koje predstavljaju odnose između čvorova. U grafičkim prikazima kompleksa protein-ligand, ivice povezuju samo protein ili ligand čvorove, koji predstavljaju njihove strukture, respektivno, ili protein i ligand čvorove, koji predstavljaju specifične interakcije protein-ligand.
„Način na koji GNN stižu do svojih predviđanja je kao crna kutija u koju ne možemo da zavirimo“, kaže prof. dr Jirgen Bajorat. Istraživač hemoinformatike sa Instituta LIMES na Univerzitetu u Bonu, Međunarodnog centra za informacione tehnologije Bon-Ahen (B-IT) i Lamarrovog instituta za mašinsko učenje i veštačku inteligenciju u Bonu, zajedno sa kolegama sa Univerziteta Sapienza u Rimu, je detaljno analizirao da li graf neuronske mreže zaista uče interakcije protein-ligand da bi predvideo koliko se snažno aktivna supstanca vezuje za ciljni protein.
Istraživanje je objavljeno u Nature Machine Intelligence.
Istraživači su analizirali ukupno šest različitih GNN arhitektura koristeći njihovu posebno razvijenu „EdgeSHAPer“ metodu i konceptualno drugačiju metodologiju za poređenje. Ovi kompjuterski programi „proveravaju“ da li GNN uče najvažnije interakcije između jedinjenja i proteina i na taj način predviđaju potenciju liganda, kako su nameravali i predviđali istraživači – ili da li AI dolazi do predviđanja na druge načine.
„GNN-ovi su veoma zavisni od podataka sa kojima su obučeni“, kaže prvi autor studije, dr. kandidat Andrea Mastropjetro sa Univerziteta Sapijenca u Rimu, koji je deo svog doktorskog istraživanja vodio u grupi prof. Bajorata u Bonu.
Naučnici su obučili šest GNN-a sa grafovima ekstrahovanim iz struktura kompleksa protein-ligand, za koje je način delovanja i snaga vezivanja jedinjenja za njihove ciljne proteine već poznati iz eksperimenata. Obučeni GNN su zatim testirani na drugim kompleksima. Naknadna EdgeSHAPer analiza je tada omogućila da se razume kako su GNN generisali očigledno obećavajuća predviđanja.
„Ako GNN rade ono što se od njih očekuje, treba da nauče interakcije između jedinjenja i ciljnog proteina, a predviđanja bi trebalo da budu određena davanjem prioriteta specifičnim interakcijama“, objašnjava prof. Bajorat. Međutim, prema analizama istraživačkog tima, šest GNN-a u suštini to nije uspelo.
Većina GNN je naučila samo nekoliko interakcija protein-lek i uglavnom se fokusirala na ligande. Bajorat kaže: „Da bi predvideli snagu vezivanja molekula za ciljni protein, modeli su uglavnom ‘pamtili’ hemijski slične molekule na koje su naišli tokom treninga i podatke o njihovom vezivanju, bez obzira na ciljni protein. Ove naučene hemijske sličnosti su tada suštinski odredile predviđanja“.
Prema naučnicima, ovo u velikoj meri podseća na „efekat Pametnog Hansa“. Ovaj efekat se odnosi na konja koji bi očigledno mogao da broji. Koliko često je Hans kucnuo kopitom trebalo je da ukaže na rezultat proračuna. Međutim, kako se kasnije ispostavilo, konj uopšte nije umeo da računa, već je očekivane rezultate zaključivao iz nijansi u izrazima lica i gestovima svog saputnika.
Šta ovi nalazi znače za istraživanje otkrića lekova? „Generalno nije održivo da GNN uče hemijske interakcije između aktivnih supstanci i proteina“, kaže naučnik heminformatike.
Njihova predviđanja su u velikoj meri precenjena jer se predviđanja ekvivalentnog kvaliteta mogu napraviti korišćenjem hemijskog znanja i jednostavnijih metoda. Međutim, istraživanje takođe nudi mogućnosti veštačke inteligencije.
Dva modela ispitana GNN-om pokazala su jasnu tendenciju da nauče više interakcija kada se poveća potentnost testnih jedinjenja. „Ovde vredi bolje pogledati“, kaže Bajorat. Možda bi se ovi GNN mogli dalje poboljšati u željenom pravcu kroz modifikovane reprezentacije i tehnike obuke.
Međutim, pretpostavku da se fizičke veličine mogu naučiti na osnovu molekularnih grafikona generalno treba tretirati sa oprezom. „AI nije crna magija“, kaže Bajorat.
U stvari, on vidi prethodnu publikaciju otvorenog pristupa EdgeSHAPer-a i drugih posebno razvijenih alata za analizu kao obećavajući pristup za rasvetljavanje crne kutije AI modela. Pristup njegovog tima trenutno se fokusira na GNN i nove „modele hemijskog jezika“.
„Razvoj metoda za objašnjenje predviđanja složenih modela je važna oblast istraživanja veštačke inteligencije. Postoje i pristupi za druge mrežne arhitekture kao što su jezički modeli koji pomažu da se bolje razume kako mašinsko učenje dolazi do svojih rezultata“, kaže Bajorat.
On očekuje da će se uzbudljive stvari uskoro desiti i na polju „Objašnjive veštačke inteligencije“ na Lamar institutu, gde je on PI i predsedavajući AI u životnim naukama.