Tehnološki napredak u sekvenciranju gena i računarstvu doveo je do eksplozije u dostupnosti bioinformatičkih podataka i procesorske snage, respektivno, stvarajući zrelu vezu za veštačku inteligenciju (AI) za dizajniranje strategija za kontrolu ponašanja ćelija.
U novoj studiji, istraživači sa Univerziteta Northvestern požnjeli su plodove iz ove veze tako što su razvili pristup transferu učenja koji pokreće AI koji prenamjenjuje javno dostupne podatke za predviđanje kombinacija genskih perturbacija koje mogu transformisati tip ćelije ili vratiti bolesne ćelije u zdravlje.
Studija, „Dizajn reprogramiranja ćelija transferom učenja funkcionalnih transkripcionih mreža,“ objavljena je ove nedelje u Zborniku radova Nacionalne akademije nauka.
Od završetka projekta ljudskog genoma pre 20 godina, naučnici su znali da ljudska DNK sadrži više od 20.000 gena. Međutim, ostala je misterija kako ovi geni rade zajedno da bi orkestrirali stotine različitih tipova ćelija u našem telu.
Iznenađujuće, u suštini vođenim pokušajima i greškama, istraživači su pokazali da je moguće „reprogramirati“ tip ćelije manipulisanjem samo nekoliko gena. Projekat ljudskog genoma je takođe olakšao napredak u tehnologijama sekvenciranja, čineći jeftinijim ne samo čitanje genetskog koda, već i merenje ekspresije gena, koji kvantifikuje prekursore proteina koji obavljaju ćelijske funkcije.
Ovo povećanje pristupačnosti dovelo je do akumulacije ogromne količine javno dostupnih bioinformatičkih podataka, podižući mogućnost sinteze ovih podataka radi racionalnog dizajniranja genskih manipulacija koje mogu izazvati željena ponašanja ćelija.
Sposobnost kontrole ponašanja ćelija, a time i prelaza preko tipova ćelija, može se primeniti na ponovno rast povređenih tkiva ili na transformaciju ćelija raka nazad u normalne ćelije.
Povređena tkiva kao rezultat moždanog udara, artritisa i multiple skleroze pogađaju 2,9 miliona pojedinaca svake godine u Sjedinjenim Državama, što košta čak 400 miliona dolara godišnje. U međuvremenu, karcinomi su odgovorni za oko 10 miliona smrtnih slučajeva godišnje širom sveta sa ekonomskim troškovima u bilionima dolara.
Pošto trenutni standard nege ne regeneriše tkiva i/ili ima ograničenu efikasnost, postoji kritična potreba da se razviju efikasniji tretmani koji su široko primenljivi, što zauzvrat zahteva identifikaciju molekularnih intervencija koje se mogu zaključiti iz podataka velike propusnosti.
U novoj studiji, istraživači obučavaju svoju veštačku inteligenciju da nauče kako ekspresija gena dovodi do ponašanja ćelija koristeći javno dostupne podatke o ekspresiji gena. Prediktivni model generisan ovim procesom učenja prenosi se na specifične aplikacije za reprogramiranje ćelija. U svakoj aplikaciji, pristup pronalazi kombinaciju genskih manipulacija koja će najverovatnije indukovati željenu tranziciju tipa ćelije.
„Naš rad se izdvaja od prethodnih pristupa racionalnom dizajniranju strategija za manipulisanje ponašanjem ćelija“, rekao je Tomas Vajtok, vodeći autor rada i član Centra za mrežnu dinamiku na Univerzitetu Northvestern. „Ovi pristupi uglavnom spadaju u dve kategorije: jedna u kojoj su geni organizovani u mreže prema njihovim interakcijama ili zajedničkim svojstvima; i druga u kojoj se ekspresija gena iz zdravih i bolesnih ćelija upoređuje kako bi se izdvojili geni koji pokazuju najveće razlike. .“
U prvoj kategoriji postoji kompromis između realizma i razmera. Neki mrežni modeli sadrže mnogo gena, ali samo govore da li je veza prisutna ili odsutna. Drugi modeli su kvantitativni i eksperimentalno potvrđeni, ali nužno uključuju mali broj gena i veza.
Norvesternov novi rad zadržava snagu obe vrste modela: uključuje sve gene u ćeliji i kvantitativan u predstavljanju njihovih izraza. Ovo se postiže smanjenjem ekspresije skoro 20.000 pojedinačnih gena na ne više od 10 linearnih kombinacija takvih gena, što su ponderisani proseci koji se nazivaju sopstvenim genima.
„Eigengeni u osnovi pokazuju kako geni funkcionišu zajedno, što omogućava pojednostavljenje dinamike velike dinamičke mreže na samo nekoliko pokretnih delova“, rekao je Adilson Moter, profesor fizike Charles E. i Emma H. Morrison na Veinberg koledžu. umetnosti i nauka, direktor Centra za mrežnu dinamiku na Univerzitetu Northvestern i viši autor studije. „Svaki svojstveni gen se može smatrati generalizovanim putem koji je približno nezavisan od ostalih. Dakle, sopstveni genini preuzimaju relevantne korelacije i nezavisnosti u regulatornoj mreži gena.“
Pristupi u drugoj kategoriji mogu pronaći pojedinačne gene povezane sa promenom ponašanja ćelije, ali ne preciziraju kako geni rade zajedno da bi omogućili ovu promenu. Novi pristup prevazilazi ovaj izazov priznavanjem da geni menjaju svoje izraze zajedno. Kvantitativno obračunavanje ove osobine u smislu sopstvenih gena omogućava da se aditivno kombinuju njihovi odgovori na različite perturbacije gena odgovarajućim skaliranjem. Kombinovani odgovori se zatim mogu uneti u AI model da bi se utvrdilo koje perturbacije izazivaju željeno ponašanje ćelije.
Opremljeni ovim modelom veštačke inteligencije, istraživači su kurirali javno dostupne podatke kako bi identifikovali kako se ekspresija gena menja kada je jedan gen poremećen egzogenim povećanjem ili smanjenjem njegove ekspresije. Zatim su razvili algoritam za rešavanje inverznog problema, a to je predviđanje kombinacija gena za koje je najverovatnije da će izazvati željenu tranziciju reprogramiranja, kao što je uzrok da se bolesne ćelije ponašaju kao zdrave ćelije.
Pristup koji je rezultat integracije podataka i algoritma zaobilazi kombinatornu eksploziju koja bi nastala kao rezultat testiranja svih kombinacija kako bi se identifikovale one efektivne. Ovo je značajno jer eksperimenti mogu testirati samo ograničen broj slučajeva, a algoritam pruža način da se identifikuju slučajevi koji najviše obećavaju za testiranje.
„Pristup blista u svojoj sposobnosti da kompjuterski ispita bezbroj kombinacija“, rekao je Vajtok. „Na primer, kombinacije u paru od 200 perturbacija daju 20.000 slučajeva, trostruke daju preko 1,3 miliona slučajeva, a ovaj broj nastavlja eksponencijalno da raste. Pošto algoritam koristi optimizaciju, pristup može da uporedi predviđanja u potencijalno beskonačnom broju kombinacija kroz magiju računica“.
Još jedan izazov koji pristup zaobilazi je da se poremećaji gena mogu kombinovati na neaditivni način. Na primer, uzmite u obzir uticaj genskih poremećaja na ćelijsku brzinu rasta i zamislite da perturbacije prepolove brzinu rasta kada se primenjuju izolovano.
Efekat dve takve perturbacije se kombinuje neaditivno ako smanje rast na značajno više ili značajno manje od polovine polovine (ili jedne četvrtine). Iako postoji veliki broj istraživanja koja karakterišu neaditivne interakcije između gena, novi pristup je efikasan čak i bez uzimanja u obzir takvih odstupanja od aditivnosti.
„Ovo je slučaj u kome je celina dobro aproksimirana zbirom delova“, rekao je Moter.
„Ovo svojstvo intervencija potrebnih za indukciju prelaza između tipova ćelija je kontraintuitivno jer sami tipovi ćelija nastaju iz kolektivnih interakcija između gena.“
Pošto se pristup bavi glavnim izazovima za kontrolu ponašanja ćelija, može se primeniti na mnoga različita biomedicinska stanja, uključujući ona koja će imati koristi od budućih podataka.
Činjenica da se odgovori na perturbacije gena kombinuju aditivno olakšava generalizaciju po tipovima ćelija. Na primer, ako je gen poremećen u ćeliji kože, rezultujući uticaj na ekspresiju bio bi uglavnom isti u ćeliji jetre.
Dakle, pristup koji pokreće AI može se smatrati platformom u koju se mogu ubaciti podaci koji se odnose na određenu bolest kod određenog pacijenta. Pristup se može primeniti kad god se lečenje bolesti može zamisliti kao problem reprogramiranja, kao u slučaju raka, dijabetesa i autoimunih bolesti, koje su sve posledica disfunkcije ćelija.
Svestranost pristupa omogućava da se ekspresija gena u jednoj studiji brzo kontekstualizuje u svim dostupnim podacima u Arhivi sekvenciranja sekvencioniranja u Nacionalnom centru za biotehnološke informacije, koja je najveće javno dostupno spremište podataka o ekspresiji gena.
Ova arhiva je porasla 100 puta sa 10 terabajta na 1.000 terabajta između 2012. i 2022. i nastavlja da raste eksponencijalno kako se troškovi sekvenciranja smanjuju. Ovaj rad pruža kritično sredstvo za prevođenje ovog bogatstva podataka u specifična predviđanja o tome kako geni rade zajedno da kontrolišu ponašanje normalnih i bolesnih ćelija.