Na putu od gena do proteina, molekul RNK u nastajanju se može preseći i spojiti, ili spojiti, na različite načine pre nego što bude preveden u protein. Ovaj proces, poznat kao alternativno spajanje, omogućava jednom genu da kodira nekoliko različitih proteina. Alternativno spajanje se javlja u mnogim biološkim procesima, kao kada matične ćelije sazrevaju u ćelije specifične za tkivo. Međutim, u kontekstu bolesti, alternativno spajanje može biti neregulisano. Zbog toga je važno ispitati transkriptom – to jest, sve molekule RNK koji mogu da potiču iz gena – da bismo razumeli osnovni uzrok stanja.
Međutim, istorijski je bilo teško „pročitati“ molekule RNK u celini jer su obično dugačke hiljade baza. Umesto toga, istraživači su se oslanjali na takozvano sekvenciranje RNK kratkog čitanja, koje razbija molekule RNK i sekvencira ih u mnogo kraće delove – negde između 200 do 600 baza, u zavisnosti od platforme i protokola. Kompjuterski programi se zatim koriste za rekonstrukciju punih sekvenci RNK molekula.
Sekvencioniranje RNK kratkog čitanja može dati visoko precizne podatke sekvenciranja, sa niskom stopom greške po bazi od približno 0,1% (što znači da je jedna baza pogrešno određena za svakih 1000 sekvenciranih baza). Ipak, on je ograničen u informacijama koje može da pruži zbog kratke dužine čitanja sekvence. Na mnogo načina, sekvencioniranje RNK kratkog čitanja je kao razbijanje velike slike na mnogo delova slagalice koji su svi istog oblika i veličine, a zatim pokušaj da se slika ponovo sastavi.
Nedavno su postale dostupne platforme za „dugo čitanje“ koje mogu sekvencionirati RNK molekule dužine preko 10.000 baza od kraja do kraja. Ove platforme ne zahtevaju da se RNK molekuli razbiju pre nego što se sekvencioniraju, ali imaju mnogo veću stopu greške po bazi, obično između 5% i 20%. Ovo dobro poznato ograničenje je ozbiljno omelo široko usvajanje sekvenciranja RNK koje se dugo čita. Konkretno, visoka stopa grešaka otežava određivanje validnosti novih, ranije nepoznatih RNK molekula otkrivenih u određenom stanju ili bolesti.
Da bi zaobišli ovaj problem, istraživači u Dečjoj bolnici u Filadelfiji (CHOP) razvili su novi računarski alat koji može preciznije da otkrije i kvantifikuje RNK molekule iz ovih dugo čitanih podataka o sekvenciranju RNK koji su skloni greškama. Alat, nazvan ESPRESSO (Evaluator promotivne statistike grešaka za opcije mesta spajanja), objavljen je danas u časopisu Science Advances.
„Dugo čitano sekvenciranje RNK je moćna tehnologija koja će nam omogućiti da otkrijemo varijacije RNK u retkim genetskim bolestima i drugim stanjima, poput raka“, rekao je dr Ji Ksing, direktor Centra za računarsku i genomsku medicinu u CHOP-u. i viši autor studije.
„Verovatno smo na prekretnici u tome kako otkrivamo i analiziramo molekule RNK. Prelazak sa sekvenciranja RNK sa kratkim čitanjem na dugo čitanje predstavlja uzbudljivu tehnološku transformaciju, a hitno su potrebni računarski alati koji pouzdano tumače dugo čitane podatke sekvenciranja RNK .“
ESPRESSO može tačno da otkrije i kvantifikuje različite RNK molekule iz istog gena – poznate kao RNK izoforme – koristeći samo podatke o dugo čitanju RNK sekvencioniranja koji su skloni greškama. Da bi to uradio, računarska alatka upoređuje sva očitavanja dugog RNK sekvenciranja datog gena sa njegovom odgovarajućom genomskom DNK, a zatim koristi obrasce grešaka pojedinačnih dugih čitanja da bi pouzdano identifikovala spojeve spajanja – mesta gde je molekul RNK u nastajanju presečen i spojen — kao i njihove odgovarajuće izoforme RNK pune dužine.
Pronalaženjem oblasti savršenog poklapanja između dugog RNK sekvenciranja i genomske DNK, kao i pozajmljivanja informacija za sva očitavanja dugog RNK sekvenciranja gena, alat je u stanju da identifikuje visoko pouzdane spojeve i RNK izoforme, uključujući i one koje nisu bile prethodno dokumentovano u postojećim bazama podataka.
Istraživači su procenili učinak ESPRESSO-a koristeći simulirane podatke i podatke o stvarnim biološkim uzorcima. Otkrili su da ESPRESSO radi bolje od višestrukih trenutno dostupnih alata, kako u pogledu otkrivanja RNK izoforma, tako i u pogledu njihovog kvantifikacije. Istraživači su takođe generisali i analizirali preko 1 milijardu dugih očitavanja sekvenciranja RNK koji pokrivaju 30 tipova ljudskog tkiva i tri ljudske ćelijske linije, pružajući koristan resurs za proučavanje varijacija ljudskih transkriptoma pri rezoluciji izoforma RNK pune dužine.
„ESPRESSO se bavi dugotrajnim problemom sekvenciranja RNK koji se dugo čita i mogao bi da otvori nove mogućnosti otkrića“, rekao je dr Ksing. „Zamišljamo da će ESPRESSO biti koristan alat za istraživače da istraže RNA repertoar ćelija u različitim biomedicinskim i kliničkim okruženjima.“