Novi statistički alat koji su razvili istraživači sa Univerziteta u Čikagu poboljšava sposobnost pronalaženja genetskih varijanti koje uzrokuju bolest. Alat, opisan u novom radu objavljenom 26. januara 2024. u Nature Genetics, kombinuje podatke iz studija asocijacija na nivou genoma (GVAS) i predviđanja genetske ekspresije da bi ograničio broj lažno pozitivnih i preciznije identifikovao uzročne gene i varijante za bolest.
GVAS je često korišćen pristup za identifikaciju gena povezanih sa nizom ljudskih osobina, uključujući najčešće bolesti. Istraživači upoređuju sekvence genoma velike grupe ljudi sa specifičnom bolešću, na primer, sa drugim skupom sekvenci zdravih osoba. Razlike identifikovane u grupi bolesti mogle bi da ukažu na genetske varijante koje povećavaju rizik za tu bolest i zahtevaju dalje proučavanje.
Međutim, većina ljudskih bolesti nije uzrokovana jednom genetskom varijacijom. Umesto toga, oni su rezultat složene interakcije više gena, faktora životne sredine i mnoštva drugih varijabli. Kao rezultat toga, GVAS često identifikuje mnoge varijante u mnogim regionima u genomu koji su povezani sa bolešću.
Ograničenje GVAS-a je, međutim, to što identifikuje samo povezanost, a ne uzročnost. U tipičnom genomskom regionu, mnoge varijante su u velikoj korelaciji jedna sa drugom, zbog fenomena koji se zove neravnoteža veze. To je zato što se DNK prenosi sa jedne generacije na drugu u celim blokovima, a ne pojedinačnim genima, tako da su obližnje varijante obično povezane.
„Možda imate mnogo genetskih varijanti u bloku koje su sve povezane sa rizikom od bolesti, ali ne znate koja je zapravo uzročna varijanta“, rekao je Ksin He, dr. autor nove studije. „To je osnovni izazov GVAS-a, odnosno kako idemo od asocijacije do uzročnosti.“
Da bi problem bio još teži, većina genetskih varijanti nalazi se u nekodirajućim genomima, što otežava tumačenje njihovih efekata. Uobičajena strategija za rešavanje ovih izazova je korišćenje nivoa ekspresije gena. Lokusi kvantitativnih osobina ekspresije, ili eKTL, su genetske varijante povezane sa ekspresijom gena.
Obrazloženje korišćenja eKTL podataka je da ako je varijanta povezana sa bolešću eKTL nekog gena X, onda je X verovatno veza između varijante i bolesti. Problem sa ovim rezonovanjem je, međutim, da obližnje varijante i eKTL-ovi drugih gena mogu biti u korelaciji sa eKTL gena X dok direktno utiču na bolest, što dovodi do lažno pozitivnih .
Razvijene su mnoge metode za nominovanje gena rizika iz GVAS-a koristeći eKTL podatke, ali svi oni pate od ovog fundamentalnog problema zbunjivanja od strane obližnjih udruženja. U stvari, postojeće metode mogu generisati lažno pozitivne gene više od 50% vremena.
U novoj studiji, prof. On i dr Matthev Stephens, profesor Ralph V. Gerard i predsjedavajući katedre za statistiku i profesor ljudske genetike, razvili su novu metodu nazvanu kauzalno-transkriptom-vide Association Studies, ili cTVAS, koji koristi napredne statističke tehnike za smanjenje lažnih pozitivnih stopa. Umesto da se fokusira na samo jedan gen u isto vreme, novi cTVAS model obuhvata više gena i varijanti. Koristeći Bajesov model višestruke regresije, može ukloniti zbunjujuće gene i varijante.