Studija otkriva zašto AI modeli koji analiziraju medicinske slike mogu biti pristrasni

Modeli veštačke inteligencije često igraju ulogu u medicinskim dijagnozama, posebno kada je u pitanju analiza slika kao što su rendgenski snimci. Međutim, studije su otkrile da ovi modeli ne funkcionišu uvek dobro u svim demografskim grupama, obično lošije kod žena i obojenih ljudi.

Takođe se pokazalo da ovi modeli razvijaju neke iznenađujuće sposobnosti. 2022. istraživači sa MIT-a su izvestili da AI modeli mogu da naprave tačna predviđanja o rasi pacijenta na osnovu rendgenskih snimaka grudnog koša – nešto što najveštiji radiolozi ne mogu da urade.

Taj istraživački tim je sada otkrio da modeli koji su najtačniji u demografskim predviđanjima takođe pokazuju najveće „praznine u pravičnosti“ – to jest, neslaganja u njihovoj sposobnosti da precizno dijagnostikuju slike ljudi različitih rasa ili pola. Nalazi sugerišu da ovi modeli možda koriste „demografske prečice“ kada prave svoje dijagnostičke procene, što dovodi do netačnih rezultata za žene, crnce i druge grupe, kažu istraživači.

„Dobro je utvrđeno da su modeli mašinskog učenja visokog kapaciteta dobri prediktori ljudske demografije kao što su rasa, pol ili starost koju sami prijavljuju. Ovaj rad ponovo demonstrira taj kapacitet, a zatim povezuje taj kapacitet sa nedostatkom performansi u različitim grupe, što nikada nije urađeno“, kaže Marzieh Ghassemi, vanredni profesor elektrotehnike i računarstva na MIT-u, član MIT-ovog Instituta za medicinsko inženjerstvo i nauku i viši autor studije.

Istraživači su takođe otkrili da bi mogli ponovo obučiti modele na način koji poboljšava njihovu pravednost. Međutim, njihov pristup „debiasingu“ je najbolje funkcionisao kada su modeli testirani na istim tipovima pacijenata na kojima su obučeni, kao što su pacijenti iz iste bolnice. Kada su ovi modeli primenjeni na pacijente iz različitih bolnica, ponovo su se pojavile praznine u pravičnosti.

„Mislim da su glavni zaključci, prvo, trebalo bi da temeljno procenite sve eksterne modele na osnovu sopstvenih podataka jer bilo kakva pravičnost garantuje da programeri modela daju svoje podatke o obuci možda neće preneti na vašu populaciju. Drugo, kad god je dovoljno podataka dostupno, trebalo bi da obučite modele na osnovu sopstvenih podataka“, kaže Haoran Zhang, diplomirani student MIT-a i jedan od vodećih autora novog rada.

Diplomirani student MIT-a Iuzhe Iang je takođe vodeći autor rada, koji će se pojaviti u časopisu Prirodna medicina. Judi Gichoia, vanredni profesor radiologije i imidžing nauka na Medicinskom fakultetu Univerziteta Emori, i Dina Katabi, Thuan i Nicole Pham profesor elektrotehnike i računarskih nauka na MIT-u, takođe su autori rada.

Od maja 2024. godine, FDA je odobrila 882 medicinska uređaja sa AI-om, od kojih je 671 dizajniran za upotrebu u radiologiji. Od 2022. godine, kada su Gasemi i njene kolege pokazali da ovi dijagnostički modeli mogu tačno da predvide rasu, oni i drugi istraživači su pokazali da su takvi modeli takođe veoma dobri u predviđanju pola i starosti, iako modeli nisu obučeni za te zadatke.

„Mnogi popularni modeli mašinskog učenja imaju nadljudski kapacitet demografskog predviđanja – radiolozi ne mogu da otkriju rasu koju su sami prijavili na rendgenskom snimku grudnog koša“, kaže Ghassemi. „Ovo su modeli koji su dobri u predviđanju bolesti, ali tokom treninga uče da predviđaju druge stvari koje možda nisu poželjne.“

U ovoj studiji, istraživači su pokušali da istraže zašto ovi modeli ne funkcionišu tako dobro za određene grupe. Konkretno, želeli su da vide da li modeli koriste demografske prečice za predviđanja koja su na kraju bila manje tačna za neke grupe. Ove prečice se mogu pojaviti u AI modelima kada koriste demografske atribute da utvrde da li je prisutno zdravstveno stanje, umesto da se oslanjaju na druge karakteristike slika.

Koristeći javno dostupne skupove rendgenskih snimaka grudnog koša iz medicinskog centra Beth Israel Deaconess u Bostonu, istraživači su obučili modele da predvide da li pacijenti imaju jedno od tri različita medicinska stanja: nakupljanje tečnosti u plućima, kolaps pluća ili povećanje srca. Zatim su testirali modele na rendgenskim zracima koji su izvučeni iz podataka o obuci.

Sve u svemu, modeli su se dobro pokazali, ali većina njih je pokazala „nedostatke u pravičnosti“ — to jest, neslaganja između stopa tačnosti za muškarce i žene, i za bele i crne pacijente.

Modeli su takođe mogli da predvide pol, rasu i starost rendgenskih subjekata. Pored toga, postojala je značajna korelacija između tačnosti svakog modela u pravljenju demografskih predviđanja i veličine njegovog jaza u pravičnosti. Ovo sugeriše da modeli možda koriste demografske kategorizacije kao prečicu za predviđanje bolesti.

Istraživači su zatim pokušali da smanje praznine u pravičnosti koristeći dve vrste strategija. Za jedan skup modela, obučili su ih da optimizuju „robusnost podgrupe“, što znači da su modeli nagrađeni za bolje performanse u podgrupi za koju imaju najlošije performanse i kažnjeni ako je njihova stopa grešaka za jednu grupu veća od drugi.

U drugom skupu modela, istraživači su ih primorali da uklone sve demografske informacije sa slika, koristeći pristupe „grupnog suparništva“. Obe ove strategije su funkcionisale prilično dobro, otkrili su istraživači.

„Za podatke u distribuciji možete koristiti postojeće najsavremenije metode da biste smanjili praznine u pravičnosti bez značajnih kompromisa u ukupnom učinku“, kaže Ghassemi. „Metode robusnosti podgrupe primoravaju modele da budu osetljivi na pogrešno predviđanje određene grupe, a grupne kontradiktorne metode pokušavaju da potpuno uklone informacije o grupi.

Međutim, ovi pristupi su funkcionisali samo kada su modeli testirani na podacima od istih tipova pacijenata na kojima su bili obučeni – na primer, samo pacijenti iz skupa podataka Beth Israel Deaconess Medical Center.

Kada su istraživači testirali modele koji su bili „debiased” koristeći BIDMC podatke za analizu pacijenata iz pet drugih bolničkih skupova podataka, otkrili su da je ukupna tačnost modela ostala visoka, ali su neki od njih pokazali velike praznine u pravičnosti.

„Ako poništite model kod jednog skupa pacijenata, ta pravičnost ne mora nužno da važi dok prelazite u novi skup pacijenata iz druge bolnice na drugoj lokaciji“, kaže Zhang.

Ovo je zabrinjavajuće jer u mnogim slučajevima bolnice koriste modele koji su razvijeni na osnovu podataka iz drugih bolnica, posebno u slučajevima kada se kupuje gotov model, kažu istraživači.

„Otkrili smo da čak i najsavremeniji modeli koji imaju optimalne performanse u podacima sličnim njihovim skupovima za obuku nisu optimalni – to jest, ne prave najbolji kompromis između ukupnih i podgrupinih performansi – u novim postavkama, “, kaže Ghassemi. „Nažalost, ovo je način na koji će se model verovatno primeniti. Većina modela se obučava i validira podacima iz jedne bolnice ili jednog izvora, a zatim se široko primenjuje.“

Istraživači su otkrili da su modeli koji su obezbijeđeni korišćenjem grupnih suparničkih pristupa pokazali nešto više pravičnosti kada su testirani na novim grupama pacijenata od onih koji su debilisani pomoću metoda robusnosti podgrupa. Oni sada planiraju da pokušaju da razviju i testiraju dodatne metode kako bi videli da li mogu da kreiraju modele koji bolje rade na pravičnim predviđanjima na novim skupovima podataka.

Nalazi sugerišu da bolnice koje koriste ove vrste AI modela treba da ih procene na svojoj populaciji pacijenata pre nego što počnu da ih koriste, kako bi se uverile da ne daju netačne rezultate za određene grupe.

Pročitajte još