Naučnici osmišljavaju novi način da se proceni tačnost radioloških izveštaja generisanih veštačkom inteligencijom

Naučnici osmišljavaju novi način da se proceni tačnost radioloških izveštaja generisanih veštačkom inteligencijom

AI alati koji brzo i precizno kreiraju detaljne narativne izveštaje o pacijentovom CT skeniranju ili rendgenskom snimku mogu u velikoj meri da olakšaju posao zauzetim radiolozima.

Umesto da samo identifikuju prisustvo ili odsustvo abnormalnosti na slici, ovi izveštaji AI prenose složene dijagnostičke informacije, detaljne opise, nijansirane nalaze i odgovarajuće stepene neizvesnosti. Ukratko, oni odražavaju kako ljudski radiolozi opisuju ono što vide na skeniranju.

Nekoliko AI modela sposobnih da generišu detaljne narativne izveštaje počelo je da se pojavljuje na sceni. Sa njima su došli automatizovani sistemi za bodovanje koji periodično procenjuju ove alate kako bi pomogli u njihovom razvoju i poboljšali njihov učinak.

Dakle, koliko dobro trenutni sistemi mere radiološke performanse AI modela?

Odgovor je dobar, ali ne i sjajan, prema novoj studiji istraživača sa Harvardske medicinske škole objavljenoj 3. avgusta u časopisu Patterns.

Osiguranje da su sistemi bodovanja pouzdani je ključno za AI alate da nastave da se poboljšavaju i da im kliničari veruju, rekli su istraživači, ali metrika testirana u studiji nije uspela da pouzdano identifikuje kliničke greške u izveštajima AI, od kojih su neke značajne. Ovo otkriće, kažu istraživači, naglašava hitnu potrebu za poboljšanjem i važnost dizajniranja sistema za bodovanje visoke vernosti koji verno i precizno prate performanse alata.

Tim je testirao različite metrike ocenjivanja na narativnim izveštajima koje je generisala veštačka inteligencija. Istraživači su takođe zatražili od šest ljudskih radiologa da pročitaju izveštaje generisane veštačkom inteligencijom.

Analiza je pokazala da su u poređenju sa ljudskim radiolozima, automatizovani sistemi za bodovanje lošiji u svojoj sposobnosti da procene izveštaje generisane veštačkom inteligencijom. Pogrešno su protumačili i, u nekim slučajevima, previdjeli kliničke greške koje je napravio AI alat.

„Precizna procena sistema veštačke inteligencije je ključni prvi korak ka generisanju radioloških izveštaja koji su klinički korisni i verodostojni“, rekao je viši autor studije Pranav Rajpurkar, docent biomedicinske informatike na Institutu Blavatnik na HMS.

U nastojanju da dizajnira bolje metrike ocenjivanja, tim je dizajnirao novu metodu (RadGraph F1) za procenu performansi AI alata koji automatski generišu radiološke izveštaje iz medicinskih slika.

Takođe su dizajnirali kompozitni alat za procenu (RadCliK) koji kombinuje više metrika u jedan rezultat koji bolje odgovara načinu na koji bi ljudski radiolog procenio performanse AI modela.

Koristeći ove nove alate za bodovanje za procenu nekoliko najsavremenijih AI modela, istraživači su otkrili primetan jaz između stvarnog rezultata modela i najviše moguće ocene.

„Merenje napretka je imperativ za unapređenje veštačke inteligencije u medicini na sledeći nivo“, rekla je prva autorka Feiiang „Kathi’ Iu, istraživačka saradnica u laboratoriji Rajpurkar. „Naša kvantitativna analiza nas približava veštačkoj inteligenciji koja povećava radiologe kako bi obezbedili bolje briga o pacijentima.“

Dugoročno, vizija istraživača je da izgrade opšte medicinske modele veštačke inteligencije koji obavljaju niz složenih zadataka, uključujući sposobnost rešavanja problema sa kojima se nikada ranije nisu susreli. Takvi sistemi, rekao je Rajpurkar, mogli bi tečno razgovarati sa radiolozima i lekarima o medicinskim slikama kako bi pomogli u dijagnozi i odlukama o lečenju.

Tim takođe ima za cilj da razvije AI asistente koji mogu da objasne i kontekstualizuju nalaze slika direktno pacijentima koristeći svakodnevni običan jezik.

„Boljim usklađivanjem sa radiolozima, naša nova metrika će ubrzati razvoj veštačke inteligencije koja se neprimetno integriše u klinički radni tok radi poboljšanja nege pacijenata“, rekao je Rajpurkar.