Uprkos napretku veštačke inteligencije, ljudski nadzor je i dalje od suštinskog značaja

Najsavremeniji sistemi veštačke inteligencije poznati kao modeli velikih jezika (LLM) su loši medicinski koderi, prema istraživačima sa Medicinske škole Ikan na planini Sinaj. Njihova studija, objavljena u onlajn izdanju NEJM AI od 19. aprila, naglašava neophodnost usavršavanja i validacije ovih tehnologija pre razmatranja kliničke primene.

Studija je izdvojila listu od više od 27.000 jedinstvenih dijagnoza i kodova procedura iz 12 meseci rutinske nege u zdravstvenom sistemu Mount Sinai, isključujući podatke o pacijentima koji se mogu identifikovati. Koristeći opis za svaki kod, istraživači su podstakli modele iz OpenAI, Google i Meta da daju najtačnije medicinske kodove. Generisani kodovi su upoređeni sa originalnim kodovima i analizirane su greške za bilo koje šablone.

Istraživači su izvestili da su svi proučavani modeli velikih jezika, uključujući GPT-4, GPT-3.5, Gemini-pro i Llama-2-70b, pokazali ograničenu tačnost (ispod 50%) u reprodukciji originalnih medicinskih kodova, naglašavajući značajan jaz u njihovoj korisnosti za medicinsko kodiranje. GPT-4 je pokazao najbolje performanse, sa najvišim stopama tačnog podudaranja za ICD -9-CM (45,9%), ICD-10-CM (33,9%) i CPT kodove (49,8%).

GPT-4 je takođe proizveo najveći procenat pogrešno generisanih kodova koji su i dalje prenosili tačno značenje. Na primer, kada mu je dat opis ICD-9-CM „nodularna prostata bez opstrukcije urina“, GPT-4 je generisao kod za „nodularnu prostatu“, pokazujući svoje relativno nijansirano razumevanje medicinske terminologije. Međutim, čak i s obzirom na ove tehnički ispravne kodove, ostao je neprihvatljivo veliki broj grešaka.

Sledeći model sa najboljim učinkom, GPT-3.5, imao je najveću tendenciju da bude neodređen. Imao je najveći udeo pogrešno generisanih kodova koji su bili tačni, ali opštije prirode u poređenju sa preciznim kodovima. U ovom slučaju, kada se dobije sa ICD-9-CM opisom „neodređeni neželjeni efekti anestezije“, GPT-3.5 je generisao kod za „druge navedene štetne efekte, koji nisu klasifikovani na drugom mestu“.

„Naši nalazi naglašavaju kritičnu potrebu za rigoroznom procenom i usavršavanjem pre primene AI tehnologija u osetljivim operativnim oblastima kao što je medicinsko kodiranje“, kaže autor studije Ali Soroush, MD, MS, docent za digitalnu medicinu vođenu podacima (D3M) i Medicina (gastroenterologija), na planini Ikan Sinaj.

„Iako AI ima veliki potencijal, mora mu se pristupiti sa oprezom i stalnim razvojem kako bi se osigurala njegova pouzdanost i efikasnost u zdravstvenoj zaštiti.“

Jedna potencijalna primena ovih modela u industriji zdravstvene zaštite, kažu istraživači, je automatizacija dodeljivanja medicinskih kodova za nadoknadu i istraživačke svrhe na osnovu kliničkog teksta.

„Prethodne studije pokazuju da se noviji veliki jezički modeli bore sa numeričkim zadacima. Međutim, stepen njihove tačnosti u dodeljivanju medicinskih kodova iz kliničkog teksta nije bio temeljno istražen u različitim modelima“, kaže ko-stariji autor Ejal Klang, MD, direktor D3M-ov generativni istraživački program veštačke inteligencije.

„Stoga, naš cilj je bio da procenimo da li ovi modeli mogu efikasno da izvrše osnovni zadatak usklađivanja medicinskog koda sa njegovim odgovarajućim zvaničnim tekstualnim opisom.

Autori studije su predložili da bi integracija LLM-a sa stručnim znanjem mogla automatizovati ekstrakciju medicinskog koda, potencijalno poboljšati tačnost naplate i smanjiti administrativne troškove u zdravstvenoj zaštiti.

„Ova studija baca svetlo na trenutne mogućnosti i izazove veštačke inteligencije u zdravstvenoj zaštiti, naglašavajući potrebu za pažljivim razmatranjem i dodatnim usavršavanjem pre široko rasprostranjenog usvajanja“, kaže ko-stariji autor Girish Nadkarni, MD, MPH, Irene i dr Arthur M. Fishberg Profesor medicine na Icahn Mount Sinai, direktor Instituta za personalizovanu medicinu Charles Bronfman i šef sistema D3M.

Istraživači upozoravaju da veštački zadatak studije možda neće u potpunosti predstavljati scenarije u stvarnom svetu gde bi učinak LLM mogao biti lošiji.

Zatim, istraživački tim planira da razvije prilagođene LLM alate za precizno izdvajanje medicinskih podataka i dodelu kodova za naplatu, sa ciljem da poboljša kvalitet i efikasnost u operacijama zdravstvene zaštite.

Uprkos napretku veštačke inteligencije, ljudski nadzor je i dalje od suštinskog značaja