Ako se ChatGPT oslobodi u Odeljenju za hitne slučajeve, to bi moglo predložiti nepotrebne rendgenske snimke i antibiotike za neke pacijente i primiti druge kojima nije bilo potrebno bolničko lečenje, pokazalo je novo istraživanje UC San Francisco.
Istraživači su rekli da, iako bi model mogao biti podstaknut na načine koji čine njegove odgovore tačnijim, on još uvek ne može da se poredi sa kliničkom procenom lekara.
„Ovo je dragocena poruka kliničarima da ne veruju slepo ovim modelima“, rekao je postdoktorski naučnik Chris Villiams, MB BChir, glavni autor studije, koja se pojavljuje 8. oktobra u Nature Communications. „ChatGPT može da odgovori na pitanja medicinskog pregleda i da pomogne u izradi kliničkih beleški, ali trenutno nije dizajniran za situacije koje zahtevaju više razmatranja, kao što su situacije u odeljenju za hitne slučajeve.
Nedavno, Vilijams je pokazao da je ChatGPT, model velikog jezika (LLM) koji se može koristiti za istraživanje kliničkih primena AI, bio nešto bolji od ljudi u određivanju koji od dva hitna pacijenta je najteže bolestan, što je jednostavan izbor između pacijenta A i pacijenta. B.
Sa trenutnom studijom, Vilijams je izazvao AI model da izvrši složeniji zadatak: pružanje preporuka koje lekar daje nakon prvobitnog pregleda pacijenta u ED. Ovo uključuje odlučivanje da li ćete primiti pacijenta, dobiti rendgenske snimke ili druge skeniranje ili prepisati antibiotike.
Za svaku od tri odluke, tim je sastavio set od 1.000 poseta ED za analizu iz arhive od više od 251.000 poseta. Skupovi su imali isti odnos odgovora „da“ i „ne“ za odluke o prijemu, radiologiji i antibioticima koji se mogu videti u Odeljenju za hitne slučajeve UCSF Health.
Koristeći UCSF-ovu sigurnu generativnu AI platformu, koja ima široku zaštitu privatnosti, istraživači su unosili beleške lekara o simptomima svakog pacijenta i nalazima pregleda u ChatGPT-3.5 i ChatGPT-4. Zatim su testirali tačnost svakog seta nizom sve detaljnijih upita.
Sve u svemu, AI modeli su imali tendenciju da preporučuju usluge češće nego što je bilo potrebno. ChatGPT-4 je bio 8% manje tačan od stalnih lekara, a ChatGPT-3.5 je bio 24% manje tačan.
Vilijams je rekao da sklonost veštačke inteligencije da prepisuje preterano može biti zato što su modeli obučeni na internetu, gde legitimni sajtovi sa medicinskim savetima nisu dizajnirani da odgovore na hitna medicinska pitanja, već da šalju čitaoce lekaru koji može.
„Ovi modeli su skoro fino podešeni da kažu „potražite savet lekara“, što je sasvim ispravno iz perspektive opšte javne bezbednosti“, rekao je on. „Ali greška na strani opreza nije uvek prikladna u ED okruženju, gde nepotrebne intervencije mogu naneti štetu pacijentima, opteretiti resurse i dovesti do većih troškova za pacijente.“
Rekao je da će modelima kao što je ChatGPT biti potrebni bolji okviri za procenu kliničkih informacija pre nego što budu spremni za ED. Ljudi koji dizajniraju te okvire moraće da uspostave ravnotežu između obezbeđivanja da veštačka inteligencija ne propusti nešto ozbiljno, dok istovremeno ne izaziva nepotrebne ispite i troškove.
To znači da istraživači koji razvijaju medicinske primene AI, zajedno sa širom kliničkom zajednicom i javnošću, moraju da razmotre gde da povuku te linije i koliko da pogreše na strani opreza.
„Ne postoji savršeno rešenje“, rekao je on, „ali znajući da modeli poput ChatGPT-a imaju ove tendencije, zaduženi smo da razmislimo o tome kako želimo da se ponašaju u kliničkoj praksi.“