Nedavni pregled pokazuje da je ChatGPT-4, program veštačke inteligencije dizajniran da razume i generiše tekst nalik čoveku, nadmašio specijalitete interne medicine i lekare u dva akademska medicinska centra u obradi medicinskih podataka i demonstriranju kliničkog zaključivanja.
U istraživačkom pismu objavljenom u JAMA Internal Medicine, lekari-naučnici iz Beth Israel Deaconess Medical Center (BIDMC) uporedili su sposobnosti rasuđivanja velikog jezičkog modela (LLM) direktno sa ljudskim performansama koristeći standarde razvijene za procenu lekara.
„Veoma rano je postalo jasno da LLM mogu da postavljaju dijagnoze, ali svako ko se bavi medicinom zna da u medicini postoji mnogo više od toga“, rekao je Adam Rodman MD, lekar interne medicine i istraživač na odeljenju za medicinu u BIDMC-u.
„Postoji više koraka iza dijagnoze, pa smo želeli da procenimo da li su LLM dobri kao lekari u takvoj vrsti kliničkog zaključivanja. Iznenađujuće je otkriće da su ove stvari sposobne da pokažu ekvivalentno ili bolje rezonovanje od ljudi tokom evolucije kliničkog slučaja“.
Rodman i kolege su koristili prethodno validiran alat razvijen za procenu kliničkog rezonovanja lekara nazvan revidirani-IDEA (r-IDEA) rezultat. Istraživači su angažovali 21 lekara i 18 specijalizanata od kojih je svaki radio na jednom od 20 odabranih kliničkih slučajeva koji se sastoje od četiri uzastopne faze dijagnostičkog zaključivanja.
Autori su uputili lekare da napišu i opravdaju svoje diferencijalne dijagnoze u svakoj fazi. Chatbot GPT-4 je dobio upit sa identičnim uputstvima i pokrenuo je svih 20 kliničkih slučajeva. Njihovi odgovori su zatim ocenjeni za kliničko rezonovanje (r-IDEA rezultat) i nekoliko drugih mera rasuđivanja.
„Prva faza su podaci o trijaži, kada vam pacijent kaže šta ga muči i vi dobijete vitalne znake“, rekla je glavni autor Stephanie Cabral, MD, treća godina interne medicine na BIDMC-u. „Druga faza je pregled sistema, kada dobijate dodatne informacije od pacijenta. Treća faza je fizički pregled, a četvrta je dijagnostičko testiranje i snimanje.“
Rodman, Cabral i njihove kolege su otkrili da je chatbot zaradio najviše r-IDEA ocene, sa srednjom ocenom od 10 od 10 za LLM, 9 za lekare koji prisustvuju i 8 za specijalizante. Bilo je više nerešeno između ljudi i bota kada je u pitanju dijagnostička tačnost – koliko je visoko tačna dijagnoza bila na listi dijagnoze koju su dali – i ispravno kliničko rezonovanje.
Ali botovi su takođe „jednostavno pogrešili“ – imali su više slučajeva netačnog rezonovanja u svojim odgovorima – znatno češće od stanovnika, otkrili su istraživači. Ovaj nalaz naglašava ideju da će AI verovatno biti najkorisniji kao alat za povećanje, ali ne i zamenu procesa ljudskog rasuđivanja.
„Potrebne su dalje studije da bi se utvrdilo kako se LLM najbolje integrišu u kliničku praksu, ali čak i sada bi mogli biti korisni kao kontrolna tačka, pomažući nam da osiguramo da nešto ne propustimo“, rekao je Cabral. „Moja krajnja nada je da će AI poboljšati interakciju pacijenta i lekara tako što će smanjiti neke od neefikasnosti koje trenutno imamo i omogućiti nam da se više fokusiramo na razgovor koji vodimo sa našim pacijentima.
„Rane studije su sugerisale da bi veštačka inteligencija mogla da postavlja dijagnoze, ako joj se predaju sve informacije“, rekao je Rodman. „Ono što naša studija pokazuje je da AI demonstrira pravo rezonovanje—možda bolje rezonovanje od ljudi kroz više koraka procesa. Imamo jedinstvenu šansu da poboljšamo kvalitet i iskustvo zdravstvene zaštite pacijenata.“