ChatGPT nadmašuje studente medicine u odgovaranju na složena pitanja

ChatGPT nadmašuje studente medicine u odgovaranju na složena pitanja

ChatGPT može nadmašiti studente prve i druge godine medicine u odgovaranju na izazovna pitanja ispita iz kliničke nege, otkrila je nova studija istraživača sa Stanforda. Nalazi ističu ubrzani uticaj veštačke inteligencije (AI) na medicinsko obrazovanje i kliničku praksu i sugerišu potrebu za novim pristupom podučavanju budućih lekara.

ChatGPT je najpoznatiji od velikih jezičkih modela AI sistema koji su osvojili svet u poslednjih nekoliko meseci. Sistemi su obučeni za čitav korpus internet sadržaja i funkcionišu kao onlajn chat botovi, omogućavajući korisnicima da unose tekst, a zatim brzo primaju automatski generisani, ljudski tekst kao odgovor.

Nedavne studije su pokazale da ChatGPT može uspešno da reši pitanja sa višestrukim izborom na ispitu za medicinsku licencu Sjedinjenih Država (USMLE), koji lekari moraju da polože da bi se bavili medicinom. Autori sa Stanforda su želeli da istraže kako sistem veštačke inteligencije može da se nosi sa težim, otvorenim pitanjima koja se koriste za procenu veština kliničkog rezonovanja studenata prve i druge godine na Stanfordu. Ova pitanja otkrivaju detalje slučaja pacijenta u diskretnim pasusima razdvojenim pitanjima koja od učenika traže da izvode veštine kliničkog rasuđivanja, kao što je iznalaženje mogućih dijagnoza.

U svom nedavno objavljenom članku u JAMA Internal Medicine, istraživači su otkrili da je model u proseku postigao više od četiri poena više od studenata na ovom delu ispita sa izveštajem o slučaju.

„Bili smo veoma iznenađeni koliko je dobro ChatGPT uradio ove vrste pitanja o medicinskom rasuđivanju sa slobodnim odgovorom tako što smo premašili rezultate ljudi koji su polagali testove“, kaže Erik Strong, bolničar i klinički vanredni profesor na Medicinskom fakultetu Stanforda i autor studija.

„Sa ovakvim rezultatima, vidimo da je priroda podučavanja i testiranja medicinskog rasuđivanja kroz pisani tekst preokrenuta novim alatima“, kaže koautorka Alicia DiGiammarino, menadžer za edukaciju Medicinske prakse u 2. godini na Medicinskom fakultetu. „ChatGPT i drugi slični programi menjaju način na koji podučavamo i na kraju praktikujemo medicinu.

Nova studija koristila je najnoviju verziju ChatGPT-a, nazvanu GPT-4, koja je objavljena u martu 2023. Studija se nastavlja na prethodnu studiju koju su Strong i DiGiammarino vodili, a koja je uključivala prethodnu verziju, GPT-3.5, koju je objavio San Proizvođač sa sedištem u Francisku, OpenAI, u novembru 2022.

Za obe studije, istraživači sa Stanforda su sastavili 14 slučajeva kliničkog rasuđivanja. Slučajevi, sa tekstualnim opisima koji se kreću od nekoliko stotina reči do hiljadu reči, sadrže bezbroj stranih detalja, kao što su nepovezana hronična medicinska stanja i lekovi, baš kao i medicinske karte pacijenata u stvarnom životu. Tokom ispita, ispitanici moraju da napišu odgovore duge paragrafe na niz pitanja postavljenih nakon svakog izveštaja o slučaju.

Analiziranje teksta i sastavljanje originalnih odgovora na ovaj način je u suprotnosti sa uporednom jednostavnošću USMLE test pitanja sa više odgovora. Ta pitanja se sastoje od kratkog pasusa, upita i pet mogućih odgovora. Skoro sve navedene informacije su relevantne za pravi odgovor.

„Nije mnogo iznenađujuće da bi ChatGPT i programi poput njega dobro prošli na pitanjima sa višestrukim izborom“, kaže Strong. „Sve što se govori ispitanicima je centralni deo pitanja, tako da je to uglavnom pamćenje informacija. Daleko teže brdo za penjanje je otvoreno pitanje sa slobodnim odgovorom.“

Međutim, jedna mala pomoć koja je ChatGPT-u bila potrebna pre postavljanja pitanja zasnovana na slučaju je brz inženjering. Pošto se ChatGPT oslanja na ceo internet, možda neće pravilno protumačiti termine koji se odnose na zdravstvenu zaštitu i koji se koriste u testu. Primer je „lista problema“, koja se odnosi na prošla i sadašnja medicinska pitanja pacijenata, ali se može pojaviti u drugim nemedicinskim kontekstima.

Nakon što su prilagodili neka pitanja u skladu sa tim, istraživači sa Stanforda su uneli informacije u ChatGPT, snimili odgovore chatbot-a i preneli ih iskusnim studentima. Ocene programa AI su zatim upoređene sa studentima prve i druge godine medicine koji su se bavili istim slučajevima.

U prethodnoj studiji, GPT-3.5 je bio „granični prolaz“ u svojim odgovorima, kaže Strong. U novoj studiji sa GPT-4, međutim, chatbot je postigao u proseku 4,2 poena više od učenika i objavio je prolaznu ocenu u 93 procenta vremena naspram 85 procenata učenika.

Međutim, kao što je ChatGPT bio dobar, nije bio besprekoran. Posebno zabrinjavajuće pitanje koje se značajno smanjilo sa GPT-4 u odnosu na 3.5 bila je konfabulacija — dodavanje lažnih detalja, kao što je pacijent koji ima groznicu, a u stvari pacijent nije u određenoj studiji slučaja. Konfabulatorna „lažna sećanja“ mogu da potiču od mešanja, gde ChatGPT izvlači informacije iz sličnih slučajeva.

Što se tiče integriteta polaganja testova i dizajna nastavnog plana i programa, uticaj ChatGPT-a se već oseća na Medicinskom fakultetu u Stanfordu. U prošlom semestru, školski administratori su odlučili da prebace ispite sa otvorene knjige – što znači sa pristupom internetu na ChatGPT – na zatvorenu knjigu. Učenici sada moraju da razmišljaju kroz pitanja zasnovana isključivo na pamćenju. Iako ovaj pristup ima svoje prednosti, glavni nedostatak, kaže DiGiammarino, je to što ispiti više ne procenjuju sposobnosti studenata da prikupe informacije iz izvora – što je ključna veština u kliničkoj nezi.

Veoma svesni ovog problema, profesori i osoblje Medicinskog fakulteta počeli su da se sastaju kao radna grupa za veštačku inteligenciju. Grupa razmatra ažuriranje nastavnog plana i programa koji će uključiti AI alate za dopunu učenja učenika, a sve u cilju pedagoške pripreme budućih kliničara.

„Ne želimo doktore koji su se toliko oslanjali na veštačku inteligenciju u školi da nisu uspeli da nauče kako da sami razmišljaju o slučajevima“, kaže DiGiammarino. „Ali više se plašim sveta u kome lekari nisu obučeni da efikasno koriste veštačku inteligenciju i smatraju da ona preovlađuje u modernoj praksi.“

„Možda smo decenijama udaljeni od bilo čega poput veleprodajne zamene lekara“, dodaje Strong. „Ali samo nekoliko godina nas deli od toga da ugradimo AI u svakodnevnu medicinu.“