Tim kompjuterskih naučnika sa Univerziteta Purdue otkrio je da je popularni LLM, ChatGPT, veoma netačan kada odgovara na pitanja o kompjuterskom programiranju. U svom radu objavljenom u okviru Proceedings of the CHI Conference on Human Factors in Computing Sistems, grupa opisuje kako su izvukli pitanja sa veb stranice StackOverflov i postavili ih ChatGPT-u, a zatim izmerili stepen tačnosti kada su odgovarali.
Tim je takođe predstavio svoje nalaze na Konferenciji o ljudskim faktorima u računarskim sistemima (CHI 2024) održanoj od 11. do 16. maja.
ChatGPT i drugi LLM-i su bili u vestima u poslednje vreme – pošto su takve aplikacije dostupne široj javnosti, postale su veoma popularne. Nažalost, zajedno sa riznicom korisnih informacija uključenih u mnoge odgovore koje daju takve aplikacije, postoji niz netačnosti. Još žalosnije je to što nije uvek jasno kada aplikacije daju pogrešne odgovore.
U ovoj novoj studiji, tim u Purdue-u je primetio da su mnogi studenti programiranja počeli da koriste LLM ne samo da pomognu u pisanju koda za programske zadatke, već i da odgovore na pitanja u vezi sa programiranjem. Na primer, student bi mogao da pita ChatGPT, koja je razlika između sortiranja oblačića i sortiranja spajanjem, ili, još popularnije, šta je rekurzija?
Da bi saznali koliko su LLM tačni u odgovaranju na takva pitanja, istraživački tim je fokusirao svoje napore samo na jedno od njih — ChatGPT. Da bi pronašli pitanja koja će koristiti za testiranje aplikacije, istraživači su koristili pitanja koja su slobodno dostupna na veb lokaciji StackOverflov—to je sajt koji je napravljen da pomogne programerima da nauče više o programiranju radeći sa drugima u oblasti njihovog interesovanja. Na jednom delu sajta korisnici mogu postavljati pitanja na koja će odgovarati drugi koji znaju odgovore.
Istraživački tim je koristio 517 pitanja pronađenih na sajtu, a zatim je izmerio koliko često je ChatGPT davao tačan odgovor. Nažalost, to je bilo samo 52% vremena. Takođe su otkrili da su odgovori obično više opširniji nego što bi to bio slučaj kada je stručnjaku za ljude postavljeno isto pitanje.
Zabrinjavajuće, tim je otkrio da su učesnici korisničke studije preferirali odgovore koje je dao ChatGPT u 35% vremena. Istraživači su takođe otkrili da isti korisnici koji su čitali odgovore koje je dao ChatGPT prilično često nisu uhvatili greške koje su napravljene — prevideli su pogrešne odgovore 39% vremena.