Veliki jezički modeli su korisni u procesu recenzije

Veliki jezički modeli su korisni u procesu recenzije

U eri u kojoj su zlonamerni izvori preplavili internet pogrešnim predstavljanjima, izobličenjima, izmanipulisanim slikama i otvorenim lažima, trebalo bi da bude neka uteha da u bar jednoj areni postoji sistem časti koji je uspostavljen da obezbedi poštenje i integritet: kolega -proces recenzije naučnih publikacija.

Kada podnose članke o istraživanjima koja su uradili, naučnici, lekari, specijalisti u bezbrojnim oblastima stručnosti rutinski šalju svoj rad publikacijama koje zauzvrat regrutuju stručnjake u istoj oblasti da pažljivo pregledaju svoje radove.

Proveravaju tačnost, odgovornost i kvalitet. Ako rad ne ispuni visoke standarde publikacije, vraća se sa preporučenim korekcijama ili se odbija. Kada rad prođe ono što je često robustan, izazovan pregled, spreman je za objavljivanje.

Kao što je novinar Vašington Posta, dobitnik Pulicerove nagrade, Kris Muni rekao: „Čak i ako su pojedinačni istraživači skloni da se zaljube u sopstvene teorije, širi proces recenzije kolega i institucionalizovani skepticizam su osmišljeni da osiguraju da, na kraju, najbolje ideje prevladaju .“

„Peer review“ postoji dugo vremena. The Philosophical Transactions of the Royal Society uspostavila je formalnu proceduru za prihvatanje članaka još u 17. veku, i veruje se da je prva koja je usvojila ono što je postalo poznato kao peer reviev.

Procenjuje se da se godišnje objavi 5,14 miliona recenziranih članaka, sa više od 100 miliona sati posvećenih tim recenzijama.

U tom kontekstu, istraživači na Univerzitetu Stanford istražili su kako bi LLM mogli doprinijeti procesu pregleda.

Navodeći dugo vreme čekanja na recenziju (u proseku četiri meseca), troškove (2,5 milijardi dolara godišnje) i probleme u obezbeđivanju kvalifikovanih recenzenata koji rade besplatno, istraživači su rekli da bi se pomoć LLM-a mogla pokazati veoma korisnom za publikacije i autore.

„Sve je teže dobiti visokokvalitetne recenzije kolega“, rekao je Veikin Liang, autor rada, „Mogu li veliki jezički modeli pružiti korisne povratne informacije o istraživačkim radovima? Empirijska analiza velikih razmera“, objavljena na serveru za preprint arXiv. „Istraživači koji su mlađi ili iz okruženja sa nedovoljno resursa imaju posebno teška vremena da dobiju pravovremene povratne informacije.“

Oni su testirali svoju teoriju upoređujući povratne informacije recenzenta o nekoliko hiljada radova iz časopisa Nature i konferencije o mašinskom učenju Međunarodne konferencije o reprezentacijama učenja sa recenzijama koje je generisao GPT-4. Otkrili su između 31% i 39% preklapanja u tačkama koje su prikupili ljudi i mašinski generisani pregledi. Na slabijim podnescima (članci koji su odbijeni), GPT-4 je bio još bolji, preklapajući se sa ljudskim bodovnicima 44% vremena.

Istraživači su takođe kontaktirali autore tih radova i otkrili da je više od polovine opisalo komentare GPT-4 kao korisne ili veoma korisne. A 80% autora je reklo da su povratne informacije LLM bile korisnije od „barem nekih“ ljudskih recenzenata.

„Zajedno naši rezultati sugerišu da LLM i povratne informacije ljudi mogu da se dopunjuju“, rekao je Liang. On je rekao da takve recenzije mogu biti od posebne pomoći u usmjeravanju autora čiji radovi trebaju značajne revizije.

„Zaista, iznošenjem ovih zabrinutosti ranije u naučnom procesu pre pregleda, ovi radovi i nauka o kojoj izveštavaju mogu biti poboljšani“, rekao je Liang.

Jedan autor čiji je članak recenziran primetio je da je GPT-4 izneo tačke koje su recenzenti prevideli. „Pregled koji je generisao GPT predložio mi je da uradim vizuelizaciju kako bih napravio konkretniji slučaj za interpretabilnost. Takođe je tražio da se pozabavim pitanjima privatnosti podataka. Oba su važna, a ljudski recenzenti su propustili ovu tačku“, rekao je autor.

Izveštaj je, međutim, upozorio da LLM nisu zamena za ljudski nadzor. Naveli su neka ograničenja, kao što su recenzije koje su bile previše nejasne, neuspeh da obezbede „specifične tehničke oblasti poboljšanja“, a u nekim slučajevima i nedostatak „dubinske kritike arhitekture i dizajna modela“.

„Važno je napomenuti da će povratne informacije stručnjaka i dalje biti kamen temeljac rigorozne naučne evaluacije“, rekao je Liang. „Iako su uporedive i čak bolje od nekih recenzenata, trenutne povratne informacije LLM ne mogu zameniti specifične i promišljene ljudske povratne informacije stručnjaka iz domena.“