Nedavna dostignuća u oblasti mašinskog učenja (ML) uveliko su poboljšala kvalitet alata za automatsko prevođenje. Trenutno se ovi alati prvenstveno koriste za prevođenje osnovnih rečenica, kao i kratkih tekstova ili nezvaničnih dokumenata.
Književne tekstove, kao što su romani ili kratke priče, još uvek u potpunosti prevode stručni ljudski prevodioci, koji imaju iskustvo u shvatanju apstraktnih i složenih značenja i prevođenju na drugi jezik. Iako je nekoliko studija istraživalo potencijal računarskih modela za prevođenje književnih tekstova, nalazi u ovoj oblasti su još uvek ograničeni.
Istraživači sa Univerziteta UMass Amherst nedavno su sproveli studiju koja istražuje kvalitet prevoda književnog teksta koje proizvode mašine, upoređujući ih sa istim prevodima teksta koje su napravili ljudi. Njihovi nalazi, prethodno objavljeni na arKsiv-u, ističu neke od nedostataka postojećih računarskih modela za prevođenje stranih tekstova na engleski.
„Mašinsko prevođenje (MT) ima potencijal da dopuni rad ljudskih prevodilaca poboljšavajući i procedure obuke i njihovu ukupnu efikasnost“, napisale su Ketrin Taj i njene kolege u svom radu. „Književno prevođenje je manje ograničeno od tradicionalnijih MT podešavanja jer prevodioci moraju da uravnoteže ekvivalentnost značenja, čitljivost i kritičku interpretabilnost na ciljnom jeziku. Ovo svojstvo, zajedno sa složenim kontekstom na nivou diskursa prisutnim u književnim tekstovima, takođe čini književni MT izazovnijim da računarski modeluje i proceni“.
Ključni cilj nedavnog rada Taji i njenih kolega bio je da bolje razumeju načine na koje najsavremeniji MT alati i dalje ne uspevaju u prevodu književnih tekstova u poređenju sa ljudskim prevodima. Nadali su se da će ovo pomoći da se identifikuju specifične oblasti na koje bi programeri trebalo da se fokusiraju kako bi poboljšali performanse ovih modela.
„Prikupljamo skup podataka (PAR3) romana koji nisu na engleskom jeziku u javnom domenu, a svaki je usklađen na nivou pasusa i sa ljudskim i sa automatskim prevodom na engleski,“ objasnile su Thai i njene kolege u svom radu.
PAR3, novi skup podataka koji su sastavili istraživači za obim svoje studije, sadrži 121.000 paragrafa izvučenih iz 118 romana koji su prvobitno napisani na različitim jezicima osim na engleskom. Za svaki od ovih paragrafa, skup podataka uključuje nekoliko različitih ljudskih prevoda, kao i prevod koji je napravio Google translate.
Istraživači su uporedili kvalitet ljudskih prevoda ovih književnih pasusa sa onima koje je napravio Google translate, koristeći uobičajene metrike za procenu MT alata. Istovremeno, pitali su stručne ljudske prevodioce koje prevode preferiraju, dok su ih takođe podsticali da identifikuju probleme sa njihovim najmanje preferiranim prevodom.
„Koristeći PAR3, otkrivamo da stručni prevodioci književnosti preferiraju referentne ljudske prevode u odnosu na mašinski prevedene pasuse sa stopom od 84%, dok najsavremenije automatske MT metrike nisu u korelaciji sa tim preferencijama“, napisale su Tajland i njene kolege. u njihovom listu. „Stručnjaci primećuju da MT izlazi sadrže ne samo pogrešne prevode, već i greške koje ometaju diskurs i stilske nedoslednosti.“
U suštini, nalazi koje su prikupile Thai i njene kolege sugerišu da metrika za procenu MT (npr. BLEU, BLEURT i BLONDE) možda neće biti naročito efikasna, jer se ljudski prevodioci nisu složili sa njihovim predviđanjima. Posebno, povratne informacije koje su prikupili od ljudskih prevodilaca takođe su omogućile istraživačima da identifikuju specifične probleme sa prevodima koje je napravio Google translate.
Koristeći povratne informacije ljudskih stručnjaka kao smernicu, tim je na kraju kreirao automatski model post-editovanja zasnovan na GPT-3, pristupu dubokog učenja koji je uvela istraživačka grupa u OpenAI. Otkrili su da stručni prevodioci preferiraju književne prevode proizvedene ovim modelom sa stopom od 69%.
U budućnosti, nalazi ove studije mogli bi da pomognu u novim studijama koje istražuju upotrebu MT alata za prevođenje književnih tekstova. Pored toga, PAR3 skup podataka koji su sastavili Tajlanđanin i njene kolege, a koji je sada javno dostupan na GitHubu, mogli bi da koriste drugi timovi za obuku ili procenu svojih jezičkih modela.
„Sve u svemu, naš rad otkriva nove izazove za napredak u književnom MT-u i nadamo se da će javno objavljivanje PAR3 podstaći istraživače da se pozabave njima“, zaključuju istraživači u svom radu.