Problemi mašinskog prevođenja na internetu: Više od polovine prevoda lošeg kvaliteta

Problemi mašinskog prevođenja na internetu: Više od polovine prevoda lošeg kvaliteta

Krajem prošlog veka, Bil Gejts je uvideo mogućnost ujedinjenja građana skoro 200 zemalja, koji govore više od 7.000 jezika, okupljajući se u zajedničkom dijalogu kroz naglo rastuću veb zajednicu.

„Internet postaje gradski trg za globalno selo sutrašnjice“, izjavio je on.

Internet je od tada svakako približio svet i nemerljivo je obogatio globalne komunikacije, trgovinu, istraživanje i zabavu.

Ali nedavni izveštaj nas podseća – kao da nam je zaista potrebno podsećanje – da uz napredak ponekad dolaze i problemi.

Istraživači iz laboratorije za veštačku inteligenciju Amazon Veb Services i Univerziteta Kalifornije u Santa Barbari kažu da su nakon ispitivanja više od 6 milijardi rečenica širom veba otkrili da je više od polovine prevedeno na dva ili više različitih jezika. Prevodi su, kako su otkrili, često bili loši. I sa svakim uzastopnim prevodom na druge jezike, neki do osam ili devet, rezultati su postajali sve gori.

Izveštaj, „Šokantna količina veba je mašinski prevedena: uvidi iz višesmernog paralelizma“, postavljen je na server za preprint arKsiv 11. januara.

„Nizak kvalitet ovih… prevoda ukazuje na to da su oni verovatno napravljeni korišćenjem mašinskog prevoda“, navode autori. „Naš rad izaziva ozbiljnu zabrinutost u vezi sa modelima obuke kao što su višejezični modeli velikih jezika i na jednomezičnim i na dvojezičnim podacima izvučenim sa veba.

Istraživači su rekli da tekstove ne prevodi samo veštačka inteligencija, već ih stvara i veštačka inteligencija. Oni su primetili da su stope prevoda koje je generisala veštačka inteligencija bile najveće među jezicima sa nižim resursima, kao što su Volof i Khosa, afrički jezici.

„Smatramo da su veoma višesmerni paralelni prevodi znatno slabijeg kvaliteta od dvosmernih paralelnih prevoda“, nastavljaju autori.

To znači da će se, pošto se trilioni bitova podataka unose za operacije obuke veštačke inteligencije, regioni nedovoljno zastupljeni na vebu, kao što su afričke nacije i druge zemlje sa nejasnijim jezicima, suočiti sa većim izazovima u uspostavljanju pouzdanih — i gramatičkih — velikih jezičkih modela . Sa malo izvornih resursa na koje mogu da se oslone, moraju se u velikoj meri oslanjati na pokvarene prevode koji preplavljuju tržište.

Mehak Dhalival, bivši pripravnik za primenjenu nauku u Amazon Veb Services, rekao je za Motherboard u intervjuu: „Zapravo smo se zainteresovali za ovu temu jer je nekoliko kolega koji rade na mašinskoj obuci i koji su izvorni govornici jezika sa malim resursima primetili da je veliki deo interneta u izgledalo je da je njihov maternji jezik generisan mašinskom obukom… Svako treba da bude svestan da je sadržaj koji gledaju na vebu možda generisao mašina.“

Istraživači Amazona su otkrili pristrasnost u izboru sadržaja koji se koristi za obuku veštačke inteligencije.

Oni navode: „Mašinski generisani, višesmerni paralelni prevodi ne samo da dominiraju ukupnom količinom prevedenog sadržaja na vebu na jezicima sa nižim resursima, već takođe čine veliki deo ukupnog veb sadržaja na tim jezicima.“

Takav sadržaj, sugerišu oni, ima tendenciju da bude jednostavniji, pasusi nižeg kvaliteta „koji se verovatno proizvode da generišu prihod od oglasa“. Pošto su tečnost i tačnost niži za materijal koji je obučen mašinama, brojni prevodi će dovesti do još manje preciznog sadržaja i povećati šanse za AI halucinacije.

Ponekad su kompjuterski generisani prevodi tokom godina doveli do nenamerno duhovitih ili sramotnih tumačenja.

Gugl je pogrešno protumačio frazu „Rusija je velika zemlja“ i umesto toga pomenuo Mordor, izmišljeno selo u J.R.R. Tolkinov „Gospodar prstenova“. Softver za prevođenje Fejsbuka je 2019. godine nekoliko puta nehotice nazvao kineskog predsednika Si Đinpinga „gospodin S***hole“ u članku na engleskom prevedenom sa burmanskog teksta. Fejsbuk se odmah izvinio i za nesreću okrivio „tehničku grešku“.

A alatka za prevođenje lekarskog recepta za govornike jermenskog pružila je neke nesrećne savete za pacijenta sa glavoboljom.

Engleski: „Možete uzeti ibuprofen bez recepta po potrebi za bol.“

Prevod na jermenski: „Protivtenkovske rakete možete uzeti onoliko koliko vam je potrebno za bol.“