Google daje izveštaj o napretku univerzalnog modela govora

Google daje izveštaj o napretku univerzalnog modela govora

U novembru je Gugl objavio da kreće u inicijativu koja će kulminirati razvojem modela mašinskog učenja sposobnog da prepozna i prevede 1.000 jezika na svetu koji se najviše govore. Tokom proteklih nekoliko meseci, kompanija je radila na tom cilju i objavila je blog članova tima koji rade na projektu. Tim u Guglu je takođe objavio rad koji opisuje uvođenje svog Univerzalnog modela govora (USM) na arKsiv serveru za pre-štampanje.

Ažuriranja koje pruža Google deo su sveobuhvatnijeg cilja: da se napravi prevodilac jezika koji koristi automatsko prepoznavanje govora (ASR) koji može da prevede bilo koji jezik u svetu na zahtev. U tom cilju, oni su odlučili da privremeno ograniče broj jezika koje pokušavaju da podrže (na 100) zbog malog broja ljudi koji govore manje uobičajene jezike. Takvim retkim jezicima nedostaju skupovi podataka za obuku.

Kao deo njihove najave, Google je izneo prve korake ka njihovom USM-u – razvrstavajući ga na porodice govornih modela obučenih na milijardama sati snimljenog govora i koji obuhvataju preko 300 jezika. Napominju da se njihov USM trenutno već koristi za prevode na jezike sa titlovima na YouTube-u. Oni takođe navode generički model za svaku od porodica.

Gugl objašnjava da se modeli proizvode korišćenjem „cevovoda“ za obuku koji uključuju tri vrste skupova podataka: neupareni audio, neupareni tekst i upareni ASR podaci. Oni takođe napominju da koriste modele konformera za rukovanje očekivanim 2B parametrima potrebnim za projekat i to će učiniti koristeći tri glavna koraka: nenadgledani pre-obuka, multi-ciljna nadgledana pret-trening i nadgledana ASR obuka. Krajnji rezultat će biti proizvodnja dve vrste modela — onih koji su prethodno obučeni i ASR modela.

Google dalje tvrdi da je u svom trenutnom stanju njegov USM pokazao uporedive ili superiorne performanse sa modelom Vhisper—modelom za prepoznavanje govora opšte namene koji je kreirala zajednica GitHub. Pored korišćenja USM-a za YouTube, očekuje se da će Google upariti svoj model sa drugim AI aplikacijama, uključujući uređaje proširene stvarnosti.