Automatsko prepoznavanje govora (ASR) značajno je napredovalo poslednjih godina, a istraživanje Univerziteta u Cirihu (UZH) i Univerziteta Kembridž pokazuje da ASR sistemi sada dostižu, pa čak i premašuju ljudske performanse u specifičnim uslovima.
U poređenju između dva popularna ASR sistema — Metinog vav2vec 2.0 i OpenAI-ovog Vhisper large-v3 — i ljudskih slušalaca, Vhisper large-v3 se pokazao kao izuzetno efikasan. Sistem je nadmašio ljudske slušaoce u prepoznavanju govora u svim testiranim uslovima osim u simulaciji buke u kafani, gde su njegove performanse bile u rangu sa ljudima.
Impresivni rezultati Vhispera dolaze zahvaljujući obuci na ogromnim količinama podataka — preko 75 godina govornih snimaka za osnovni model, dok je najnaprednija verzija trenirana na više od 500 godina govornih podataka.
„Ljudi postižu slične rezultate u prepoznavanju govora sa samo nekoliko godina izloženosti jeziku, što govori o njihovoj izuzetnoj sposobnosti“, izjavila je Eleanor Chodroff, jedna od autorki studije objavljene u časopisu JASA Ekpress Letters.
Istraživači su primetili da ASR sistemi i ljudi prave različite vrste grešaka. Ljudi češće proizvode gramatički ispravne rečenice, ali povremeno izostavljaju delove govora. Nasuprot tome, ASR sistemi, poput vav2vec 2.0, u izazovnim uslovima često daju nelogične rezultate, dok Vhisper povremeno popunjava praznine netačnim informacijama.
Studija naglašava i izazove u razvoju ASR sistema za jezike koji nisu široko zastupljeni u obuci, ističući potrebu za daljim istraživanjem i inovacijama u ovom polju.