Istraživači su razvili revolucionaran model dubokog učenja koji koristi ljudsku percepciju kako bi značajno unaprijedio kvalitet zvuka u stvarnim scenarijima. Novi pristup, objavljen u časopisu IEEE/ACM Transactions on Audio, Speech, and Language Processing, kombinuje subjektivne ocene kvaliteta zvuka koje daju ljudi sa modelom poboljšanja govora, rezultirajući u značajnom smanjenju prisustva buke i poboljšanju kvaliteta govora.
Tradicionale metode za suzbijanje buke često se oslanjaju na AI algoritme za izdvajanje neželjenih zvukova iz željenog signala. Međutim, ove metode ne uvijek odražavaju percepciju slušalaca o kvalitetu zvuka. Novi model koristi ljudsku percepciju kao dodatni izvor informacija, što ga čini efikasnijim u uklanjanju buke i poboljšanju kvaliteta govora.
Studija je obučila model na velikom broju snimaka ljudi koji razgovaraju, pri čemu su slušaoci ocenjivali kvalitet govora na skali od 1 do 100. Model je kombinovao jezički modul za poboljšanje govora sa modelom predviđanja koji može predvideti ocene koje bi ljudi dali bučnim signalima.
Rezultati su pokazali da je novi pristup nadmašio druge modele u poboljšanju kvaliteta govora, što ga čini izuzetno korisnim za primjene poput slušnih pomagala, prepoznavanja govora i komunikacijskih sistema. Iako korišćenje ljudske percepcije može imati svoje izazove zbog subjektivnosti, ovaj model predstavlja značajan napredak u tehnologiji obrade zvuka.