Novi model za proizvodnju prirodnijeg sintetizovanog govora

Novi model za proizvodnju prirodnijeg sintetizovanog govora

Najnovija tehnološka dostignuća omogućavaju razvoj računarskih alata koji bi mogli značajno da poboljšaju kvalitet života osoba sa invaliditetom ili senzornim oštećenjima. Ovo uključuje takozvane modele konverzije elektromiografije u govor (ETS), dizajnirane da pretvaraju električne signale koje proizvode skeletni mišići u govor.

Istraživači sa Univerziteta u Bremenu i SUPSI su nedavno predstavili Diff-ETS, model za ETS konverziju koji bi mogao proizvesti prirodniji sintetizovani govor. Ovaj model, predstavljen u radu objavljenom na serveru za preprint arXiv, mogao bi se koristiti za razvoj novih sistema koji omogućavaju ljudima koji ne mogu da govore, kao što su pacijenti koji su bili podvrgnuti laringektomiji (operacija uklanjanja dela ljudske govorne kutije), da komuniciraju sa drugima.

Većina ranije uvedenih tehnika za ETS konverziju ima dve ključne komponente: EMG enkoder i vokoder. Elektromiografski (EMG) enkoder može da konvertuje EMG signale u akustične karakteristike govora, dok vokoder koristi ove karakteristike govora da sintetiše govorne signale.

„Zbog neadekvatne količine dostupnih podataka i bučnih signala, sintetizovani govor često pokazuje nizak nivo prirodnosti“, napisali su Zhao Ren, Kevin Scheck i njihove kolege u svom radu. „U ovom radu predlažemo Diff-ETS, ETS model koji koristi verovatnoća difuzije zasnovan na rezultatu za poboljšanje prirodnosti sintetizovanog govora. Model difuzije se primenjuje da bi se poboljšao kvalitet akustičkih karakteristika koje predviđa EMG enkoder. “

Za razliku od mnogih drugih ETS modela konverzije razvijenih u prošlosti, koji se sastoje od enkodera i vokodera, model istraživača ima tri komponente, naime EMG enkoder, difuzioni verovatnoćan model i vokoder. Difuzioni probabilistički model, druga od ovih komponenti, je stoga novi dodatak, koji bi mogao rezultirati prirodnijim sintetizovanim govorom.

Ren, Scheck i njihove kolege su obučili EMG enkoder da predvidi takozvani log Mel spektrogram (tj. vizuelni prikaz audio signala) i mete fonema iz EMG signala. Difuzioni probabilistički model je, s druge strane, obučen da poboljša log Mel spektrograme, dok prethodno obučeni vokoder može prevesti ovaj spektrogram u sintetizovani govor.

Istraživači su procenili Diff-ETS model u nizu testova, upoređujući ga sa osnovnom ETS tehnikom. Njihova otkrića su bila veoma obećavajuća, jer je govor koji je sintetizovao bio prirodniji i nalik čoveku od onog proizvedenog osnovnom metodom.

„U našim eksperimentima, procenili smo fino podešavanje difuzionog modela na osnovu predviđanja unapred obučenog EMG enkodera i obuku oba modela na način od kraja do kraja“, napisali su Ren, Šek i njihove kolege u svom radu. „Uporedili smo Diff-ETS sa osnovnim ETS modelom bez difuzije koristeći objektivne metrike i test slušanja. Rezultati su pokazali da je predloženi Diff-ETS značajno poboljšao prirodnost govora u odnosu na osnovnu liniju.“

U budućnosti, model ETS konverzije koji je razvio ovaj tim istraživača mogao bi se koristiti za razvoj boljih tehnologija za veštačko generisanje zvučnog govora. Ovi sistemi mogu omogućiti ljudima koji ne mogu da govore da izraze svoje misli naglas, olakšavajući njihovu interakciju sa drugima.

„U budućim nastojanjima, moguće je smanjiti broj parametara modela koristeći različite metode, na primer, kompresiju modela i destilaciju znanja, čime se generišu uzorci govora u realnom vremenu“, napisali su istraživači. „Štaviše, model difuzije se može obučiti zajedno sa enkoderom i vokoderom za dalje poboljšanje kvaliteta govora.“