Ljudski slušni put je veoma sofisticiran biološki sistem koji uključuje i fizičke strukture i regione mozga specijalizovane za percepciju i obradu zvukova. Zvuci koje ljudi čuju kroz uši se obrađuju u različitim regionima mozga, uključujući jezgra kohleara i superiornih oliva, lateralni lemniscus, inferiorni kolikulus i slušni korteks.
Tokom proteklih nekoliko decenija, kompjuterski naučnici su razvili sve naprednije računarske modele koji mogu da obrađuju zvukove i govor, čime su veštački replicirali funkciju ljudskog slušnog puta. Neki od ovih modela su postigli izuzetne rezultate i sada se široko koriste širom sveta, na primer omogućavajući glasovnim asistentima (tj. Aleka, Siri, itd.) da razumeju zahteve korisnika.
Istraživači sa Univerziteta u Kaliforniji u San Francisku nedavno su uporedili ove modele sa ljudskim slušnim putem. Njihov rad, objavljen u Nature Neuroscience, otkrio je zapanjujuće sličnosti između dubokih neuronskih mreža i načina na koji biološki slušni put obrađuje govor.
„Modeli AI govora su postali veoma dobri poslednjih godina zbog dubokog učenja u računarima“, rekao je Edvard F. Čang, jedan od autora rada, za Medical Kspress. „Bili smo zainteresovani da vidimo da li je ono što modeli uče slično tome kako ljudski mozak obrađuje govor.
Da bi uporedili duboke neuronske mreže sa ljudskim slušnim putem, istraživači su prvo pogledali govorne reprezentacije proizvedene od strane modela. Ovo su u suštini načini na koje ovi modeli kodiraju govor u svojim različitim slojevima.
Nakon toga, Chang i njegove kolege su uporedili ove predstave sa aktivnošću koja se odvija u različitim delovima mozga povezanim sa obradom zvukova. Zanimljivo je da su pronašli korelaciju između to dvoje, otkrivajući moguće sličnosti između veštačke i biološke obrade govora.
„Koristili smo nekoliko komercijalnih modela dubokog učenja govora i uporedili kako su veštački neuroni u tim modelima u poređenju sa stvarnim neuronima u mozgu“, objasnio je Čang. „Uporedili smo kako se govorni signali obrađuju u različitim slojevima ili stanicama za obradu u neuronskoj mreži i direktno ih uporedili sa obradom u različitim oblastima mozga.“
Zanimljivo je da su istraživači takođe otkrili da modeli obučeni da obrađuju govor bilo na engleskom ili na mandarinskom mogu predvideti odgovore u mozgu govornika odgovarajućeg jezika. Ovo sugeriše da tehnike dubokog učenja obrađuju govor slično kao i ljudski mozak, takođe kodirajući informacije specifične za jezik.
„Modeli veštačke inteligencije koji hvataju kontekst i uče važna statistička svojstva zvukova govora dobro rade u predviđanju odgovora mozga“, rekao je Čang. „U stvari, oni su bolji od tradicionalnih lingvističkih modela. Implikacija je da postoji ogroman potencijal da se AI iskoristi za razumevanje ljudskog mozga u narednim godinama.“
Nedavni rad Čanga i njegovih saradnika poboljšava opšte razumevanje dubokih neuronskih mreža dizajniranih da dekodiraju ljudski govor, pokazujući da bi mogle biti više nalik biološkom slušnom sistemu nego što su istraživači očekivali. U budućnosti bi mogao da vodi razvoj daljih računarskih tehnika dizajniranih da veštački reprodukuju neuronske osnove audicije.
„Sada pokušavamo da shvatimo šta se AI modeli mogu redizajnirati da bi bolje razumeli mozak. Upravo sada, tek počinjemo i ima toliko toga da naučimo“, rekao je Čang.