Da li ste ikada poželeli da razumete šta vaš pas pokušava da vam kaže? Istraživači sa Univerziteta u Mičigenu istražuju mogućnosti veštačke inteligencije, razvijajući alate koji mogu da identifikuju da li lavež psa prenosi razigranost ili agresiju.
Isti modeli mogu da prikupe i druge informacije iz vokalizacija životinja, kao što su starost, rasa i pol životinje. U saradnji sa meksičkim Nacionalnim institutom za astrofiziku, optiku i elektroniku (INAOE) u Puebli, studija otkriva da se modeli veštačke inteligencije prvobitno obučeni za ljudski govor mogu koristiti kao polazna tačka za obuku novih sistema koji ciljaju na komunikaciju sa životinjama.
Rezultati su predstavljeni na Zajedničkoj međunarodnoj konferenciji o računarskoj lingvistici, jezičkim resursima i evaluaciji. Studija je objavljena na arXiv serveru za preprint.
„Koristeći modele obrade govora koji su prvobitno obučeni za ljudski govor, naše istraživanje otvara novi prozor u to kako možemo da iskoristimo ono što smo do sada izgradili u obradi govora da bismo počeli da razumemo nijanse psećeg laveža“, rekla je Rada Mihalčea, Dženis M. Dženkins Univerzitetski profesor računarskih nauka i inženjerstva i direktor Laboratorije za veštačku inteligenciju U-M.
„Postoji toliko toga što još ne znamo o životinjama koje dele ovaj svet sa nama. Napredak u veštačkoj inteligenciji može da se iskoristi za revoluciju u našem razumevanju komunikacije sa životinjama, a naša otkrića sugerišu da možda nećemo morati da počinjemo od nule.“
Jedna od preovlađujućih prepreka razvoju AI modela koji mogu analizirati vokalizaciju životinja je nedostatak javno dostupnih podataka. Iako postoje brojni resursi i mogućnosti za snimanje ljudskog govora, prikupljanje takvih podataka od životinja je teže.
„Vokalizacije životinja je logistički mnogo teže tražiti i snimiti“, rekao je Artem Abzaliev, vodeći autor i student doktorskih studija računarskih nauka i inženjerstva U-M. „Moraju se pasivno evidentirati u divljini ili, u slučaju domaćih kućnih ljubimaca, uz dozvolu vlasnika.
Zbog ovog nedostatka upotrebljivih podataka, pokazalo se da je teško razviti tehnike za analizu vokalizacije pasa, a one koje postoje ograničene su nedostatkom materijala za obuku. Istraživači su prevazišli ove izazove tako što su prenamenili postojeći model koji je prvobitno bio dizajniran za analizu ljudskog govora.
Ovaj pristup je omogućio istraživačima da iskoriste robusne modele koji čine okosnicu različitih tehnologija sa omogućenim glasom koje danas koristimo, uključujući prevođenje glasa u tekst i jezik. Ovi modeli su obučeni da razlikuju nijanse u ljudskom govoru, kao što su ton, visina i akcenat, i konvertuju ove informacije u format koji računar može da koristi da identifikuje koje se reči izgovaraju, prepoznaju govor pojedinca i još mnogo toga.
„Ovi modeli su u stanju da nauče i kodiraju neverovatno složene obrasce ljudskog jezika i govora“, rekao je Abzalijev. „Želeli smo da vidimo da li možemo da iskoristimo ovu sposobnost da razlikujemo i tumačimo lavež pasa.
Istraživači su koristili skup podataka o vokalizaciji pasa snimljenih od 74 psa različitih rasa, starosti i pola, u različitim kontekstima. Humberto Perez-Espinosa, saradnik u INAOE, predvodio je tim koji je prikupio skup podataka. Abzaliev je zatim koristio snimke da modifikuje model mašinskog učenja — tip kompjuterskog algoritma koji identifikuje obrasce u velikim skupovima podataka. Tim je izabrao model predstavljanja govora pod nazivom Vav2Vec2, koji je prvobitno bio obučen na podacima ljudskog govora.
Sa ovim modelom, istraživači su bili u mogućnosti da generišu reprezentacije akustičnih podataka prikupljenih od pasa i tumače ove reprezentacije. Otkrili su da Vav2Vec2 nije uspeo samo u četiri zadatka klasifikacije; takođe je nadmašio druge modele obučene posebno za podatke o lavežu pasa, sa preciznošću do 70%.
„Ovo je prvi put da su tehnike optimizovane za ljudski govor izgrađene da pomognu u dekodiranju životinjske komunikacije“, rekao je Mihalcea. „Naši rezultati pokazuju da zvuci i obrasci koji potiču iz ljudskog govora mogu poslužiti kao osnova za analizu i razumevanje akustičnih obrazaca drugih zvukova, kao što su vokalizacije životinja.
Pored uspostavljanja modela ljudskog govora kao korisnog alata u analizi komunikacije sa životinjama — što bi moglo biti od koristi biolozima, bihevioristima životinja i još mnogo toga — ovo istraživanje ima važne implikacije na dobrobit životinja. Razumevanje nijansi vokalizacije pasa moglo bi u velikoj meri poboljšati kako ljudi tumače i reaguju na emocionalne i fizičke potrebe pasa, čime bi se poboljšala njihova briga i sprečile potencijalno opasne situacije, rekli su istraživači.