Naučnici sa Univerziteta u Šardži veruju da su stvorili sistem veštačke inteligencije koji može automatski da identifikuje koji arapski dijalekt neko govori. Rad je objavljen u IEEE Eksplore.
Kažu da njihov sistem razotkriva bogatu i složenu tapiseriju arapskih dijalekata koji dotadašnji konvencionalni govorni sistemi ne uspevaju da precizno interpretiraju i identifikuju.
„Arapski je bogat jezik sa mnogo regionalnih dijalekata, a svaki od njih ima svoj jedinstveni rečnik, izraze i izgovor. Ova raznolikost čini izazov tehnologiji da ih tačno razume i razlikuje,“ rekao je Ashraf Elnagar, profesor računarskih nauka i Intelligence Sistems.
„Da bismo ovo rešili, razvili smo sistem koji može automatski da identifikuje koji arapski dijalekt neko govori.“
Zvanični jezik u 22 zemlje koje se prostiru na Bliskom istoku, severnoj Africi i Arapskom poluostrvu, arapski je jedan od jezika koji se najviše govori u svetu sa više od 370 miliona ljudi koji ga imaju kao maternji jezik. To je takođe jedan od svetskih jezika koji su najviše uronjeni u kulturu, a oni kojima je maternji jezik ili ga uče kao drugi ili strani jezik uče i o islamu i njegovoj kulturi.
Sa potpuno drugačijim alfabetom od engleskog, jezik ima brojne zvukove koji su specifični za njegovu fonologiju. Šarm njegovih zvukova i karaktera zbunjuje bezbroj stranih učenika koji teže da ga govore tečno. Iako se većina učenja arapskog jezika odvija u standardnoj formalnoj varijanti, mnogi strani učenici se odlučuju za kolokvijalne ili dnevne verzije, posebno za govorne oblike u valuti u Egiptu i Siriji.
Autori kažu da se nisu suočili sa lakim zadatkom kada su učili kompjutere da prepoznaju različite arapske dijalekte samo slušanjem izgovorenih reči. Oni pišu: „Primarni izazov je razvoj modela mašinskog učenja sposobnog da precizno identifikuje širok spektar arapskih dijalekata iz audio zapisa.
„Ovaj zadatak je otežan inherentnom raznolikošću i složenošću arapskih dijalekata, zajedno sa tehničkim izazovima obrade zvuka i optimizacije modela mašinskog učenja.“
Autori su koristili skupove podataka koji sadrže više od 3.000 sati audio segmenata prikupljenih sa IouTube-a. Podaci obuhvataju 19 različitih dijalekata koji se govore u Alžiru, Egiptu, Iraku, Jordanu, Saudijskoj Arabiji, Kuvajtu, Libanu, Libiji, Mauritaniji, Tunisu, Maroku, Omanu, Palestini, Kataru, Sudanu, Siriji, Ujedinjenim Arapskim Emiratima (U.A.E.), Bahreinu i Jemen.
Rezultati su bili impresivni, rekao je prof. Elnagar, naglašavajući visoku tačnost modela u identifikaciji arapskog dijalekata na regionalnom i na nivou zemlje. „Naš model je tačno identifikovao regionalne dijalekte u 97,29% vremena i dijalekte specifičnih zemalja u 94,92% vremena.
„Ono što je izvanredno je to što smo to postigli koristeći samo 29% podataka o obuci koje obično zahtevaju drugi istraživači. Naše modele smo učinili javno dostupnim tako da drugi istraživači i programeri mogu da ih koriste za kreiranje boljih tehnologija vezanih za govor za govornike arapskog jezika. “
Projekat ima potencijal da poboljša komunikaciju i dostupnost za milione govornika arapskog širom sveta. Profesor Elnagar je rekao da sposobnost modela da ispravno identifikuje dijalekt može „poboljšati tehnologije koje se aktiviraju glasom kao što su virtuelni asistenti, usluge prevođenja i automatizovani sistemi za korisničku podršku.
„Ovo ne samo da premošćuje komunikacijske jazove između različitih regiona u kojima se govori arapski, već i doprinosi da tehnologija bude inkluzivnija i prilagođenija za upotrebu arapskim govornicima.
Uprkos zapanjujućim rezultatima, istakao je prof. Elnagar, projekat se još može unaprediti. U tu svrhu, autori su svoj sistem učinili javno dostupnim „na platformi pod nazivom HuggingFace, tako da drugi mogu da pristupe i nadograđuju naš rad na poboljšanju tehnologija arapskog jezika“.
Istraživanje je rezultat saradnje između prof. Elnagara i tri njegova studenta na osnovnim studijama u okviru projekta izgradnje modela dubokog učenja za identifikaciju arapskog dijalekta iz govora. Prvi rezultati istraživanja prvi put su predstavljeni na 15. godišnjoj dodiplomskoj istraživačkoj konferenciji o primenjenom računarstvu (URC) 2024. godine.
„Tehnologija koja stoji iza našeg sistema, koju su razvili naši posvećeni studenti, integriše najsavremenije metodologije i tehnike dubokog učenja. Proširenje njene funkcionalnosti sa teksta na audio signale izdvaja ga, pružajući multimodalni pristup razumevanju i obradi arapskog jezika,“ prof. rekao je Elnagar.
Za studenta istraživača Amra Barakata, projekat „premošćuje kritični jaz u jezičkoj tehnologiji, omogućavajući inkluzivniju i precizniju komunikaciju za govornike arapskog širom sveta. Koristeći napredno mašinsko učenje, stvorili smo model koji ne samo da se ističe u performansama, već i utire put za buduće inovacije u prepoznavanju govora“.
Drugi student istraživač, Abdula Aldhaheri, prijavio je veliko interesovanje industrije za projekat, jer „ima potencijal za široko usvajanje, nudeći brojne prednosti i poboljšanja za različite jezičke aplikacije i usluge vođene veštačkom inteligencijom“.
Pored visoke tačnosti, alat koji su autori razvili, za razliku od trenutno dostupnih modela, zahteva manje podataka i računarskih resursa, što ga čini dostupnim za širu upotrebu. Ova karakteristika, prema autorima, stoji iza interesovanja industrije za njihov rad. Naveli su tehnološke korporacije poput Microsofta i vladina tela u Šardži u U.A.E. kao posebno oduševljeni svojim radom.