Grupa istraživača i inženjera sa Univerziteta u Šardži razvila je sistem dubokog učenja za korišćenje arapskog jezika i njegovih varijeteta u aplikacijama koje se odnose na obradu prirodnog jezika (NLP), interdisciplinarnu podoblast lingvistike, računarstva i veštačke inteligencije.
Naučnici kažu da će njihov projekat uvesti velika poboljšanja u NLP sisteme kako bi se prilagodili arapskom jeziku i njegovim dijalektima prilikom programiranja računara za obradu i analizu velikih količina podataka prirodnog jezika i pomoći u razvoju programa za poboljšanje veština učenja jezika i povećanje tačnosti prevođenja.
Grupa, koja uključuje akademike i inženjere, započela je projekat da proceni upotrebljivost i korisnost arapskog jezika za aplikacije koje pokreće veštačka inteligencija kako bi pomogla skoro pola milijarde govornika arapskog u svetu da iskoriste trenutne trendove u AI tehnologijama. Rezultati njihovog rada objavljeni su u međunarodnim časopisima.
Novi sistem zasnovan na veštačkoj inteligenciji koji naučnici kreiraju rešava ograničenja sa kojima se NLP susreću kada obrađuju druge jezike osim engleskog. Problem se pogoršava sa jezicima kao što je arapski čije pismo i dijakritičke oznake zdesna nalevo, koje računari obično ne prepoznaju, uveliko odstupaju od jezika zasnovanih na latiničnom alfabetu.
Da bi se pozabavio ovim problemom, dr Ašraf Elnagar, profesor računarskih nauka na Univerzitetu u Šardži u Ujedinjenim Arapskim Emiratima, predvodi tim akademika da razviju seriju računarskih alata koji će pomoći programerima da identifikuju ne samo formalne arapski, ali njegovi različiti dijalekatski tekstovi.
„Uspešan završetak projekta ima potencijal da bude široko prihvaćen od strane masa, jer nudi brojne prednosti i poboljšanja za različite jezičke aplikacije i usluge vođene veštačkom inteligencijom“, kaže dr Elnagar. „Ima potencijal da zadovolji širok spektar korisnika i industrija, promovišući efikasniju komunikaciju, pristupačnost i lokalizaciju.“
Razrađujući sistem, dr Elnagar kaže da će, kada bude pokrenut, poboljšati performanse i korisničko iskustvo aplikacija kao što su mašinsko prevođenje, analiza osećanja i prepoznavanje govora kako bi se tačno identifikovao ne samo standardni arapski već i njegovi brojni dijalekti, čime će se doprineti očuvanju kulture, pristupačnost i efikasniju međukulturnu komunikaciju.
Poboljšanje statusa arapskog jezika uz pomoć veštačke inteligencije postalo je hitno pitanje u zemljama Bliskog istoka koje govore arapski jezik, gde su korisnici koji su upoznati sa računarima počeli da se oslanjaju na ChatGPT i druge aplikacije vođene veštačkom inteligencijom da brzo generišu informacije, izvršavaju zadatke pisanja i poboljšati druge jezičke veštine.
Dr Elnagar kaže da se projekat oslanja na istraživanje studenata i na osnovnim i na postdiplomskim studijama. Projekat zasnovan na Odseku za računarske nauke na Univerzitetu u Šardži, pokazuje izuzetne talente i posvećenost naših studenata. Njegov početak bio je kao viši projekat studenata dodiplomskih studija“, napominje dr Elnagar.
„Kasnije, drugi student je proširio [rad], koristeći ga kao osnovu za svoju tezu, sa fokusom na analizu tekstualnih podataka. Projekat je spreman da se udubi u oblast analize audio datoteka. Izuzetno smo ponosni na naše in- studenti obučeni u kući koji su u potpunosti razvili ovaj značajan i uticajan projekat.“
Programeri različitih jezika su brzo skočili na ovaj talas interesovanja i trenutno postoje brojne aplikacije koje se prilagođavaju svojim zvučnicima. Sistem profesora Elnagara popuniće veoma nedostajuću prazninu jer će dodati arapski, šesti jezik koji se najviše govori na svetu, kao operativni sistem aplikacijama AI I chat robota.
Interes programera da se alati veštačke inteligencije koji se odnose na NLP učine korisnim za obradu arapskog jezika i njegovih dijalekata je intenzivan. Međutim, dr kaže da je sistem njegovog tima drugačiji.
„Ono što razlikuje naš sistem od drugih modela AI arapskog jezika je njegov specijalizovani fokus na otkrivanje i obradu arapskih dijalekata. Iako mnogi modeli mogu dati prioritet modernom standardnom arapskom jeziku ili dijalektima koji se obično govore, naš sistem obuhvata širi spektar dijalekatskih varijacija.
„Tehnologija koja stoji iza našeg sistema, koju su razvili naši studenti obučeni u kući, integriše najsavremenije metodologije i tehnike dubokog učenja. Pored toga, inicijativa za proširenje njegove funkcionalnosti sa teksta na audio signale ga dodatno izdvaja, nudeći multimodalni pristup razumevanje i obrada arapskog jezika“.
Tim je koristio veliki, raznolik dijalekatski skup podataka bez pristrasnosti spajanjem nekoliko različitih skupova podataka. Zatim su obučili različite klasične modele i modele dubokog učenja, uključujući najsavremenije transformatore, kontekstualizujući modele ugradnje kao što je BERT, za klasifikaciju po regionima i zemljama.
Ovi alati mogu „poboljšati performanse chatbot-a, što se može postići preciznim identifikovanjem i razumevanjem različitih arapskih dijalekata kako bi se omogućilo čet-botovima da pruže personalizovanije i relevantnije odgovore“, kaže profesor Elnagar.
Alati se čak mogu prilagoditi određenim regionima i kulturama u svetu koji govori arapski jezik. „Ovo omogućava preduzećima i javnim službama da bolje opslužuju svoju ciljnu publiku, osiguravajući da su informacije i usluge koje se pružaju lokalno relevantne i lako razumljive“, dodaje profesor Elnagar.
Tačniji i efikasniji prevod sa i na arapski jezik je jedan od mogućih ishoda projekta jer sistem mora da obezbedi „bolje razumevanje arapskih dijalekata, [pomoć] sistemima mašinskog prevođenja [da] obezbede tačnije prevode, olakšavajući glatkiju komunikaciju između govornici različitih dijalekata ili jezika“.
Preduzeća i organizacije su među korisnicima jer će im novi sistem koji pokreće veštačku inteligenciju pomoći da koriste alate za analizu osećanja koji su svesni dijalekta kako bi bolje razumeli mišljenja i emocije svoje ciljne publike. „Ovo im može pomoći da prilagode svoje marketinške strategije, proizvode i usluge kako bi zadovoljile specifične potrebe i preferencije različitih regiona ili zemalja“, rekao je profesor Elnagar.
Na pitanje da li su spoljne zainteresovane strane bile zainteresovane za istraživanje koje su on i njegov tim sprovodili, profesor Elnagar je rekao: „Projekat je izazvao značajno vannastavno interesovanje, posebno velikih tehnoloških korporacija kao što su IBM i Microsoft. Pored toga, Sheraa, organizacija posvećena osnaživanju i podržavajući nove preduzetnike u Šardži, pokazao je veliko interesovanje za projekat.“
„Predstavnici iz Sheraa-a su se uključili u diskusije u vezi sa potencijalom finansiranja razvoja komercijalnog proizvoda na osnovu nalaza projekta. Ovaj nivo pažnje kako tehnoloških giganata tako i subjekata za podršku preduzetništvu ukazuje na potencijal projekta ne samo kao istraživačke inicijative, već i kao održivo komercijalno rešenje koje bi moglo imati široku tržišnu primenu“.
Alati veštačke inteligencije na kojima naučnici rade mogu takođe da obezbede veću dostupnost za osobe sa invaliditetom. „Sistemi za prepoznavanje govora prilagođeni specifičnim dijalektima omogućiće preciznije prepoznavanje glasovnih komandi i usluge transkripcije za osobe sa invaliditetom ili one koji preferiraju komunikaciju zasnovanu na glasu“, rekao je profesor Elnagar.
Projekat nije prošao bez izazova, ali su oni uspešno rešeni, napominje prof. Spomenuo je pitanje nedostatka standardizovane ortografije, ograničenih resursa i označenih podataka, kao i širok spektar dijalekatskih varijacija u regionima i kulturama arapskog govornog područja.