Istraživači sa Univerziteta HSE i Moskovskog državnog univerziteta za medicinu i stomatologiju razvili su model mašinskog učenja koji može predvideti reč koju će subjekt izgovoriti, na osnovu njihove neuronske aktivnosti snimljene malim setom minimalno invazivnih elektroda. Njihov rad, „Dekodiranje govora iz malog skupa prostorno odvojenih minimalno invazivnih intrakranijalnih EEG elektroda sa kompaktnom i interpretabilnom neuronskom mrežom“, objavljen je u Journal of Neural Engineering.
Milioni ljudi širom sveta su pogođeni poremećajima govora, ograničavajući njihovu sposobnost komunikacije. Uzroci gubitka govora mogu biti različiti i uključuju moždani udar i određena urođena stanja.
Danas je dostupna tehnologija za obnavljanje komunikacijske funkcije takvih pacijenata, uključujući interfejse „tihi govor“ koji prepoznaju govor praćenjem kretanja artikulacionih mišića dok osoba izgovara reči bez zvuka. Međutim, takvi uređaji pomažu nekim pacijentima, ali ne i drugima, kao što su ljudi sa paralizom mišića lica.
Govorne neuroproteze — interfejsi mozak-računar koji mogu da dekodiraju govor na osnovu moždane aktivnosti — mogu pružiti pristupačno i pouzdano rešenje za obnavljanje komunikacije takvim pacijentima.
Za razliku od personalnih računara, uređaje sa interfejsom mozak-računar (BCI) kontroliše direktno mozak, bez potrebe za tastaturom ili mikrofonom.
Glavna prepreka široj upotrebi BCI u govornoj protetici je to što ova tehnologija zahteva visoko invazivnu operaciju za implantaciju elektroda u moždano tkivo.
Najtačnije prepoznavanje govora postiže se neuroprotezama sa elektrodama koje pokrivaju veliku površinu kortikalne površine. Međutim, ova rešenja za očitavanje moždane aktivnosti nisu namenjena za dugotrajnu upotrebu i predstavljaju značajne rizike za pacijente.
Istraživači HSE Centra za bioelektrične interfejse i Moskovskog državnog univerziteta za medicinu i stomatologiju proučavali su mogućnost stvaranja funkcionalne neuroproteze sposobne da dekodira govor sa prihvatljivom tačnošću čitanjem moždane aktivnosti sa malog skupa elektroda implantiranih u ograničeno područje korteksa. Autori sugerišu da bi se u budućnosti ova minimalno invazivna procedura mogla izvoditi čak i pod lokalnom anestezijom.
U ovoj studiji, istraživači su prikupili podatke od dva pacijenta sa epilepsijom kojima su već ugrađene intrakranijalne elektrode u svrhu prehirurškog mapiranja kako bi se lokalizovala zona početka napada.
Prvom pacijentu je implantirano bilateralno sa ukupno pet sEEG osovina sa šest kontakata u svakoj, a drugom pacijentu je implantirano devet elektrokortikografskih (ECoG) traka sa osam kontakata u svakoj. Za razliku od ECoG-a, elektrode za sEEG se mogu implantirati bez pune kraniotomije preko bušene rupe u lobanji. U ovoj studiji, samo šest kontakata jedne sEEG osovine kod jednog pacijenta i osam kontakata jedne ECoG trake u drugoj korišćeno je za dekodiranje neuronske aktivnosti.
Ispitanici su zamoljeni da naglas pročitaju šest rečenica, od kojih je svaka predstavljena 30 do 60 puta po slučajnom redosledu. Rečenice su se razlikovale po strukturi, a većina reči u jednoj rečenici je počinjala istim slovom. Rečenice su sadržale ukupno 26 različitih reči. Dok su ispitanici čitali, elektrode su registrovale njihovu moždanu aktivnost.
Ovi podaci su zatim usklađeni sa audio signalima da bi se formiralo 27 klasa, uključujući 26 reči i jednu klasu tišine. Dobijeni skup podataka za obuku (koji sadrži signale snimljene u prvih 40 minuta eksperimenta) je ubačen u model mašinskog učenja sa arhitekturom zasnovanom na neuronskoj mreži. Zadatak učenja za neuronsku mrežu bio je da predvidi sledeću izgovorenu reč (klasu) na osnovu podataka o neuronskoj aktivnosti koji prethode njenom izgovoru.
Dizajnirajući arhitekturu neuronske mreže, istraživači su želeli da je učine jednostavnom, kompaktnom i lako razumljivom. Oni su osmislili dvostepenu arhitekturu koja je prvo izdvojila unutrašnje govorne reprezentacije iz snimljenih podataka o aktivnosti mozga, proizvodeći log-mel spektralne koeficijente, a zatim predvidela određenu klasu, odnosno reč ili tišinu.
Ovako obučena, neuronska mreža je postigla 55% tačnosti koristeći samo šest kanala podataka snimljenih jednom sEEG elektrodom kod prvog pacijenta i 70% tačnosti koristeći samo osam kanala podataka snimljenih jednom ECoG trakom kod drugog pacijenta. Takva tačnost je uporediva sa onom prikazanom u drugim studijama koje su koristile uređaje koji zahtevaju da se elektrode implantiraju preko cele površine korteksa.
Dobijeni model koji se može tumačiti omogućava da se neurofiziološkim terminima objasni koja neuronska informacija najviše doprinosi predviđanju reči koja će biti izgovorena. Istraživači su ispitivali signale koji dolaze iz različitih neuronskih populacija kako bi utvrdili koji od njih su bili ključni za nizvodni zadatak. Njihovi nalazi su bili u skladu sa rezultatima mapiranja govora, što sugeriše da model koristi neuronske signale koji su ključni i stoga se mogu koristiti za dekodiranje imaginarnog govora.
Još jedna prednost ovog rešenja je što ne zahteva ručno projektovanje funkcija. Model je naučio da izdvaja govorne reprezentacije direktno iz podataka o aktivnosti mozga. Interpretabilnost rezultata takođe ukazuje da mreža dekodira signale iz mozga, a ne iz bilo koje prateće aktivnosti, kao što su električni signali iz artikulacionih mišića ili koji nastaju usled efekta mikrofona.
Istraživači naglašavaju da se predviđanje uvek zasnivalo na podacima o neuronskoj aktivnosti koji su prethodili izgovoru. Ovo, tvrde oni, osigurava da pravilo odluke ne koristi odgovor slušnog korteksa na već izgovoren govor.
„Upotreba ovakvih interfejsa podrazumeva minimalne rizike za pacijenta. Ako sve bude u redu, moglo bi biti moguće dekodirati imaginarni govor od neuronske aktivnosti snimljene malim brojem minimalno invazivnih elektroda implantiranih u ambulantnom okruženju uz lokalnu anesteziju“, kaže Aleksej. Ossadtchi, vodeći autor studije, direktor Centra za bioelektrične interfejse HSE Instituta za kognitivnu neuronauku.