Kako video pozivi postaju sve češći u doba udaljenih i hibridnih radnih mesta, „utišaj se“ i „mislim da si isključen“ postali su deo naših svakodnevnih rečnika. Ali ispostavilo se da utišavanje sebe možda nije tako bezbedno kao što mislite.
Kevin Fu, profesor elektrotehnike i računarstva i računarskih nauka na Univerzitetu Northeastern, smislio je način da dobije zvuk sa slika, pa čak i video zapisa sa prigušenim zvukom. Koristeći Side Eie, alat za pomoć u mašinskom učenju koji su Fu i njegov istraživački tim kreirali, Fu može da odredi pol nekoga ko govori u prostoriji u kojoj je snimljena fotografija — pa čak i tačne reči koje su izgovorili.
„Zamislite da neko radi TikTok video i isključi zvuk i presnimi muziku“, kaže Fu. „Da li ste ikada bili znatiželjni o tome šta zapravo govore? Da li je to bilo ‘Lubenica lubenica’ ili ‘Evo moje lozinke?’ Da li je neko govorio iza njih? Možete da shvatite ono što se govori iz kamere.“
Zvuči kao stvar naučne fantastike – i jeste. Ideja za Side Eie inspirisana je epizodom naučno-fantastične emisije „Fringe“ koja je videla glavne likove, tim marginalnih naučnih istražitelja koji rade za FBI, kako izvlače zvuk iz rastopljenog stakla.
Kada je epizoda emitovana, jedan kritičar za Den of Geek nazvao ju je „smešnom tehnikom pseudo nauke“. Fu se nije složio.
„Bio sam kao, ‘Kladim se da to možemo da uradimo'“, kaže Fu. „Moja laboratorija je specijalizovana za nemoguće. Obično očekujemo da prva reakcija na sve što uradimo bude ‘Ne možete to da uradite’, a mi kažemo: ‘Pa, već jesmo’.“
Side Eie koristi prednosti tehnologije stabilizacije slike koja je sada praktično standardna za većinu kamera telefona. Da bi se osiguralo da drhtava ruka ne stvara zamućenu fotografiju, kamere imaju male opruge koje drže sočivo okačeno u tečnosti. Elektromagnet i senzori zatim guraju sočivo u jednakim i suprotnim smerovima da bi smanjili podrhtavanje kamere.
Međutim, Fu kaže da kad god neko govori u blizini sočiva kamere, to izaziva sitne vibracije u oprugama i lagano savija svetlost. Ugao svetlosti se gotovo neprimetno menja – „osim ako ga ne tražite“, kaže Fu.
Obično bi bilo teško izdvojiti zvučnu frekvenciju iz tih mikroskopskih vibracija. Ali Fu kaže da rolo zatvarač, metod fotografisanja koji većina telefonskih kamera koristi danas, zapravo olakšava postizanje nemogućeg.
„Način na koji kamere danas rade na smanjenju troškova je da ne skeniraju sve piksele slike istovremeno – već to rade red po red“, kaže Fu. „[To se dešava] stotine hiljada puta na jednoj fotografiji. Ovo u suštini znači da ste u mogućnosti da pojačate više od hiljadu puta koliko informacija o frekvenciji možete da dobijete, u suštini granularnost zvuka.“
Sve dok ima čak i malo svetlosti, Bočno oko će raditi, iako što više slika ima pristup, to bolje. Fu kaže da bi čak i fotografija uperena u plafon omogućila Bočnom oku da uradi svoje.
Krajnji rezultat ovog procesa je zvuk koji, čak iu svom najboljem izdanju, više zvuči kao prigušeni zvuk odraslih u crtanim filmovima Peanuts. Ali korišćenjem mašinskog učenja i obuke Side Eie za određene reči i zvuk, Fu je u stanju da izvuče mnogo informacija.
„Ako želite da znate da li sam rekao da ili ne, možete da trenirate [Bočno oko] na ljudima koji govore da i ne, a zatim da pogledate obrasce i sa velikim poverenjem kada dobijem sliku kasnije saznajte da li je neko rekao da ili ne, “ kaže Fu.
Bočno oko može čak da identifikuje tačnu osobu koja govori ako je obučeno za glas te osobe, iako Fu kaže da to još nije toliko tačno kada je u pitanju.
Iz perspektive sajber bezbednosti, Side Eie otvara potpuno novi svet pretnji kojih bi ljudi i stručnjaci za sajber bezbednost trebalo da budu svesni. Međutim, Fu kaže da bi najzanimljivija aplikacija za Side Eie mogla biti kao novi oblik digitalnog dokaza za advokate i druge koji rade u krivičnom pravnom sistemu.
„Možda postoji alibi i on se priznaje na sudu i neko želi da dokaže da je neko bio ili nije bio tamo“, kaže Fu. „Možda ćete moći da koristite ovu tehniku ako imate autentifikovan video sa poznatom vremenskom oznakom da potvrdite na ovaj ili onaj način. Ako čujete glas osobe, verovatno je da je tu.“