Zamislite da je tim naučnika razvio model mašinskog učenja koji može predvideti da li pacijent ima rak na osnovu slika skeniranja pluća. Žele da podele ovaj model sa bolnicama širom sveta kako bi kliničari mogli da počnu da ga koriste u dijagnozi.
Ali postoji problem. Da bi naučili svoj model kako da predvide rak, pokazali su mu milione stvarnih slika skeniranja pluća, proces koji se zove obuka. Te osetljive podatke, koji su sada kodirani u unutrašnjem radu modela, potencijalno bi mogao da izvuče zlonamerni agent. Naučnici to mogu sprečiti dodavanjem buke, ili više generičke slučajnosti, modelu što otežava protivniku da pogodi originalne podatke. Međutim, perturbacija smanjuje tačnost modela, tako da što manje šuma možete dodati, to bolje.
Istraživači sa MIT-a su sada razvili tehniku koja omogućava korisniku da potencijalno doda najmanju moguću količinu buke, istovremeno osiguravajući da su osetljivi podaci zaštićeni.
Istraživači su kreirali novu metriku privatnosti, koju nazivaju verovatno približno tačna (PAC) privatnost, i izgradili okvir zasnovan na ovoj metrici koji može automatski odrediti minimalnu količinu buke koju treba dodati. Štaviše, ovom okviru nije potrebno poznavanje unutrašnjeg funkcionisanja modela ili njegovog procesa obuke, što ga čini lakšim za korišćenje za različite tipove modela i aplikacija.
U nekoliko slučajeva, istraživači pokazuju da je količina buke koja je potrebna za zaštitu osetljivih podataka od protivnika daleko manja kod PAC privatnosti nego kod drugih pristupa. Ovo bi moglo pomoći inženjerima da stvore modele mašinskog učenja koji dokazivo sakrivaju podatke o obuci, zadržavajući tačnost u stvarnim postavkama.
„PAC privatnost na smislen način iskorišćava nesigurnost ili entropiju osetljivih podataka, a to nam omogućava da dodamo, u mnogim slučajevima, red veličine manje buke. Ovaj okvir nam omogućava da razumemo karakteristike proizvoljne obrade podataka i da je privatizujemo automatski bez veštačkih modifikacija. Dok smo u ranim danima i radimo jednostavne primere, uzbuđeni smo zbog obećanja ove tehnike“, kaže Srini Devadas, Edvin Siblei Vebster profesor elektrotehnike i koautor novog rada o privatnosti PAC-a.
Devadas je napisao rad sa glavnim autorom Hanshen Ksiao, diplomiranim studentom elektrotehnike i računarstva. Istraživanje će biti predstavljeno 24. avgusta na Međunarodnoj kriptološkoj konferenciji (Cripto 2023).
Osnovno pitanje u vezi sa privatnošću podataka je: Koliko osetljivih podataka može protivnik da povrati iz modela mašinskog učenja uz dodatak buke?
Diferencijalna privatnost, jedna popularna definicija privatnosti, kaže da se privatnost postiže ako protivnik koji posmatra objavljeni model ne može zaključiti da li se podaci proizvoljnog pojedinca koriste za obradu obuke. Ali dokazivo sprečavanje protivnika da razlikuje upotrebu podataka često zahteva velike količine buke da bi se to prikrilo. Ovaj šum smanjuje tačnost modela.
PAC privatnost gleda na problem malo drugačije. Karakteriše koliko bi bilo teško za protivnika da rekonstruiše bilo koji deo nasumično uzorkovanih ili generisanih osetljivih podataka nakon dodavanja buke, umesto da se fokusira samo na problem razlikovanja.
Na primer, ako su osetljivi podaci slike ljudskih lica, diferencijalna privatnost bi se fokusirala na to da li protivnik može da kaže da li je nečije lice bilo u skupu podataka. PAC privatnost, s druge strane, može da pogleda da li protivnik može da izdvoji siluetu – aproksimaciju – koju bi neko mogao prepoznati kao lice određene osobe.
Kada su uspostavili definiciju privatnosti PAC-a, istraživači su kreirali algoritam koji korisniku automatski govori koliko buke da doda modelu kako bi sprečio protivnika da pouzdano rekonstruiše blisku aproksimaciju osetljivih podataka. Ovaj algoritam garantuje privatnost čak i ako protivnik ima beskonačnu računarsku moć, kaže Sjao.
Da bi pronašao optimalnu količinu buke, PAC algoritam privatnosti se oslanja na nesigurnost, ili entropiju, u originalnim podacima sa stanovišta protivnika.
Ova automatska tehnika nasumično uzima uzorke iz distribucije podataka ili velikog skupa podataka i pokreće korisnikov algoritam za obuku mašinskog učenja na tim poduzorkovanim podacima kako bi proizveo naučeni izlazni model. To radi mnogo puta na različitim poduzorkovanjem i upoređuje varijansu na svim izlazima. Ova varijansa određuje koliko buke treba dodati – manja varijansa znači da je potrebno manje buke.
Za razliku od drugih pristupa privatnosti, PAC algoritam privatnosti ne zahteva poznavanje unutrašnjeg rada modela ili procesa obuke.
Kada implementira PAC privatnost, korisnik može na samom početku da odredi željeni nivo poverenja. Na primer, možda korisnik želi garanciju da protivnik neće biti više od 1% uveren da je uspešno rekonstruisao osetljive podatke do 5% njihove stvarne vrednosti. Algoritam PAC privatnosti automatski govori korisniku optimalnu količinu buke koju treba dodati u izlazni model pre nego što se javno podeli, kako bi se postigli ti ciljevi.
„Buka je optimalna, u smislu da ako dodate manje nego što vam kažemo, sve opklade mogu biti isključene. Ali efekat dodavanja buke parametrima neuronske mreže je komplikovan, a mi ne obećavamo da će korisnost odbaciti model može doživeti dodatnu buku“, kaže Sjao.
Ovo ukazuje na jedno ograničenje privatnosti PAC-a — tehnika ne govori korisniku koliko će tačnosti model izgubiti kada se doda šum. PAC privatnost takođe uključuje stalno obučavanje modela mašinskog učenja na mnogim poduzorkovanjem podataka, tako da može biti računarski skupo.
Da bi se poboljšala privatnost PAC-a, jedan pristup je da se modifikuje proces obuke korisnika mašinskog učenja tako da bude stabilniji, što znači da se izlazni model koji proizvodi ne menja mnogo kada se ulazni podaci poduzorkovaju iz baze podataka. Ova stabilnost bi stvorila manje varijanse između izlaznih uzoraka poduzorka, tako da ne samo da bi PAC algoritam privatnosti morao da se pokreće manje puta da bi se identifikovala optimalna količina buke, već bi takođe trebalo da doda manje buke.
Dodatna prednost stabilnijih modela je ta što često imaju manje greške u generalizaciji, što znači da mogu da prave preciznija predviđanja na osnovu prethodno nevidljivih podataka, što je dobitna situacija između mašinskog učenja i privatnosti, dodaje Devadas.
„U narednih nekoliko godina, voleli bismo da pogledamo malo dublje u ovaj odnos između stabilnosti i privatnosti, i odnos između privatnosti i greške generalizacije. Ovde kucamo na vrata, ali još nije jasno kuda vrata vode“, on kaže.