Generativna AI dobija dosta pažnje zbog svoje sposobnosti da kreira tekst i slike. Ali ti mediji predstavljaju samo delić podataka koji se šire u našem društvu danas. Podaci se generišu svaki put kada pacijent prođe kroz medicinski sistem, kada oluja utiče na let ili kada osoba stupi u interakciju sa softverskom aplikacijom.
Korišćenje generativne veštačke inteligencije za kreiranje realističnih sintetičkih podataka oko tih scenarija može pomoći organizacijama da efikasnije leče pacijente, preusmere avione ili poboljšaju softverske platforme – posebno u scenarijima gde su podaci iz stvarnog sveta ograničeni ili osetljivi.
Poslednje tri godine, MIT spinout DataCebo je ponudio generativni softverski sistem nazvan Sinthetic Data Vault kako bi pomogao organizacijama da kreiraju sintetičke podatke za stvari kao što su testiranje softverskih aplikacija i obučavanje modela mašinskog učenja.
Sintetički trezor podataka, ili SDV, preuzet je više od milion puta, sa više od 10.000 naučnika koji koriste biblioteku otvorenog koda za generisanje sintetičkih tabelarnih podataka. Osnivači—glavni naučnik za istraživanje Kalian Veeramachaneni i alumna Neha Patki ’15, SM ’16—veruju da je uspeh kompanije posledica sposobnosti SDV-a da revolucioniše testiranje softvera.
U 2016. godini, Veeramachanenijeva grupa u Laboratoriji Data to AI predstavila je paket generativnih AI alata otvorenog koda kako bi pomogla organizacijama da kreiraju sintetičke podatke koji odgovaraju statističkim svojstvima stvarnih podataka.
Kompanije mogu da koriste sintetičke podatke umesto osetljivih informacija u programima uz istovremeno očuvanje statističkih odnosa između tačaka podataka. Kompanije takođe mogu da koriste sintetičke podatke za pokretanje novog softvera kroz simulacije da bi videle njegov učinak pre nego što ga objave javnosti.
Veeramachanenijeva grupa naišla je na problem jer je radila sa kompanijama koje su želele da podele svoje podatke za istraživanje.
„MIT vam pomaže da vidite sve ove različite slučajeve upotrebe“, objašnjava Patki. „Vi radite sa finansijskim kompanijama i zdravstvenim kompanijama, a svi ti projekti su korisni za formulisanje rešenja u različitim industrijama.
2020. istraživači su osnovali DataCebo da bi izgradili više SDV funkcija za veće organizacije. Od tada, slučajevi upotrebe su impresivni koliko i raznovrsni.
Sa DataCebo-ovim novim simulatorom leta, na primer, avio kompanije mogu planirati retke vremenske događaje na način koji bi bio nemoguć koristeći samo istorijske podatke. U drugoj aplikaciji, korisnici SDV-a sintetizovali su medicinsku dokumentaciju kako bi predvideli zdravstvene ishode za pacijente sa cističnom fibrozom. Tim iz Norveške je nedavno koristio SDV da stvori sintetičke podatke o studentima kako bi procenio da li su različite politike prijema meritokratske i bez pristrasnosti.
2021. godine, platforma za nauku o podacima Kaggle je bila domaćin takmičenja za naučnike koji su koristili SDV za kreiranje sintetičkih skupova podataka kako bi izbegli korišćenje vlasničkih podataka. Učestvovalo je oko 30.000 naučnika za podatke, koji su gradili rešenja i predviđali rezultate na osnovu realnih podataka kompanije.
I kako je DataCebo rastao, ostao je veran svojim korenima MIT-a: svi sadašnji zaposleni u kompaniji su alumni MIT-a.
Iako se njihovi alati otvorenog koda koriste za različite slučajeve upotrebe, kompanija je fokusirana na povećanje svoje privlačnosti u testiranju softvera.
„Potrebni su vam podaci za testiranje ovih softverskih aplikacija“, kaže Veeramachaneni. „Tradicionalno, programeri ručno pišu skripte za kreiranje sintetičkih podataka. Sa generativnim modelima, kreiranim pomoću SDV, možete učiti iz uzorka prikupljenih podataka, a zatim uzorkovati veliku količinu sintetičkih podataka (koji imaju ista svojstva kao stvarni podaci), ili kreirajte specifične scenarije i rubne slučajeve i koristite podatke za testiranje vaše aplikacije.“
Na primer, ako je banka želela da testira program dizajniran da odbije transfere sa računa na kojima nema novca, morala bi da simulira više računa koji istovremeno obavljaju transakcije. Da biste to uradili sa podacima kreiranim ručno, trebalo bi mnogo vremena. Sa DataCebo-ovim generativnim modelima, kupci mogu da kreiraju bilo koji ivični slučaj koji žele da testiraju.
„Uobičajeno je da industrije imaju podatke koji su u nekom svojstvu osetljivi“, kaže Patki. „Često kada se nalazite u domenu sa osetljivim podacima, imate posla sa propisima, a čak i ako ne postoje zakonski propisi, u najboljem je interesu kompanija da budu pažljive oko toga ko dobija pristup čemu u kom trenutku. Dakle, sintetički podaci su uvek bolji iz perspektive privatnosti.“
Veeramachaneni veruje da DataCebo napreduje u polju onoga što naziva sintetičkim podacima preduzeća, ili podacima generisanim ponašanjem korisnika na softverskim aplikacijama velikih kompanija.
„Podaci o preduzećima ove vrste su složeni i ne postoji univerzalna dostupnost, za razliku od jezičkih podataka“, kaže Veeramachaneni. „Kada ljudi koriste naš javno dostupan softver i izveštavaju o tome da li radi na određenom šablonu, naučimo mnogo ovih jedinstvenih obrazaca, i to nam omogućava da poboljšamo naše algoritme. Iz jedne perspektive, gradimo korpus ovih složenih obrazaca, koji je za jezik i slike lako dostupan.“
DataCebo je takođe nedavno objavio funkcije za poboljšanje korisnosti SDV-a, uključujući alate za procenu „realizma“ generisanih podataka, nazvane biblioteka SDMetrics, kao i način za upoređivanje performansi modela pod nazivom SDGim.
„Radi se o tome da se osigura da organizacije veruju ovim novim podacima“, kaže Veeramachaneni. „[Naši alati nude] programabilne sintetičke podatke, što znači da dozvoljavamo preduzećima da unesu svoj specifični uvid i intuiciju kako bi izgradili transparentnije modele.“
Kako kompanije u svakoj industriji žure da usvoje AI i druge alate za nauku o podacima, DataCebo im na kraju pomaže da to učine na način koji je transparentniji i odgovorniji.
„U narednih nekoliko godina, sintetički podaci iz generativnih modela će transformisati sav rad sa podacima“, kaže Veeramachaneni. „Verujemo da se 90% operacija preduzeća može obaviti pomoću sintetičkih podataka.“