Korišćenje generativne veštačke inteligencije za poboljšanje testiranja softvera

Generativna AI dobija dosta pažnje zbog svoje sposobnosti da kreira tekst i slike. Ali ti mediji predstavljaju samo delić podataka koji se šire u našem društvu danas. Podaci se generišu svaki put kada pacijent prođe kroz medicinski sistem, kada oluja utiče na let ili kada osoba stupi u interakciju sa softverskom aplikacijom.

Korišćenje generativne veštačke inteligencije za kreiranje realističnih sintetičkih podataka oko tih scenarija može pomoći organizacijama da efikasnije leče pacijente, preusmere avione ili poboljšaju softverske platforme – posebno u scenarijima gde su podaci iz stvarnog sveta ograničeni ili osetljivi.

Poslednje tri godine, MIT spinout DataCebo je ponudio generativni softverski sistem nazvan Sinthetic Data Vault kako bi pomogao organizacijama da kreiraju sintetičke podatke za stvari kao što su testiranje softverskih aplikacija i obučavanje modela mašinskog učenja.

Sintetički trezor podataka, ili SDV, preuzet je više od milion puta, sa više od 10.000 naučnika koji koriste biblioteku otvorenog koda za generisanje sintetičkih tabelarnih podataka. Osnivači—glavni naučnik za istraživanje Kalian Veeramachaneni i alumna Neha Patki ’15, SM ’16—veruju da je uspeh kompanije posledica sposobnosti SDV-a da revolucioniše testiranje softvera.

U 2016. godini, Veeramachanenijeva grupa u Laboratoriji Data to AI predstavila je paket generativnih AI alata otvorenog koda kako bi pomogla organizacijama da kreiraju sintetičke podatke koji odgovaraju statističkim svojstvima stvarnih podataka.

Kompanije mogu da koriste sintetičke podatke umesto osetljivih informacija u programima uz istovremeno očuvanje statističkih odnosa između tačaka podataka. Kompanije takođe mogu da koriste sintetičke podatke za pokretanje novog softvera kroz simulacije da bi videle njegov učinak pre nego što ga objave javnosti.

Veeramachanenijeva grupa naišla je na problem jer je radila sa kompanijama koje su želele da podele svoje podatke za istraživanje.

„MIT vam pomaže da vidite sve ove različite slučajeve upotrebe“, objašnjava Patki. „Vi radite sa finansijskim kompanijama i zdravstvenim kompanijama, a svi ti projekti su korisni za formulisanje rešenja u različitim industrijama.

2020. istraživači su osnovali DataCebo da bi izgradili više SDV funkcija za veće organizacije. Od tada, slučajevi upotrebe su impresivni koliko i raznovrsni.

Sa DataCebo-ovim novim simulatorom leta, na primer, avio kompanije mogu planirati retke vremenske događaje na način koji bi bio nemoguć koristeći samo istorijske podatke. U drugoj aplikaciji, korisnici SDV-a sintetizovali su medicinsku dokumentaciju kako bi predvideli zdravstvene ishode za pacijente sa cističnom fibrozom. Tim iz Norveške je nedavno koristio SDV da stvori sintetičke podatke o studentima kako bi procenio da li su različite politike prijema meritokratske i bez pristrasnosti.

2021. godine, platforma za nauku o podacima Kaggle je bila domaćin takmičenja za naučnike koji su koristili SDV za kreiranje sintetičkih skupova podataka kako bi izbegli korišćenje vlasničkih podataka. Učestvovalo je oko 30.000 naučnika za podatke, koji su gradili rešenja i predviđali rezultate na osnovu realnih podataka kompanije.

I kako je DataCebo rastao, ostao je veran svojim korenima MIT-a: svi sadašnji zaposleni u kompaniji su alumni MIT-a.

Iako se njihovi alati otvorenog koda koriste za različite slučajeve upotrebe, kompanija je fokusirana na povećanje svoje privlačnosti u testiranju softvera.

„Potrebni su vam podaci za testiranje ovih softverskih aplikacija“, kaže Veeramachaneni. „Tradicionalno, programeri ručno pišu skripte za kreiranje sintetičkih podataka. Sa generativnim modelima, kreiranim pomoću SDV, možete učiti iz uzorka prikupljenih podataka, a zatim uzorkovati veliku količinu sintetičkih podataka (koji imaju ista svojstva kao stvarni podaci), ili kreirajte specifične scenarije i rubne slučajeve i koristite podatke za testiranje vaše aplikacije.“

Na primer, ako je banka želela da testira program dizajniran da odbije transfere sa računa na kojima nema novca, morala bi da simulira više računa koji istovremeno obavljaju transakcije. Da biste to uradili sa podacima kreiranim ručno, trebalo bi mnogo vremena. Sa DataCebo-ovim generativnim modelima, kupci mogu da kreiraju bilo koji ivični slučaj koji žele da testiraju.

„Uobičajeno je da industrije imaju podatke koji su u nekom svojstvu osetljivi“, kaže Patki. „Često kada se nalazite u domenu sa osetljivim podacima, imate posla sa propisima, a čak i ako ne postoje zakonski propisi, u najboljem je interesu kompanija da budu pažljive oko toga ko dobija pristup čemu u kom trenutku. Dakle, sintetički podaci su uvek bolji iz perspektive privatnosti.“

Veeramachaneni veruje da DataCebo napreduje u polju onoga što naziva sintetičkim podacima preduzeća, ili podacima generisanim ponašanjem korisnika na softverskim aplikacijama velikih kompanija.

„Podaci o preduzećima ove vrste su složeni i ne postoji univerzalna dostupnost, za razliku od jezičkih podataka“, kaže Veeramachaneni. „Kada ljudi koriste naš javno dostupan softver i izveštavaju o tome da li radi na određenom šablonu, naučimo mnogo ovih jedinstvenih obrazaca, i to nam omogućava da poboljšamo naše algoritme. Iz jedne perspektive, gradimo korpus ovih složenih obrazaca, koji je za jezik i slike lako dostupan.“

DataCebo je takođe nedavno objavio funkcije za poboljšanje korisnosti SDV-a, uključujući alate za procenu „realizma“ generisanih podataka, nazvane biblioteka SDMetrics, kao i način za upoređivanje performansi modela pod nazivom SDGim.

„Radi se o tome da se osigura da organizacije veruju ovim novim podacima“, kaže Veeramachaneni. „[Naši alati nude] programabilne sintetičke podatke, što znači da dozvoljavamo preduzećima da unesu svoj specifični uvid i intuiciju kako bi izgradili transparentnije modele.“

Kako kompanije u svakoj industriji žure da usvoje AI i druge alate za nauku o podacima, DataCebo im na kraju pomaže da to učine na način koji je transparentniji i odgovorniji.

„U narednih nekoliko godina, sintetički podaci iz generativnih modela će transformisati sav rad sa podacima“, kaže Veeramachaneni. „Verujemo da se 90% operacija preduzeća može obaviti pomoću sintetičkih podataka.“

Korišćenje generativne veštačke inteligencije za poboljšanje testiranja softvera

AUTOPUT PAKOVRAĆE–POŽEGA: Tunel bez dozvole, deonica bez funkcije, građani bez odgovora

VUČIĆEV PAD: Šta stoji iza gubitka podrške predsedniku Srbije

Zvaničnik potvrdio – oko 2.000 ljudi ubijeno u nemirima u Iranu

Kamiondžije blokiraju teretne terminale na graničnim prelazima 26. januara

Fon der Lajen: EU će ubrzo predložiti nove sankcije protiv iranskog režima

Pariz: Počeo žalbeni pistupak protiv Le Pen, ona stigla u sud u pratnji dva advokata

Bundesliga odredila nove termina odloženih utakmica 16. kola

Zvaničnik potvrdio – oko 2.000 ljudi ubijeno u nemirima u Iranu

Kamiondžije blokiraju teretne terminale na graničnim prelazima 26. januara

Fon der Lajen: EU će ubrzo predložiti nove sankcije protiv iranskog režima

Sneg doneo zimske uslove planinskim krajevima, sela u Lučanima ostala bez struje

Rumunija podigla borbene avione zbog novog upada drona

Rivers: Adetokumbo odsustvuje dve nedelje van terena zbog povrede

Zvaničnik potvrdio – oko 2.000 ljudi ubijeno u nemirima u Iranu

Kamiondžije blokiraju teretne terminale na graničnim prelazima 26. januara

Fon der Lajen: EU će ubrzo predložiti nove sankcije protiv iranskog režima

Lednik A-23A se dramatično plavi i brzo se približava potpunom uništenju

Mladic iz Velike Britanije, najmlađi oboleli od demencije, preminuo sa samo 24 godine

Zelena zemlja: Potencijal prirodnih resursa Grenlanda i izazovi ekološke održivosti

Tuberkuloza i dalje predstavlja ozbiljan problem za čovečanstvo, uprkos napretku medicine

Nema čvrstih dokaza da hormonska terapija posle menopauze utiče na demenciju

Grčka: Brod sa migrantima potonuo, pronađena četiri tela, među kojima je jedno dete

Tragična nesreća: Pogibija ekstremnog sportiste Felixa Baumgartnera zbog ljudske greške

Zgrada u centru Madrida delimično se srušila, tri povređene osobe

Bundesliga odredila nove termina odloženih utakmica 16. kola

Penjaroja: Parker i Braun propuštaju meč protiv Olimpijakosa

Stojaković: Očekujem zahtevnu utakmicu protiv Mure, kvalitet je na našoj strani

Košarkaš Beča Sulejman Bum najkorisniji igrač 14. kola ABA lige

Srpski vaterpolista Dušan Mandić suspendovan na dve utakmice

Sutra oblačno uz postepeno razvedravanje, teperatura do 10 stepeni

Do kraja dana oblačno i malo toplije, temperatura do 7 stepeni

Danas oblačno i malo toplije, temperatura do 7 stepeni

Pročitajte još