Kao deo DARPA-inog programa SafeDocs, naučnici JPL podataka prikupili su 8 miliona PDF-ova koji se sada mogu koristiti za dalje proučavanje kako bi internet učinili sigurnijim.
NASA-ina Laboratorija za mlazni pogon dobro je poznata po sletanju rovera na Mars, istraživanju solarnog sistema robotskim sondama i razvoju osetljivih naučnih instrumenata koji posmatraju Zemlju i druge planete. Ali manje poznat je vrhunski rad laboratorije u digitalnom svetu.
Da bi podržali šire napore da se internet učini sigurnijim, naučnici JPL podataka kreirali su najveću javno dostupnu arhivu (korpus) PDF-ova otvorenog koda. Skraćeno za prenosivi format dokumenta, PDF je složena vrsta datoteke koja izgleda kao štampani dokument i može da sadrži slike, filmske datoteke, interaktivne forme, 3D modele i još mnogo toga.
Novi PDF korpus je deo programa Agencije za napredna istraživanja u oblasti odbrane (DARPA) pod nazivom Safe Documents (SafeDocs) koji ima za cilj da se nosi sa onlajn pretnjama, istovremeno predviđajući bezbednosne potrebe korisnika PDF-a. Radeći sa neprofitnom PDF asocijacijom, koja nastoji da uspostavi otvorene specifikacije i standarde za tehnologiju, JPL pomaže u razvoju nekoliko alata za suočavanje sa ovim izazovima.
Prilikom izrade korpusa, tim nije procenio stvarnu temu PDF-ova. Njihov cilj je bio da prikupe veliki reprezentativni uzorak PDF-ova koji postoje na internetu kako bi stručnjaci mogli da traže zlonamerni softver koji bi mogao biti sakriven u kodu datoteka. Taj rad će se zatim koristiti za predviđanje novih pretnji na mreži i poboljšanje PDF tehnologije.
„PDF-ovi se koriste svuda i važni su za ugovore, pravne dokumente, 3D inženjerske dizajne i mnoge druge svrhe. Nažalost, oni su složeni i mogu biti kompromitovani da bi sakrili zlonamerni kod ili dali različite informacije za različite korisnike na zlonameran način“, rekao je Tim Alison, naučnik podataka u JPL u južnoj Kaliforniji. „Da bismo se suočili sa ovim i drugim izazovima PDF-ova, potrebno je prikupiti veliki uzorak PDF-ova iz stvarnog sveta sa interneta kako bi se stvorio zajednički, besplatno dostupan resurs za stručnjake za softver.“
Izgradnja korpusa nije bio lak zadatak. Kao početnu tačku, Allisonov tim je koristio Common Cravl, javno skladište podataka o pretraživanju veba otvorenog koda, da identifikuje širok spektar PDF-ova koji će biti uključeni u korpus—datoteke koje su javno dostupne i nisu iza zaštitnih zidova ili u privatnim mrežama . Sprovedeno između jula i avgusta 2021. godine, indeksiranje je identifikovalo otprilike 8 miliona PDF-ova.
Common Cravl ograničava preuzete podatke na 1 megabajt po datoteci, što znači da su veće datoteke bile nekompletne. Ali istraživačima je potreban ceo PDF, a ne skraćena verzija, da bi sproveli smisleno istraživanje o njima. Ograničenje veličine datoteke smanjilo je broj potpunih, neskraćenih datoteka izvučenih direktno iz Common Cravl-a na 6 miliona. Da bi dobio ostalih 2 miliona PDF-ova i osigurao da je korpus kompletan, JPL tim je ponovo preuzeo skraćene datoteke koristeći specijalizovani softver koji je preuzeo cele datoteke sa veb adresa nepotpunih PDF-ova.
Različiti metapodaci, kao što je softver koji se koristi za kreiranje svakog PDF-a, ekstrahovani su i uključeni su u korpus. JPL tim se takođe oslanjao na besplatan, javno dostupan softver za geolokaciju da bi identifikovao lokaciju servera izvorne veb stranice za svaki PDF. Kompletan skup podataka ima oko 8 terabajta, što ga čini najvećim javno dostupnim korpusom te vrste.
Korpus će učiniti više od pomoći istraživačima da identifikuju pretnje. Istraživači privatnosti, na primer, mogli bi da prouče ove datoteke kako bi utvrdili kako se softver za kreiranje i uređivanje datoteka može poboljšati da bi se bolje zaštitili lični podaci. Programeri softvera bi mogli da koriste datoteke da pronađu greške u svom kodu i da provere da li su stare verzije softvera i dalje kompatibilne sa novijim verzijama PDF-ova.
„Ovo je otvorena i ponovljiva nauka. Istraživači moraju da imaju zajednički skup podataka za rad kako bi mogli da uporede rezultate različitih tehnika analize i eksperimenata“, rekao je Simson Garfinkel, koji je napravio korpus od milion datoteka, uključujući hiljade PDF-ova. , pod nazivom GOVDOCS1 2008. godine kada je bio vanredni profesor na Pomorskoj postdiplomskoj školi u Montereju, Kalifornija. „PDF je jedan od najvažnijih tipova datoteka na internetu danas, a ovaj doprinos od otprilike 8 terabajta podataka pruža fakultetima, studentima i korporacijama ažurirane referentne podatke koji će pokretati istraživanja u godinama koje dolaze.“