Poslednjih godina, istraživači iz oblasti medicine su razvili nove tehnike za organizovanje i analizu velikih količina istraživačkih podataka kako bi otkrili veze između različitih varijabli poput bolesti, lekova i proteina. Jedna od ovih tehnika uključuje kreiranje grafova biomedicinskog znanja (KG), koji predstavljaju strukturirane prikaze biomedicinskih podataka.
Nedavno su istraživači sa Univerziteta u Pekingu i Univerziteta u Vašingtonu istakli da bi zlonamerni korisnici mogli da iskoriste velike jezičke modele (LLM) za trovanje biomedicinskih grafova znanja. Njihovo istraživanje, objavljeno u Nature Machine Intelligence, pokazuje da LLM mogu generisati lažne naučne radove koji mogu dovesti do nepouzdanih grafova znanja i negativno uticati na medicinska istraživanja.
„Naša studija proizilazi iz napretka velikih jezičkih modela i potencijalne zloupotrebe u oblasti biomedicine“, izjavio je Junvei Jang, prvi autor istraživanja. Cilj istraživanja bio je istražiti mogućnosti korišćenja LLM za trovanje grafova znanja i proceniti potencijalni uticaj ovakvog postupka na medicinska otkrića. Takođe su želeli da istraže rizike povezane sa korišćenjem javno dostupnih setova podataka za medicinska istraživanja i predlože mere za sprečavanje takvih zlonamernih postupaka.
Kroz razvoj Scorpius cevovoda u tri koraka, istraživači su uspeli da kreiraju lažne sažetke naučnih radova i testiraju njihov uticaj na relevantnost veza između lekova i bolesti u grafovima znanja. Njihovi nalazi pokazuju da čak i jedan zlonamerni sažetak može značajno uticati na rangiranje veza, što naglašava ranjivost grafova znanja i potrebu za jačim merama osiguranja integriteta medicinskog znanja.
Ova studija ističe važnost efikasnih strategija za sprečavanje zlonamernih manipulacija grafovima znanja korišćenjem LLM. Istraživači planiraju dalja istraživanja kako bi otkrili bolje mehanizme za otkrivanje zlonamernih sažetaka i unapredili mere zaštite podataka u budućnosti.