Prepoznavanje grupnih aktivnosti (GAR), koje ima za cilj da identifikuje aktivnosti koje se kolektivno obavljaju u video zapisima, nedavno je privuklo značajnu pažnju. Postojeći GAR skupovi podataka obično označavaju samo jednu instancu grupne aktivnosti (GA) po uzorku, pažljivo odabranu iz originalnih video snimaka.
Ovaj pristup, iako precizan, značajno se razlikuje od konteksta iz stvarnog sveta, koji često uključuje više instanci GA. Štaviše, napomene na nivou jedne reči su nedovoljne da inkapsuliraju složene semantičke informacije u GA, čime se ograničava proširenje i istraživanje drugih zadataka u vezi sa GA.
Da bi ublažio ova ograničenja, istraživački tim predvođen Vang Jun-Hongom (Univerzitet Beihang, Kina) objavio je svoje istraživanje 15. decembra 2024. u Frontiers of Computer Science.
Tim je predložio FIFAVC, novi skup podataka za GAR koji karakterišu tri značajne razlike:
U istraživanju, oni upoređuju FIFAVC na dva zadatka: tradicionalni GAR i inovativni GA video titlovi. Za GAR, oni procenjuju klasični pristup baziran na detektoru ARG i najsavremeniji DFVSGAR bez detektora.
Rezultati otkrivaju visoku tačnost na nivou kategorije, ali nisku tačnost na nivou uzorka zbog višestrukih GA po uzorku, što odražava složenost i izazov FIFAVC-a. U poređenju sa primernim performansama (25,87 u smislu CIDEr) PDVC-a u skupu podataka ActivitiNet, loš učinak na FIFAVC-u ukazuje na to da su neophodna dalja istraživanja za titlovanje video zapisa u GA