Program uvaja metodološki okvir za zanesljivo benchmarking okolje, ki vključuje:
-
sistematično analizo vpliva režimov pozivanja (npr. zero-shot, few-shot, chain-of-thought),
-
večnivojsko vrednotenje preko različnih nalog (klasifikacija, generiranje, sklepanje),
-
statistično zanesljive primerjave modelov,
-
oceno robustnosti, stabilnosti in generalizacije modelov.
Poseben poudarek je na razvoju razložljivih metrik in analitičnih orodij, ki omogočajo identifikacijo dejavnikov, ki vplivajo na uspešnost modelov (npr. dolžina poziva, struktura navodil, domena podatkov). Cilj je preseči zgolj rangiranje modelov ter omogočiti poglobljeno razumevanje njihovega vedenja skozi naloge in scenarije uporabe. Program bo prispeval k večji transparentnosti, reproducibilnosti in zaupanju v uporabo velikih jezikovnih modelov v znanosti, industriji in javnem sektorju ter postavil temelje za odgovorno in podatkovno podprto odločanje pri izbiri modelov in strategij pozivanja.