Kako blizu je umetna inteligenca človeškim strokovnjakom?

OpenAI je predstavil nov testni standard z imenom GDPval, ki ocenjuje, kako se njegovi AI modeli primerjajo s človeškimi strokovnjaki v ključnih industrijah. Test je del širše misije podjetja za razvoj umetne splošne inteligence (AGI), ki bi lahko opravljala gospodarsko pomembna dela.
GDPval se osredotoča na devet glavnih sektorjev, ki prispevajo k ameriškemu BDP, vključno z zdravstvo, financami, proizvodnjo in javnim sektorjem. Ocenjuje zmogljivost AI v 44 poklicih tako, da strokovnjaki primerjajo poročila, ki jih je ustvaril AI, s tistimi, ki jih je pripravil človek.
V prvi različici GDPval-v0 je OpenAI ugotovil, da je GPT-5-high, zmogljivejša različica GPT-5, dosegel ali presegel raven strokovnjakov v 40,6 odstotkov nalog. Claude Opus 4.1 podjetja Anthropic je dosegel še višjo oceno, 49 odstotkov, čeprav OpenAI del uspeha pripisuje vizualno privlačnim izhodom.
Čeprav test trenutno ocenjuje le naloge pisanja poročil, OpenAI načrtuje širitev na bolj interaktivne in raznolike delovne tokove. Podjetje vidi GDPval kot obetaven korak k temu, da strokovnjaki prenesejo rutinska opravila na AI in se osredotočijo na naloge z večjo dodano vrednostjo.
GPT-4o je pred 15 meseci dosegel le 13,7 odstotkov, kar kaže na hiter napredek. Ker tradicionalni testi, kot sta AIME in GPQA, dosegajo zasičenost, bi lahko GDPval postal ključno orodje za merjenje zmogljivosti AI v resničnem svetu.
Prijavi napako v članku