Računalništvo, telefonija
28.09.2025 07:49

Deli z drugimi:

Share

OpenAI pokazal, kje umetna inteligenca že prehiteva človeške strokovnjake

OpenAI je razkril nov merilnik uspešnosti UI modelov, imenovan GDPval. S tem meri, kako dobro se njihovi modeli umetne inteligence odrežejo v primerjavi s človeškimi strokovnjaki v različnih panogah.

Kaj je GDPval?

GDPval temelji na devetih panogah, ki največ prispevajo k ameriškemu BDP-ju, med njimi zdravstvo, finance, proizvodnja in javna uprava. Znotraj teh področij je test zajel 44 poklicev, od programerjev do medicinskih sester in novinarjev. Prva različica, GDPval-v0, deluje tako, da izkušeni strokovnjaki primerjajo UI poročila s poročili ljudi in izberejo boljše.

Rezultati testiranj

  • GPT-5-high (nadgrajena različica GPT-5) je bil ocenjen kot boljši ali enakovreden industrijskim strokovnjakom v 40,6 % primerov.
  • Claude Opus 4.1 (Anthropic) je bil ocenjen kot boljši ali enakovreden v 49 % primerov. OpenAI meni, da je k temu pripomogla sposobnost modela za ustvarjanje privlačnih grafik, ne nujno vsebina.
  • Za primerjavo: GPT-4o, izdan pred približno 15 meseci, je dosegel le 13,7 %.

Omejitve testiranja

OpenAI priznava, da trenutna različica GDPval zajema le omejen nabor nalog – predvsem pripravo raziskovalnih poročil. Večina poklicev pa vključuje veliko več kot le pisanje poročil. Zato načrtujejo prihodnje različice, ki bodo bolj robustne, z več panogami in interaktivnimi delovnimi procesi.

Pomen za prihodnost dela

Kljub omejitvam je napredek očiten. Dr. Aaron Chatterji, glavni ekonomist pri OpenAI meni, da lahko strokovnjaki zdaj s pomočjo UI modelov nekatere naloge prepustijo tem  in se osredotočijo na opravila z večjo dodano vrednostjo. Tejal Patwardhan iz OpenAI dodaja, da je napredek v zadnjih 15 mesecih spodbuden in da pričakuje nadaljnjo rast zmogljivosti.

Silicijeva dolina ima že vrsto preizkusov (npr. AIME 2025 za matematične probleme in GPQA Diamond za znanstvena vprašanja na doktorski ravni). Toda številni modeli so na teh testih že blizu zgornje meje. GDPval se zato lahko razvije v pomembno orodje za merjenje dejanske uporabnosti umetna inteligence v gospodarstvu. Za zdaj pa bo moral OpenAI pripraviti še obsežnejše različice, preden bo lahko samozavestno trdil, da UI resnično presega človeške strokovnjake.


Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Share
Prijavi napako v članku
Vas zanima več iz te teme?
umetna inteligenca


Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Zlati partner

MIKROCOP d.o.o.

Ulica Ambrožiča Novljana 7, 1000 Ljubljana, Tel: 01 587 42 80
Mikrocop je vodilni ponudnik celovitih IT rešitev in storitev za digitalno poslovanje. S povečevanjem učinkovitosti in zagotavljanjem zakonske skladnosti podpira podjetja na ... Več
Zlati partner

SI SPLET d.o.o.

Ukmarjeva ulica 4, 1000 Ljubljana, Tel: 01 428 94 66
O podjetju Si splet V podjetju Si splet d. o. o. od leta 2001 tržimo varnostne rešitve na področju informacijskih tehnologij. V letu 2003 smo pridobili ekskluzivno partnerstvo ... Več

ATELJE HERTIŠ d.o.o.

Laznica 63, 2341 Limbuš, Tel: 02 663 30 03
Se trudite povečati prodajo in privabiti nove stranke? Zakaj ne bi kar izkoristili promet, ki gre mimo vašega podjetja? Ali pa enostavno pritegnili obiskovalce določenega dogodka? ... Več
Zlati partner

STRIM PLUS d.o.o.

Cesta dveh cesarjev 393, 1000 Ljubljana, Tel: 05 907 52 00
Strim plus d.o.o. sestavlja dinamična ekipa, ki se ukvarja s tremi segmenti poslovanja v prehodu od papirnate sedanjosti v digitalno prihodnost. Foto: Freepik Pametni zasloni Potrebujete ... Več