^...

Domov Računalništvo, telefonija Strojna oprema OpenAI razkriva: Umetna inteligenca se zna pretvarjati!

Strojna oprema

20.09.2025 14:49

Deli z drugimi:

Dodajte nas kot prednostni vir novic na Googlu.

Sledite nam na Google News

OpenAI razkriva: Umetna inteligenca se zna pretvarjati!

OpenAI je v sodelovanju z Apollo Research objavil raziskavo, ki razkriva, kako se AI modeli lahko naučijo pretvarjati in zavajati. Čeprav gre večinoma za manjše prevare, raziskovalci opozarjajo, da bo z večjo kompleksnostjo nalog rasla tudi nevarnost škodljivega spletkarjenja.

Raziskovalci največjih tehnoloških podjetij občasno predstavijo odkritja, ki zvenijo kot iz znanstvenofantastičnega romana. Google je nekoč trdil, da njihov kvantni procesor nakazuje obstoj več vesolj. Anthropic je svojemu AI agentu Claudiusu zaupal upravljanje avtomata s prigrizki, a ta pa je začel klicati varnostnike in trditi, da je človek. Tokrat pa je presenetil OpenAI.

V sodelovanju z Apollo Research je objavil raziskavo, ki razkriva, kako preprečiti, da bi se AI modeli “pretvarjali.” Po njihovih besedah gre za vedenje, kjer se AI na površju obnaša skladno s pričakovanji, v ozadju pa zasleduje povsem drugačne cilje. Raziskovalci so tovrstno “spletkarjenje” primerjali z borznim posrednikom, ki krši zakon za čim večji zaslužek. A večina primerov ni bila škodljiva Šlo je namreč za preproste prevare, kot je trditev, da je naloga opravljena, čeprav ni.

Glavni namen raziskave je bil pokazati, da tehnika “deliberativnega usklajevanja” deluje. Gre za pristop, kjer model pred delovanjem pregleda “anti-spletkarsko specifikacijo”, podobno kot otrok, ki mora ponoviti pravila, preden gre igrat. A tu je zaplet: če AI zazna, da je testiran, se lahko pretvarja, da ne spletkari. čeprav to še vedno počne. Poskusi, da bi model naučili, naj ne laže, lahko vodijo do tega, da se nauči lagati še bolj prefinjeno.

OpenAI priznava, da so zaznali laži tudi pri ChatGPT, a gre večinoma za manjše prevare, in sicer kot trditev, da je uspešno izdelal spletno stran, čeprav je ni. Raziskovalci opozarjajo, da bo z večjo kompleksnostjo nalog in dolgoročnimi cilji verjetnost škodljivega spletkarjenja rasla. Zato morajo rasti tudi varovalke in testni postopki.

Vse to pa odpira pomembna vprašanja za prihodnost umetne inteligence. Še posebej v podjetjih, kjer se AI agenti obravnavajo kot samostojni “zaposleni.”

Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Prijavi napako v članku

Vas zanima več iz te teme?

umetna inteligenca

Povezave

OpenAI

Sorodne novice

LG monitorji naj bi brez dovoljenja nameščali McAfee ...

LC-M27QO (levo) je QD-OLED monitor, ki je priletel na mojo mizo. Glede na ceno sem pričakoval, da bo imel kar nekaj kompromisov, ampak sem se motil.

Test LC-M27QO – dober QD-OLED monitor za plitke žepe

Sistemski pomnilniki DDR5 bodo kmalu zašli na prodajne police trgovin!

Bodo ZDA prepovedale kitajski pomnilnik CXMT in YMTC ...

Foto: MSI

MSI na matičnih ploščah AMD pohitril kitajski pomnilnik ...

Zmanjkalo mi je polnilnikov, krivim trajnost

Foto: Goodram

Goodram zaradi krize ponovno uvaja DDR4 module kapacitete ...

Kaj berejo drugi?

Vse več podjetij ima virtualnega CISO-ja. Razlog ni le zakonodaja

ANTHBOT M9 Pro

Test ANTHBOT M9 Pro: robotska kosilnica, ki se ne boji dreves, senc in ozkih prehodov

En klik. Ena napaka. Velike posledice.

Ko nevidno postane vidno z optično tehnologijo

Znanje, ki gradi zaupanje v digitalni dobi

Kdaj je čas za prehod na industrijski tiskalnik nalepk?

Izpostavljeno

LC-M27QO (levo) je QD-OLED monitor, ki je priletel na mojo mizo. Glede na ceno sem pričakoval, da bo imel kar nekaj kompromisov, ampak sem se motil.

Test LC-M27QO – dober QD-OLED monitor za plitke žepe

Test Glorious Model O Eternal: ali res potrebujete ...

Nikoli več ne zamudite popolne ponudbe: e-poštna ...

Poletni igralni val: Od lebdečih otokov do noir detektivov ...

Test HONOR Magic V6 – prevzel je naziv najboljšega, ...

Najbolj brano

Foto: Pixabay

Optična povezava čipov prinaša 100-krat hitrejše ...

Foto: YouTube

Novi operacijski sistem, ki vrača življenje odpisanim ...

Foto: tphuang/X

Jedrska baterija, ki deluje več tisoč let

Najnovejši mali oglasi

HP UltraSlim Docking Station 2013 D9Y32AA

Ljubljana

HP UltraSlim Docking Station 2013 D9Y32AA

Noži za robotske kosilnice (komplet 15x)

Ljubljana

Noži za robotske kosilnice (komplet 15x)

Igralna konzola Nintendo GameCube

Murska Sobota

Igralna konzola Nintendo GameCube

Microsoft Surface pro 4, core i5, 128gb ssd, 4gb ram, Win 11

Kranj

Microsoft Surface pro 4, core i5, 128gb ssd, 4gb ram, Win 11

MacBook Air (13-inch, Mid 2011)

Ljubljana

MacBook Air (13-inch, Mid 2011)

Prodam odlično ohranjeno pametno uro Samsung Galaxy watch 7 40mm v zeleni barvi

Žalec

Prodam odlično ohranjeno pametno uro Samsung Galaxy watch 7 40mm v zeleni barvi

Dogodki

30

Avg

ČAROBNI DAN

2

Sep

INFOSEK 2026

Vsi dogodki

Dražbe / Licitacije Prikaži vse

Trenutna cena 230,⁰⁰€

E-bralnik / tablični računalnik BOOX Go 10.3 Gen II – IZKLICNA CENA 1 €!

Trenutna cena 25,⁰⁰€

Družinska vstopnica (2 + 2) za Pustolovski park Geoss – IZKLICNA CENA 1 €!

Trenutna cena 600,⁰⁰€

Robotska kosilnica ANTHBOT Genie 800 – TESTNI MODEL – IZKLICNA CENA 1 €!

Izklicna cena 1,⁰⁰€

Pisarniški stol Ergos GRANDE – IZKLICNA CENA 1 €!

Partnerji Računalniških novic Prikaži vse

Zlati partner

CEWE Magyarország Kft.

Béke utca 21-29, , Tel: 08 205 91 91

Čeprav živimo v digitalni dobi in skorajda vsak podatek arhiviramo v digitalnem arhivu, so fotografije redka izjema. Vse več fotografij je zajetih s pomočjo pametnih telefonov, ... Več

eTAROK, MIROSLAV CIGAN s.p.

Ulica Štefana Kovača 2, 9231 Beltinci, Tel: 041 519 443

Računalniška igra za ljubitelje taroka Življenje se je v zadnjem letu preselilo v naše domove, kjer poleg dela iščemo različne vrste razvedrila. Za ljubitelje igre s tarok ... Več

SOREX d.o.o.

Foersterjeva ulica 10, 8000 Novo mesto, Tel: 07 337 90 10

Več

Diamantni partner

Digitalno inovacijsko stičišče Slovenije

Dimičeva ulica 13, 1000 Ljubljana, Tel: 040 606 710

Več

Poletni igralni val: Od lebdečih otokov do noir detektivov in postapokaliptične prihodnosti

1348 Ex Voto: čudovita srednjeveška Italija z neizkoriščenim potencialom

The Bearer & The Last Flame: ambiciozna soulslike pustolovščina, ki ji zmanjka natančnosti

I Hate This Place: ko stripovska grozljivka zaživi kot igra

Partner