Računalništvo, telefonija
Programska oprema
14.01.2025 07:00

Deli z drugimi:

Share

Kako pomanjkanje podatkov ogroža prihodnost umetne inteligence

Umetna inteligenca se sooča s pomanjkanjem ključnih podatkov, kar vodi k uporabi sintetičnih rešitev. So "lažni" podatki lahko prihodnost umetne inteligence ali tveganje za kakovost modelov in njihove zmogljivosti?

Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.

Zdaj teh podatkov počasi zmanjkuje, njihova količina postaja vse bolj omejena. Določeni glavni akterji na tem področju, na primer OpenAI-jev direktor Sam Altman, verjamejo, da bodo modeli za samostojno učenje lahko uporabljali sintetične podatke, kar bi omogočilo poceni in skoraj neskončen vir podatkov.

Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.

Vedno več podjetij ustvarja sintetične podatke

Pomanjkanje podatkov vodi podjetja k iskanju alternativ, kot so sintetični podatki, ki jih generirajo UI sistemi na podlagi realnih podatkov. Tehnološka podjetja, med drugimi tudi OpenAI in Google, že zdaj plačujejo milijone za dostop do podatkov platform, kot so Reddit in razne medijske hiše, saj spletna mesta vse bolj omejujejo brezplačno uporabo njihovih vsebin. Kljub temu so viri omejeni.

Nvidia, Tencent in startupi Gretel ter SynthLabs, razvijajo orodja za ustvarjanje sintetičnih podatkov, ki so pogosto bolj čisti in bolj specifični od človeško ustvarjenih. Meta je z modelom Llama 3.1 uporabljala sintetične podatke za izboljšanje veščin, kot so programiranje in reševanje matematičnih problemov. Sintetični podatki ponujajo tudi možnost zmanjševanja pristranskosti, ki jo vsebujejo realni podatki, čeprav raziskovalci opozarjajo, da zagotavljanje natančnosti in nepristranskosti ostaja velik izziv.

“Habsburška” umetna inteligenca

Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.

Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”

Iskanje novih rešitev

Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.

Nevro-simbolično področje je še mlado, vendar bi lahko ponudilo obetavno smer za prihodnost razvoja umetne inteligence. Pod pritiskom monetizacije bodo podjetja, kot so OpenAI, Google in Microsoft, preizkusila vse možne rešitve za premagovanje podatkovne krize.


Prijavi napako v članku
Vas zanima več iz te teme?
umetna inteligenca


Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

VideoExpert.eu – trgovina s profesionalno video opremo

Gunceljska cesta 14, 1210 Ljubljana Šentvid, Tel: 01 512 22 11
Spletna trgovina VideoExpert.eu Spletna trgovina videoexpert.eu je vodilna slovenska trgovina s profesionalno video, cinema in broadcast opremo. Njihovo vodilo je nuditi najprimernejše ... Več

tinaLILIPUT – grafično oblikovanje

Mariborska cesta 82, 2312 Orehova vas, Tel: 031 343 481
Grafično oblikovanje je pomembno orodje, ki izboljša komunikacijo z drugimi. Služi za posredovanje vaših idej na način, ki ni le učinkovit, ampak tudi eleganten. Preprosto povedano, ... Več
Zlati partner

BROTHER CEE GmbH

Glavna cesta 46, 4202 Naklo, Tel: 030 600 474
Dejavni so v 28 državah, Brotherjevi izdelki pa so na voljo v več kot 100 državah.  Od ustanovitve korporacije leta 1934 si prizadevajo, da bi ideje prenesli v prakso z ustvarjanjem ... Več
Bronasti partner

E-MISIJA d.o.o.

Ljubljanska cesta 21d, 1241 Kamnik, Tel: 01 830 35 32
V E-MISIJI d.o.o. so v tridesetih letih svojega obstoja dokazali, da sodijo v sam vrh slovenske računalniške scene. Ne samo, da za njimi stoji več kot 20.000 zadovoljnih strank, ... Več