Računalništvo, telefonija
Programska oprema
14.01.2025 07:00

Deli z drugimi:

Share

Kako pomanjkanje podatkov ogroža prihodnost umetne inteligence

Umetna inteligenca se sooča s pomanjkanjem ključnih podatkov, kar vodi k uporabi sintetičnih rešitev. So "lažni" podatki lahko prihodnost umetne inteligence ali tveganje za kakovost modelov in njihove zmogljivosti?

Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.

Zdaj teh podatkov počasi zmanjkuje, njihova količina postaja vse bolj omejena. Določeni glavni akterji na tem področju, na primer OpenAI-jev direktor Sam Altman, verjamejo, da bodo modeli za samostojno učenje lahko uporabljali sintetične podatke, kar bi omogočilo poceni in skoraj neskončen vir podatkov.

Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.

Vedno več podjetij ustvarja sintetične podatke

Pomanjkanje podatkov vodi podjetja k iskanju alternativ, kot so sintetični podatki, ki jih generirajo UI sistemi na podlagi realnih podatkov. Tehnološka podjetja, med drugimi tudi OpenAI in Google, že zdaj plačujejo milijone za dostop do podatkov platform, kot so Reddit in razne medijske hiše, saj spletna mesta vse bolj omejujejo brezplačno uporabo njihovih vsebin. Kljub temu so viri omejeni.

Nvidia, Tencent in startupi Gretel ter SynthLabs, razvijajo orodja za ustvarjanje sintetičnih podatkov, ki so pogosto bolj čisti in bolj specifični od človeško ustvarjenih. Meta je z modelom Llama 3.1 uporabljala sintetične podatke za izboljšanje veščin, kot so programiranje in reševanje matematičnih problemov. Sintetični podatki ponujajo tudi možnost zmanjševanja pristranskosti, ki jo vsebujejo realni podatki, čeprav raziskovalci opozarjajo, da zagotavljanje natančnosti in nepristranskosti ostaja velik izziv.

“Habsburška” umetna inteligenca

Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.

Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”

Iskanje novih rešitev

Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.

Nevro-simbolično področje je še mlado, vendar bi lahko ponudilo obetavno smer za prihodnost razvoja umetne inteligence. Pod pritiskom monetizacije bodo podjetja, kot so OpenAI, Google in Microsoft, preizkusila vse možne rešitve za premagovanje podatkovne krize.


Prijavi napako v članku
Vas zanima več iz te teme?
umetna inteligenca


Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Zlati partner

Kaspersky

, ,
Kaspersky je globalno priznano podjetje, specializirano za raziskovanje, razvoj in ponudbo visoko zmogljivih varnostnih rešitev za informacijsko varnost in zaščito pred spletnimi ... Več

Nova Vizija, informacijski inženiring in svetovanje, d.d.

Celjska cesta 9, 3310 Žalec, Tel: 03 71 21 800
Odločitev, v katero informacijsko tehnologijo bi moralo vlagati vaše podjetje in v katere ne, je težka. Po eni strani želite biti tisti, ki je odgovoren za inovacije in rast ... Več

Jamada skupina d.o.o.

Cesta k Tamu 12, 2000 Maribor, Tel: 02 330 53 50
Podjetje je bilo ustanovljeno iz bivše DataLab poslovne enote Maribor. Preživeli so obdobje mladostniške zaletavosti in vihravosti. Prerasli so v zrelo podjetje z jasno vizijo, ... Več

SOREX d.o.o.

Foersterjeva ulica 10, 8000 Novo mesto, Tel: 07 337 90 10