Računalništvo, telefonija
Programska oprema
14.01.2025 07:00

Deli z drugimi:

Share

Kako pomanjkanje podatkov ogroža prihodnost umetne inteligence

Umetna inteligenca se sooča s pomanjkanjem ključnih podatkov, kar vodi k uporabi sintetičnih rešitev. So "lažni" podatki lahko prihodnost umetne inteligence ali tveganje za kakovost modelov in njihove zmogljivosti?

Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.

Zdaj teh podatkov počasi zmanjkuje, njihova količina postaja vse bolj omejena. Določeni glavni akterji na tem področju, na primer OpenAI-jev direktor Sam Altman, verjamejo, da bodo modeli za samostojno učenje lahko uporabljali sintetične podatke, kar bi omogočilo poceni in skoraj neskončen vir podatkov.

Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.

Vedno več podjetij ustvarja sintetične podatke

Pomanjkanje podatkov vodi podjetja k iskanju alternativ, kot so sintetični podatki, ki jih generirajo UI sistemi na podlagi realnih podatkov. Tehnološka podjetja, med drugimi tudi OpenAI in Google, že zdaj plačujejo milijone za dostop do podatkov platform, kot so Reddit in razne medijske hiše, saj spletna mesta vse bolj omejujejo brezplačno uporabo njihovih vsebin. Kljub temu so viri omejeni.

Nvidia, Tencent in startupi Gretel ter SynthLabs, razvijajo orodja za ustvarjanje sintetičnih podatkov, ki so pogosto bolj čisti in bolj specifični od človeško ustvarjenih. Meta je z modelom Llama 3.1 uporabljala sintetične podatke za izboljšanje veščin, kot so programiranje in reševanje matematičnih problemov. Sintetični podatki ponujajo tudi možnost zmanjševanja pristranskosti, ki jo vsebujejo realni podatki, čeprav raziskovalci opozarjajo, da zagotavljanje natančnosti in nepristranskosti ostaja velik izziv.

“Habsburška” umetna inteligenca

Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.

Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”

Iskanje novih rešitev

Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.

Nevro-simbolično področje je še mlado, vendar bi lahko ponudilo obetavno smer za prihodnost razvoja umetne inteligence. Pod pritiskom monetizacije bodo podjetja, kot so OpenAI, Google in Microsoft, preizkusila vse možne rešitve za premagovanje podatkovne krize.


Prijavi napako v članku
Vas zanima več iz te teme?
umetna inteligenca


Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

VENUM PC

Cesta Jaka Platiše 18, 4000 Kranj, Tel: 06 999 39 83
Gaming računalniki, kot ste si jih vedno želeli Venum PC je inovativno podjetje, ki se ukvarja s servisom, odkupom in prodajo računalniške opreme. Na njihovi spletni strani ... Več

Seyfor d.o.o.

Cesta Goriške fronte 46, 5290 Šempeter pri Gorici, Tel: 05 393 40 00
Poslovni računalniški programi za javni sektor, podjetje, zasebnike ali obrtnike Saop je leta 1987 med prvimi v Sloveniji ponudil programsko opremo in je danes eden izmed vodilnih ... Več

COPIA BIRO d.o.o.

Koprska ulica 106b, 1000 Ljubljana, Tel: 01 242 58 00
Podjetje Copia biro d.o.o. je bilo ustanovljeno leta 2012. Od leta 1980 do leta 2012 je delovalo kot sektor v okviru podjetja Copia d.o.o. Leta 2013 so se preselili v poslovne prostore ... Več

SICIRUS d.o.o.

Ulica 15. maja 10b, 6000 Koper/capodistria, Tel: 041 694 668
Vsako podjetje, vsak ustvarjalec in tudi novodobni družbeni »influencer« se zaveda, da sta trženje in oglaševanje ključnega pomena za uspeh in rast. Kje in kako začeti? Področje ... Več