Računalništvo, telefonija
Programska oprema
14.01.2025 07:00

Deli z drugimi:

Share

Kako pomanjkanje podatkov ogroža prihodnost umetne inteligence

Umetna inteligenca se sooča s pomanjkanjem ključnih podatkov, kar vodi k uporabi sintetičnih rešitev. So "lažni" podatki lahko prihodnost umetne inteligence ali tveganje za kakovost modelov in njihove zmogljivosti?

Svet umetne inteligence se sooča s pomanjkanjem svoje najdragocenejše surovine – podatkov. To je sprožilo razprave o vse bolj priljubljeni alternativi: sintetičnih ali celo “lažnih” podatkih. Dolga leta so podjetja, kot sta OpenAI in Google, za učenje velikih jezikovnih modelov (LLM-jev), ki poganjajo njihove UI rešitve, pridobivala podatke z interneta. Ti modeli so prebavili ogromne količine človeško ustvarjenih vsebin, od raziskovalnih člankov in romanov do YouTube posnetkov.

Zdaj teh podatkov počasi zmanjkuje, njihova količina postaja vse bolj omejena. Določeni glavni akterji na tem področju, na primer OpenAI-jev direktor Sam Altman, verjamejo, da bodo modeli za samostojno učenje lahko uporabljali sintetične podatke, kar bi omogočilo poceni in skoraj neskončen vir podatkov.

Kljub temu raziskovalci opozarjajo na tveganja. Sintetični podatki bi lahko zmanjšali kakovost modelov, saj se lahko ti “zastrupljajo” z lastnimi napakami. Raziskava univerz v Oxfordu in Cambridgeu je pokazala, da hranjenje modelov izključno s sintetičnimi podatki vodi v slabe rezultate in “nesmisle”. Po njihovem mnenju je uravnotežena uporaba sintetičnih in realnih podatkov ključna.

Vedno več podjetij ustvarja sintetične podatke

Pomanjkanje podatkov vodi podjetja k iskanju alternativ, kot so sintetični podatki, ki jih generirajo UI sistemi na podlagi realnih podatkov. Tehnološka podjetja, med drugimi tudi OpenAI in Google, že zdaj plačujejo milijone za dostop do podatkov platform, kot so Reddit in razne medijske hiše, saj spletna mesta vse bolj omejujejo brezplačno uporabo njihovih vsebin. Kljub temu so viri omejeni.

Nvidia, Tencent in startupi Gretel ter SynthLabs, razvijajo orodja za ustvarjanje sintetičnih podatkov, ki so pogosto bolj čisti in bolj specifični od človeško ustvarjenih. Meta je z modelom Llama 3.1 uporabljala sintetične podatke za izboljšanje veščin, kot so programiranje in reševanje matematičnih problemov. Sintetični podatki ponujajo tudi možnost zmanjševanja pristranskosti, ki jo vsebujejo realni podatki, čeprav raziskovalci opozarjajo, da zagotavljanje natančnosti in nepristranskosti ostaja velik izziv.

“Habsburška” umetna inteligenca

Čeprav sintetični podatki prinašajo prednosti predstavljajo tudi resna tveganja. Raziskava Mete o modelu Llama 3.1 je pokazala, da učenje modela z lastnimi sintetičnimi podatki lahko celo poslabša njegovo zmogljivost. Podobno je študija v reviji Nature opozorila, da nenadzorovana uporaba sintetičnih podatkov vodi do “kolapsa modela,” kar so raziskovalci primerjali z genetsko degeneracijo in dogajanje simbolično poimenovali “Habsburška umetna inteligenca”. Izraz, ki ga je skoval raziskovalec Jathan Sadowski.

Glavno vprašanje ostaja: koliko sintetičnih podatkov je preveč? Nekateri strokovnjaki predlagajo uporabo hibridnih podatkov, kjer se sintetični podatki kombinirajo z resničnimi, da se prepreči degradacija modelov. Podjetja, kot je Scale AI, raziskujejo ta pristop, njihov direktor Alexandr Wang pa meni, da je hibridni pristop “prava prihodnost.”

Iskanje novih rešitev

Januarja je Google DeepMind predstavil AlphaGeometry, sistem, ki rešuje geometrijske probleme na izredno visoki ravni z uporabo “nevro-simboličnega” pristopa. Ta združuje prednosti podatkovno intenzivnega globokega učenja in logičnega sklepanja na osnovi pravil. Model je bil v celoti učen na sintetičnih podatkih in velja za potencialni korak proti umetni splošni inteligenci.

Nevro-simbolično področje je še mlado, vendar bi lahko ponudilo obetavno smer za prihodnost razvoja umetne inteligence. Pod pritiskom monetizacije bodo podjetja, kot so OpenAI, Google in Microsoft, preizkusila vse možne rešitve za premagovanje podatkovne krize.


Vam je bila novica zanimiva?

Povejte prijateljem, da ste novico prebrali na Računalniških novicah.

Share
Prijavi napako v članku
Vas zanima več iz te teme?
umetna inteligenca


Kaj berejo drugi?

Partnerji Računalniških novic Prikaži vse

Diamantni partner

Miklavčič marketing, d.o.o.

Zgornji Brnik 130H, 4210 Brnik aerodrom, Tel: 041 414 847
Zlati partner

STRIM PLUS d.o.o.

Cesta dveh cesarjev 393, 1000 Ljubljana, Tel: 05 907 52 00
Strim plus d.o.o. sestavlja dinamična ekipa, ki se ukvarja s tremi segmenti poslovanja v prehodu od papirnate sedanjosti v digitalno prihodnost. Foto: Freepik Pametni zasloni Potrebujete ... Več
Zlati partner

COLBY d.o.o.

Limbuška cesta 2, 2341 Limbuš, Tel: 02 330 33 00
Podjetje Colby d.o.o. je bilo ustanovljeno leta 1993. Ukvarja se s prodajo iger za računalnike in igralne konzole. V začetku so prodajali preko pošte, kasneje preko lastne trgovine. ... Več

NAVEZA d.o.o.

Ščita 9, 1315 Velike Lašče, Tel: 01 787 30 25
Naveza d.o.o. je podjetje z več kot 15 leti izkušenj na področju računalniške podpore, digitalizacije ter izdelave in vzdrževanja spletnih strani. Vedno si prizadevajo najti rešitve, ... Več