Softver
Računalstvo, telefonija
14.01.2025 07:00

Podijelite s drugima:

Udio

Kako nedostatak podataka ugrožava budućnost umjetne inteligencije

Umjetna inteligencija suočava se s nedostatkom ključnih podataka, što dovodi do upotrebe sintetičkih rješenja. Mogu li "lažni" podaci biti budućnost umjetne inteligencije ili rizik za kvalitetu modela i njihovu izvedbu?
Kako nedostatak podataka ugrožava budućnost umjetne inteligencije

Svijet umjetne inteligencije suočava se s nedostatkom svoje najvrjednije sirovine – podataka. To je potaknulo rasprave o sve popularnijoj alternativi: sintetičkim ili čak "lažnim" podacima. Godinama su tvrtke poput OpenAI-ja i Googlea iskopavale podatke s interneta kako bi naučile modele jezika velikih razmjera (LLM) koji pokreću njihova UI rješenja. Ovi su modeli probavili ogromne količine sadržaja koji su stvorili ljudi, od istraživačkih članaka i romana do YouTube videa.

Sada tih podataka polako ponestaje, njihova količina postaje sve ograničenija. Određeni glavni igrači na tom polju, poput direktora OpenAI-ja Sama Altmana, vjeruju da će samoučeći modeli moći koristiti sintetičke podatke, što bi predstavljalo jeftin i gotovo beskonačan izvor podataka.

Ipak, istraživači upozoravaju na rizike. Sintetički podaci mogli bi smanjiti kvalitetu modela jer se mogu "zatrovati" vlastitim pogreškama. Istraživanje sveučilišta Oxford i Cambridge pokazalo je da hranjenje modela isključivo sintetičkim podacima dovodi do loših rezultata i "besmislica". Prema njima, ključna je uravnotežena uporaba sintetičkih i stvarnih podataka.

Sve više tvrtki stvara sintetičke podatke

Nedostatak podataka navodi tvrtke da traže alternative, poput sintetičkih podataka koje generiraju UI sustavi na temelju stvarnih podataka. Tehnološke tvrtke, uključujući OpenAI i Google, već plaćaju milijune za pristup podacima s platformi poput Reddita i raznih medijskih kuća, jer web stranice sve više ograničavaju besplatnu upotrebu svojih sadržaja. Međutim, resursi su ograničeni.

Nvidia, Tencent i startupi Gretel i SynthLabs razvijaju alate za stvaranje sintetičkih podataka koji su često čišći i specifičniji od podataka koje generiraju ljudi. S Llama 3.1, Meta je koristila sintetičke podatke za poboljšanje vještina kao što su programiranje i rješavanje matematičkih problema. Sintetički podaci također nude mogućnost smanjenja pristranosti svojstvene stvarnim podacima, iako istraživači upozoravaju da osiguravanje točnosti i nepristranosti ostaje veliki izazov.

"Habsburška" umjetna inteligencija

Iako sintetički podaci donose koristi, oni također predstavljaju ozbiljne rizike. Metino istraživanje o modelu Llama 3.1 pokazalo je da treniranje modela s vlastitim sintetičkim podacima može čak pogoršati njegovu izvedbu. Slično, studija u časopisu Nature upozorila je da nekontrolirano korištenje sintetičkih podataka dovodi do "kolapsa modela", što su istraživači usporedili s genetskom degeneracijom i simbolično nazvali fenomen "habsburške umjetne inteligencije". Izraz koji je skovao istraživač Jathan Sadowski.

Ostaje glavno pitanje: koliko je sintetičkih podataka previše? Neki stručnjaci predlažu korištenje hibridnih podataka, gdje se sintetički podaci kombiniraju sa stvarnim podacima kako bi se izbjegla degradacija modela. Tvrtke poput Scale AI istražuju ovaj pristup, a njihov izvršni direktor, Alexandr Wang, vjeruje da je hibridni pristup "prava budućnost".

Pronalaženje novih rješenja

U siječnju je Google DeepMind predstavio AlphaGeometry, sustav koji rješava geometrijske probleme ekstremno visoke razine korištenjem "neuro-simboličkog" pristupa. Kombinira prednosti dubokog učenja s intenzivnim podacima i rezoniranja temeljenog na pravilima. Model je u potpunosti uvježban na sintetičkim podacima i smatra se potencijalnim korakom prema općoj umjetnoj inteligenciji.

Neuro-simboličko područje je još uvijek mlado, ali moglo bi ponuditi obećavajući smjer za budućnost razvoja umjetne inteligencije. Pod pritiskom monetizacije, tvrtke poput OpenAI-ja, Googlea i Microsofta isprobat će sva moguća rješenja za prevladavanje podatkovne krize.


Zanima vas više o ovoj temi?
umjetna inteligencija


Što drugi čitaju?