Come la mancanza di dati minaccia il futuro dell'intelligenza artificiale
Il mondo dell’intelligenza artificiale si trova ad affrontare una carenza della sua materia prima più preziosa: i dati. Ciò ha scatenato discussioni su un’alternativa sempre più popolare: dati sintetici o addirittura “falsi”. Per anni, aziende come OpenAI e Google hanno estratto dati da Internet per apprendere i modelli linguistici su larga scala (LLM) che alimentano le loro soluzioni di interfaccia utente. Questi modelli hanno digerito enormi quantità di contenuti generati dall’uomo, da articoli di ricerca e romanzi ai video di YouTube.
Ora questi dati si stanno lentamente esaurendo, la loro quantità diventa sempre più limitata. Alcuni dei principali attori del settore, come il direttore di OpenAI Sam Altman, ritengono che i modelli di autoapprendimento saranno in grado di utilizzare dati sintetici, che fornirebbero una fonte di dati economica e quasi infinita.
Tuttavia, i ricercatori avvertono dei rischi. I dati sintetici potrebbero ridurre la qualità dei modelli, poiché possono essere "avvelenati" dai propri errori. Una ricerca condotta dalle università di Oxford e Cambridge ha dimostrato che alimentare i modelli esclusivamente con dati sintetici porta a scarsi risultati e a "assurdità". Secondo loro, la chiave è un uso equilibrato dei dati sintetici e reali.
Sempre più aziende creano dati sintetici
La mancanza di dati porta le aziende a cercare alternative, come dati sintetici generati da sistemi UI basati su dati reali. Le aziende tecnologiche, tra cui OpenAI e Google, stanno già pagando milioni per accedere ai dati da piattaforme come Reddit e vari media, poiché i siti Web limitano sempre più l’uso gratuito dei loro contenuti. Tuttavia, le risorse sono limitate.
Nvidia, Tencent e le startup Gretel e SynthLabs stanno sviluppando strumenti per creare dati sintetici che sono spesso più puliti e specifici rispetto ai dati generati dall'uomo. Con Llama 3.1, Meta ha utilizzato dati sintetici per migliorare competenze come la programmazione e la risoluzione di problemi di matematica. I dati sintetici offrono anche la possibilità di ridurre la distorsione insita nei dati reali, anche se i ricercatori avvertono che garantire l’accuratezza e l’imparzialità rimane una sfida importante.
Intelligenza artificiale "asburgica".
Sebbene i dati sintetici apportino vantaggi, comportano anche seri rischi. La ricerca di Meta sul modello Llama 3.1 ha dimostrato che addestrare il modello con i propri dati sintetici può persino peggiorarne le prestazioni. Allo stesso modo, uno studio pubblicato sulla rivista Nature ha avvertito che l’uso incontrollato di dati sintetici porta al “collasso del modello”, che i ricercatori hanno paragonato alla degenerazione genetica e hanno simbolicamente soprannominato il fenomeno “intelligenza artificiale asburgica”. Un termine coniato dal ricercatore Jathan Sadowski.
La domanda principale rimane: quanti dati sintetici sono troppi? Alcuni esperti suggeriscono l’uso di dati ibridi, in cui i dati sintetici vengono combinati con dati reali per evitare il degrado dei modelli. Aziende come Scale AI stanno esplorando questo approccio e il loro CEO, Alexandr Wang, ritiene che un approccio ibrido sia “il vero futuro”.
Trovare nuove soluzioni
A gennaio Google DeepMind ha introdotto AlphaGeometry, un sistema che risolve problemi geometrici di altissimo livello utilizzando un approccio "neuro-simbolico". Combina i vantaggi del deep learning ad alta intensità di dati e del ragionamento basato su regole. Il modello è stato addestrato interamente su dati sintetici ed è considerato un potenziale passo verso l’intelligenza artificiale generale.
Il campo neuro-simbolico è ancora giovane, ma potrebbe offrire una direzione promettente per il futuro dello sviluppo dell’intelligenza artificiale. Sotto la pressione della monetizzazione, aziende come OpenAI, Google e Microsoft proveranno tutte le soluzioni possibili per superare la crisi dei dati.