Informatica, telefonia
Social networks
27.07.2024 08:09

Condividi con gli altri:

Condividere

Apple, Nvidia e Anthropic hanno utilizzato i video di YouTube per addestrare l'intelligenza artificiale

Sebbene le megacorporazioni abbiano utilizzato i video di YouTube per addestrare i loro modelli di intelligenza artificiale, i creatori le hanno accusate di farlo a loro insaputa.
Apple, Nvidia e Anthropic hanno utilizzato i video di YouTube per addestrare l'intelligenza artificiale

Le aziende tecnologiche stanno utilizzando tattiche controverse per alimentare i loro modelli di intelligenza artificiale (AI) affamati di dati. I dati provenienti da libri, siti Web, foto e post sui social media vengono spesso utilizzati all'insaputa degli autori.

Le aziende di intelligenza artificiale sono molto riservate riguardo ai dati

Tuttavia, le aziende che addestrano modelli di intelligenza artificiale sono generalmente molto riservate riguardo alle loro fonti di dati. Lo abbiamo sottolineato molte volte in passato, ma ora un'indagine condotta dall'organizzazione giornalistica no-profit Proof News ha rivelato che alcuni dei principali attori mondiali nel campo dell'intelligenza artificiale hanno utilizzato materiale proveniente da migliaia di video pubblicati su YouTube per la formazione. Le società lo hanno fatto nonostante le regole di YouTube vietassero la raccolta di materiale dalla piattaforma senza autorizzazione.

Si dice che molte aziende della Silicon Valley utilizzino i sottotitoli (sottotitoli di YouTube) di oltre 173.000 video, ottenuti da più di 48.000 canali sulla suddetta piattaforma, per raccogliere dati. Si dice che le società includano Anthropic, Nvidia, Apple e Salesforce.

Si suppone che i modelli imparino anche dalle teorie del complotto

Un set di dati chiamato Sottotitoli YouTube contiene trascrizioni di video provenienti da canali educativi come Khan Academy, MIT e Harvard. Hanno utilizzato anche organi di informazione come The Wall Street Journal, NPR e BBC. The Late Show With Stephen Colbert, Last Week Tonight With John Oliver e Jimmy Kimmel Live erano tra quei video da cui sarebbero stati estratti dati. Ma hanno anche trovato materiale delle megastar di YouTube, inclusi creatori come MrBeast, Marques Brownlee, Jacksepticeye e PewDiePie. Si tratta di creatori che hanno più di 10 milioni di follower, ad esempio MrBeast ne ha addirittura 300 milioni.

Tra l’altro, il problema può essere che l’intelligenza artificiale trae dati anche da video che, ad esempio, promuovono teorie cospirative secondo cui la Terra sarebbe una superficie piatta e simili.

"Nessuno è venuto da me e mi ha chiesto: 'Possiamo usarlo?'", ha detto David Pakman, conduttore di The David Pakman Show, un canale con più di 2 milioni di abbonati e più di 2 miliardi di visualizzazioni. Quasi 160 dei suoi video sono stati utilizzati per la formazione sull'intelligenza artificiale. La sua produzione a tempo pieno è creata da quattro dipendenti che pubblicano podcast, video, che vengono pubblicati anche su TikTok e altre piattaforme. Se le società di intelligenza artificiale fossero pagate per farlo, ha affermato Pakman, dovrebbero essere ricompensate per l’utilizzo dei dati. Ha sottolineato il fatto che alcune società di media hanno recentemente stipulato accordi per pagare l'utilizzo dei lavori di formazione sull'intelligenza artificiale. "Questo è quello che faccio per vivere, investo tempo, risorse, denaro e il tempo dei miei dipendenti nella creazione di contenuti", ha affermato.

"È un vero affare", afferma Dave Wiskus, direttore del servizio di streaming Nebula. Ha affermato che è irrispettoso utilizzare il lavoro dei creatori senza il loro consenso. Soprattutto perché in futuro gli studi cinematografici potrebbero essere in grado di utilizzare "l'intelligenza artificiale generativa per sostituire i video dei creatori di oggi". “Saranno in grado di utilizzare questo apprendimento per sfruttare e danneggiare gli artisti? Sicuramente", è convinto Wiskus.

Dove è iniziato tutto?

Si dice che il set di dati faccia parte di una raccolta rilasciata dall'organizzazione no-profit EleutherAI chiamata Pile. Includevano non solo materiale proveniente da YouTube, ma anche dal Parlamento europeo, da Wikipedia in inglese e da una serie di e-mail di dipendenti Enron rilasciate nell'ambito dell'indagine federale.

La maggior parte dei set di dati Pile sono disponibili su Internet e aperti a chiunque disponga di spazio e potenza di calcolo sufficienti per accedervi. Accademici e altri sviluppatori esterni a “Big Tech” hanno utilizzato il set di dati, ma non erano gli unici.

Aziende come Apple, Nvidia e Salesforce descrivono nei loro annunci di aver utilizzato Pile per addestrare l'intelligenza artificiale. I documenti indicano che Pile ha utilizzato Apple anche per addestrare OpenELM, un modello di alto profilo rilasciato ad aprile, settimane prima che la società rivelasse che avrebbe aggiunto nuove funzionalità di intelligenza artificiale a iPhone e MacBook.

Lo stesso vale per Anthropic, uno dei principali sviluppatori di intelligenza artificiale in cui Amazon ha investito 4 miliardi di dollari e promuove la sua attenzione alla "sicurezza dell'intelligenza artificiale".

Le preoccupazioni, però, non riguardano solo le già citate teorie del complotto. Pile contiene anche numerose parolacce e si dice che sia prevenuto nei confronti del genere, di alcuni gruppi religiosi e di razze.

I rappresentanti di EleutherAI, i creatori del set di dati di YouTube, devono ancora rispondere alle richieste di commento sui risultati di Proof News. Il sito web dell'azienda afferma che il loro obiettivo generale è ridurre le barriere allo sviluppo dell'intelligenza artificiale anche al di fuori delle aziende che rappresentano la "Big Tech".

I sottotitoli di YouTube non includono videoclip, ma sono costituiti dal testo semplice dei sottotitoli video, spesso accompagnato da traduzioni in lingue tra cui giapponese, tedesco e arabo.

YouTube è una miniera d'oro di dati

Le aziende che sviluppano l’intelligenza artificiale competono tra loro per vedere quale ha il modello di intelligenza artificiale migliore. All’inizio di quest’anno, il New York Times ha riferito che Google, che possiede YouTube, stava addestrando il suo modello sui video. Un portavoce di Google ha affermato che il filmato è stato utilizzato in conformità con i contratti con i creatori che pubblicano sulla piattaforma.

Nella stessa inchiesta i media hanno riferito che i video sarebbero stati utilizzati senza autorizzazione dalla società Open AI, la quale non lo ha né negato né confermato. Secondo alcuni rapporti, questi dati dovrebbero essere utilizzati per addestrare il suo modello di intelligenza artificiale Sora, che può creare video basati su istruzioni linguistiche.

I sottotitoli di YouTube e soluzioni simili sono una miniera d'oro di dati, poiché possono essere di grande aiuto nell'addestramento di modelli per imitare il linguaggio o le conversazioni umane. E ovviamente l’intelligenza artificiale può imparare il massimo dalla più grande raccolta di video in un unico posto: YouTube.

Proof News voleva ottenere le reazioni dei proprietari dei canali presenti in questa storia. Coloro che sono riusciti a impossessarsene non sapevano che i loro dati venivano utilizzati per addestrare l’IA. Tra quelli sorpresi ci sono stati i produttori degli spettacoli Crash Course e SciShow, che sono i pilastri dell'impero della videoeducazione dei fratelli Hank e John Green. "Siamo delusi nell'apprendere che i nostri contenuti educativi, attentamente realizzati, siano stati utilizzati in questo modo senza il nostro consenso", ha dichiarato in una nota Julie Walsh Smith, amministratore delegato della società di produzione Complexly.

E i sottotitoli di YouTube sono solo uno di una serie di casi di furto di dati per addestrare l'intelligenza artificiale che causano problemi alle industrie creative. Una cosa simile è accaduta quando hanno utilizzato una serie di oltre 180.000 libri (Books3) per addestrare l’IA. Anche in questo caso è stato utilizzato il dataset Pile. All’epoca, molti autori fecero causa alle società di intelligenza artificiale per uso non autorizzato delle loro opere e presunte violazioni del copyright.

Pila di loghi dei pulsanti di riproduzione 3D

Possiamo aspettarci altre controversie simili in futuro

La maggior parte del contenzioso è ancora nelle fasi iniziali, quindi le domande sui permessi e sulle potenziali sanzioni rimangono in sospeso. Da allora il database Pile è stato rimosso dal sito di download ufficiale, ma è ancora disponibile sui servizi di condivisione file.

Le aziende che sviluppano l'intelligenza artificiale difendono in qualche modo il fair use e non lo chiamano luogo, i creatori d'altro canto non sono d'accordo con questo e si aspettano un compenso o qualche tipo di compenso per l'uso, soprattutto se guardiamo al futuro in modo tale che L’intelligenza artificiale potrebbe sottrarre parte della loro attività.

È proprio a causa di tutto quanto sopra che i creatori si trovano in una notevole incertezza. Gli YouTuber si impegnano a tempo pieno nell'aggiungere avvisi di copyright ai loro video. Temono che sia solo questione di tempo prima che l'intelligenza artificiale sia in grado di creare contenuti che assomiglino molto a quelli che producono loro stessi, o addirittura di crearne un'imitazione perfetta.

Pakman, creatore di The David Pakman Show, ha recentemente avuto un assaggio del potere dell'intelligenza artificiale mentre navigava su TikTok. Si è imbattuto in un video etichettato come una registrazione del commentatore politico americano Tucker Carlson, ma quando lo ha guardato è rimasto senza parole. Sembrava Carlson, ma riconobbe esattamente le parole ripetute che lui stesso aveva detto nel suo programma su YouTube. Era ancora più preoccupato perché tra tutti i commenti sotto la clip, ne trovò solo uno che la riconosceva come falsa, un clone vocale di Carlson che leggeva la sceneggiatura di Pakman.

Questo sarà un grosso problema, perché puoi fare lo stesso con la voce di chiunque, crede Pakman.


Ti interessa saperne di più su questo argomento?
intelligenza artificiale Motore di ricerca di YouTube


Cosa stanno leggendo gli altri?