Apple, Nvidia et Anthropic ont utilisé des vidéos YouTube pour former l'IA
Les entreprises technologiques utilisent des tactiques controversées pour alimenter leurs modèles d’intelligence artificielle (IA) gourmands en données. Les données provenant de livres, de sites Web, de photos et de publications sur les réseaux sociaux sont souvent utilisées à l'insu des créateurs.
Les entreprises d’IA sont très secrètes sur les données
Cependant, les entreprises qui forment des modèles d’IA sont généralement très secrètes quant à leurs sources de données. Nous l'avons souligné à plusieurs reprises auparavant, mais une enquête menée par l'organisation de presse à but non lucratif Proof News a révélé que certains des principaux acteurs mondiaux de l'intelligence artificielle utilisaient du matériel provenant de milliers de vidéos publiées sur YouTube à des fins de formation. Les sociétés l'ont fait malgré les règles de YouTube interdisant la collecte de matériel sur la plateforme sans autorisation.
De nombreuses entreprises de la Silicon Valley utiliseraient des sous-titres (YouTube Subtitles) de plus de 173 000 vidéos, obtenues auprès de plus de 48 000 chaînes de la plateforme susmentionnée, pour collecter des données. Les sociétés incluraient Anthropic, Nvidia, Apple et Salesforce.
Les modèles sont également censés tirer les leçons des théories du complot
Un ensemble de données appelé YouTube Subtitles contient des transcriptions de vidéos provenant de chaînes éducatives telles que Khan Academy, MIT et Harvard. Ils ont également utilisé des médias tels que le Wall Street Journal, NPR et la BBC. The Late Show With Stephen Colbert, Last Week Tonight With John Oliver et Jimmy Kimmel Live faisaient partie de ces vidéos dont des données auraient été extraites. Mais ils ont également trouvé du matériel provenant de mégastars de YouTube, notamment de créateurs tels que MrBeast, Marques Brownlee, Jacksepticeye et PewDiePie. Ce sont des créateurs qui comptent plus de 10 millions de followers, par exemple MrBeast en compte même 300 millions.
Entre autres choses, le problème peut être que l'IA extrait également des données de vidéos qui, par exemple, promeuvent des théories du complot selon lesquelles la Terre est une surface plane, etc.
"Personne n'est venu me voir pour me demander : "Pouvons-nous utiliser ça ?", a déclaré David Pakman, animateur de The David Pakman Show, une chaîne avec plus de 2 millions d'abonnés et plus de 2 milliards de vues. Près de 160 de ses vidéos ont été utilisées pour la formation en IA. Sa production à temps plein est créée par quatre employés qui publient des podcasts, des vidéos, également publiés sur TikTok et d'autres plateformes. Si les entreprises d’IA sont payées pour ce faire, a déclaré Pakman, elles devraient être rémunérées pour l’utilisation des données. Il a souligné le fait que certaines sociétés de médias ont récemment conclu des accords pour payer l'utilisation d'œuvres de formation en IA. "C'est ce que je fais dans la vie, j'investis du temps, des ressources, de l'argent et celui de mes employés dans la création de contenu", a-t-il déclaré.
"C'est une bonne affaire", déclare Dave Wiskus, directeur du service de streaming Nebula. Il a déclaré qu'il était irrespectueux d'utiliser le travail des créateurs sans leur consentement. D’autant que les studios pourront peut-être à l’avenir utiliser « l’intelligence artificielle générative pour remplacer les vidéos des créateurs d’aujourd’hui ». « Pourront-ils utiliser cet apprentissage pour exploiter et nuire aux artistes ? Certainement", est convaincu Wiskus.
Où tout a commencé ?
L’ensemble de données ferait partie d’une compilation publiée par l’organisation à but non lucratif EleutherAI appelée Pile. Ils comprenaient non seulement du matériel provenant de YouTube, mais également du Parlement européen, de Wikipédia en anglais et d'une multitude de courriels d'employés d'Enron qui ont été publiés dans le cadre de l'enquête fédérale.
La plupart des ensembles de données Pile sont disponibles sur Internet et ouverts à toute personne disposant de suffisamment d’espace et de puissance de calcul pour y accéder. Des universitaires et d’autres développeurs extérieurs aux « Big Tech » ont utilisé l’ensemble de données, mais ils n’étaient pas les seuls.
Des entreprises telles qu'Apple, Nvidia et Salesforce décrivent dans leurs annonces qu'elles ont utilisé Pile pour former l'IA. Les documents indiquent que Pile a également utilisé Apple pour former OpenELM, un modèle très médiatisé sorti en avril, quelques semaines avant que la société ne révèle qu'elle ajouterait de nouvelles capacités d'IA aux iPhones et MacBooks.
Il en va de même pour Anthropic, un développeur d'IA de premier plan dans lequel Amazon a investi 4 milliards de dollars et met l'accent sur la « sécurité de l'IA ».
Les inquiétudes ne concernent cependant pas uniquement les théories du complot susmentionnées. Pile contient également de nombreux grossièretés et serait préjugé contre le sexe, certains groupes religieux et races.
Les représentants d'EleutherAI, les créateurs de l'ensemble de données YouTube, n'ont pas encore répondu aux demandes de commentaires sur les conclusions de Proof News. Le site Internet de l'entreprise indique que son objectif global est de réduire les obstacles au développement de l'intelligence artificielle, même en dehors des entreprises qui représentent la « Big Tech ».
Les sous-titres YouTube n'incluent pas de clips vidéo, mais consistent plutôt en texte brut des sous-titres vidéo, souvent accompagnés de traductions dans des langues telles que le japonais, l'allemand et l'arabe.
YouTube est une mine d'or de données
Les entreprises développant l’IA se font concurrence pour déterminer laquelle possède le meilleur modèle d’intelligence artificielle. Plus tôt cette année, le New York Times a rapporté que Google, propriétaire de YouTube, formait son modèle sur les vidéos. Un porte-parole de Google a déclaré que les images avaient été utilisées conformément aux contrats avec les créateurs qui publient sur la plateforme.
Dans la même enquête, les médias ont rapporté que les vidéos auraient été utilisées sans autorisation par la société Open AI, qui n'a ni nié ni confirmé ce fait. Selon certains rapports, ces données devraient être utilisées pour entraîner son modèle d'IA Sora, qui peut créer des vidéos basées sur des invites linguistiques.
Les sous-titres YouTube et les solutions similaires sont une mine d'or de données, car ils peuvent être d'une grande aide dans la formation de modèles pour imiter la parole ou les conversations humaines. Et bien sûr, l’IA peut tirer le meilleur parti de la plus grande collection de vidéos réunie en un seul endroit : YouTube.
Proof News souhaitait obtenir les réactions des propriétaires de chaînes présentés dans cette histoire. Ceux qui ont réussi à s’en procurer ignoraient que leurs données servaient à entraîner l’IA. Parmi les surpris figuraient les producteurs des émissions Crash Course et SciShow, qui sont les piliers de l'empire vidéo éducatif des frères Hank et John Green. "Nous sommes déçus d'apprendre que notre contenu éducatif soigneusement conçu a été utilisé de cette manière sans notre consentement", a déclaré Julie Walsh Smith, PDG de la société de production Complexly, dans un communiqué.
Et les sous-titres de YouTube ne sont qu'un exemple parmi une série de vols de données destinés à entraîner l'IA, qui posent des problèmes aux industries créatives. Une chose similaire s'est produite lorsqu'ils ont utilisé un ensemble de plus de 180 000 livres (Books3) pour entraîner l'IA. Encore une fois, l’ensemble de données Pile a été utilisé. À l’époque, de nombreux auteurs poursuivaient en justice les sociétés d’IA pour utilisation non autorisée de leurs œuvres et pour violation présumée du droit d’auteur.
Nous pouvons nous attendre à d’autres conflits similaires à l’avenir
La plupart des litiges en sont encore à leurs débuts, de sorte que les questions sur les permis et les sanctions potentielles restent en suspens. La base de données Pile a depuis été supprimée du site de téléchargement officiel, mais est toujours disponible sur les services de partage de fichiers.
Les entreprises qui développent l'intelligence artificielle défendent d'une manière ou d'une autre l'utilisation équitable et ne l'appellent pas un lieu, les créateurs en revanche ne sont pas d'accord avec cela et attendent une compensation ou une sorte de compensation pour l'utilisation, surtout si nous regardons l'avenir de telle manière que L'IA pourrait leur enlever une partie de leur activité.
C’est précisément à cause de tout ce qui précède que les créateurs se trouvent dans une grande incertitude. Les YouTubers se consacrent à plein temps à ajouter des mentions de droits d'auteur à leurs vidéos. Ils craignent que ce ne soit qu'une question de temps avant que l'IA soit capable de créer un contenu qui ressemble beaucoup au contenu qu'elle produit elle-même – ou même d'en créer une imitation parfaite.
Pakman, le créateur de The David Pakman Show, a récemment eu un avant-goût de la puissance de l'intelligence artificielle en surfant sur TikTok. Il est tombé sur une vidéo présentée comme un enregistrement du commentateur politique américain Tucker Carlson, mais lorsqu'il l'a regardée, il est resté sans voix. Cela ressemblait à Carlson, mais il reconnaissait exactement les mots répétés qu'il avait lui-même prononcés dans son émission YouTube. Il était encore plus inquiet car parmi tous les commentaires sous le clip, il n'en a trouvé qu'un seul qui le reconnaissait comme un faux, un clone de la voix de Carlson lisant le scénario de Pakman.
Ce sera un gros problème, car vous pouvez faire la même chose avec la voix de n'importe qui, estime Pakman.