Hogar » Apple, Nvidia y Anthropic utilizaron vídeos de YouTube para entrenar la IA

informática, telefonía

Redes sociales

27.07.2024 08:09

Compartir con otros:

Apple, Nvidia y Anthropic utilizaron vídeos de YouTube para entrenar la IA

Si bien las megacorporaciones han estado utilizando videos de YouTube para entrenar sus modelos de IA, los creadores las han acusado de hacerlo sin su conocimiento.

Las empresas de tecnología están utilizando tácticas controvertidas para alimentar sus modelos de inteligencia artificial (IA) ávidos de datos. Los datos de libros, sitios web, fotografías y publicaciones en redes sociales a menudo se utilizan sin el conocimiento de los creadores.

Las empresas de IA son muy reservadas sobre los datos

Sin embargo, las empresas que entrenan modelos de IA suelen ser muy reservadas sobre sus fuentes de datos. Hemos señalado esto muchas veces antes, pero ahora una investigación realizada por la organización de noticias sin fines de lucro Proof News ha revelado que algunos de los principales actores del mundo en inteligencia artificial han estado utilizando material de miles de videos publicados en YouTube para entrenamiento. Las empresas lo hicieron a pesar de las reglas de YouTube que prohíben la recopilación de material de la plataforma sin permiso.

Se dice que muchas empresas de Silicon Valley utilizan subtítulos (YouTube Subtitles) de más de 173.000 vídeos obtenidos de más de 48.000 canales de la mencionada plataforma para recopilar datos. Se dice que las empresas incluyen Anthropic, Nvidia, Apple y Salesforce.

Se supone que las modelos también deben aprender de las teorías de la conspiración.

Un conjunto de datos llamado YouTube Subtitles contiene transcripciones de vídeos de canales educativos como Khan Academy, MIT y Harvard. También utilizaron medios de comunicación como The Wall Street Journal, NPR y la BBC. The Late Show With Stephen Colbert, Last Week Tonight With John Oliver y Jimmy Kimmel Live estuvieron entre esos vídeos de los que supuestamente se extrajeron datos. Pero también encontraron material de megaestrellas de YouTube, incluidos creadores como MrBeast, Marques Brownlee, Jacksepticeye y PewDiePie. Se trata de creadores que tienen más de 10 millones de seguidores, por ejemplo MrBeast tiene incluso 300 millones.

Entre otras cosas, el problema puede ser que la IA también extrae datos de vídeos que, por ejemplo, promueven teorías de conspiración sobre que la Tierra es una superficie plana y cosas por el estilo.

"Nadie ha venido a preguntarme: '¿Podemos usar esto?'", dijo David Pakman, presentador de The David Pakman Show, un canal con más de 2 millones de suscriptores y más de 2 mil millones de visitas. Casi 160 de sus vídeos se han utilizado para el entrenamiento de IA. Su producción de tiempo completo es creada por cuatro empleados que publican podcasts, videos, que también se publican en TikTok y otras plataformas. Si a las empresas de IA se les paga por hacer esto, dijo Pakman, se les debería compensar por usar los datos. Señaló que recientemente algunas empresas de medios han firmado acuerdos para pagar el uso de trabajos de formación en IA. "Esto es lo que hago para ganarme la vida, invierto tiempo, recursos, dinero y el tiempo de mis empleados en la creación de contenidos", afirmó.

"Es una ganga", dice Dave Wiskus, director del servicio de streaming Nebula. Dijo que es una falta de respeto utilizar el trabajo de los creadores sin su consentimiento. Sobre todo porque los estudios podrían utilizar "inteligencia artificial generativa para reemplazar los vídeos de los creadores actuales" en el futuro. “¿Podrán utilizar este aprendizaje para explotar y dañar a los artistas? Definitivamente", está convencido Wiskus.

¿Dónde comenzó todo?

Se dice que el conjunto de datos es parte de una compilación publicada por la organización sin fines de lucro EleutherAI llamada Pile. Incluían no sólo material de YouTube, sino también del Parlamento Europeo, la Wikipedia en inglés y una gran cantidad de correos electrónicos de empleados de Enron que se publicaron como parte de la investigación federal.

La mayoría de los conjuntos de datos de Pile están disponibles en Internet y abiertos a cualquier persona con suficiente espacio y potencia informática para acceder a ellos. Académicos y otros desarrolladores ajenos a las "grandes tecnologías" utilizaron el conjunto de datos, pero no fueron los únicos.

Empresas como Apple, Nvidia y Salesforce describen en sus anuncios que utilizaron Pile para entrenar la IA. Los documentos indican que Pile también utilizó Apple para entrenar OpenELM, un modelo de alto perfil que se lanzó en abril, semanas antes de que la compañía revelara que agregaría nuevas capacidades de inteligencia artificial a iPhones y MacBooks.

También lo ha hecho Anthropic, un desarrollador líder de IA en el que Amazon ha invertido 4 mil millones de dólares y promueve su enfoque en la "seguridad de la IA".

Sin embargo, las preocupaciones no son sólo las teorías de conspiración antes mencionadas. Pile también contiene numerosas blasfemias y se dice que tiene prejuicios contra el género, ciertos grupos religiosos y razas.

Los representantes de EleutherAI, los creadores del conjunto de datos de YouTube, aún tienen que responder a las solicitudes de comentarios sobre los hallazgos de Proof News. En el sitio web de la empresa se afirma que su objetivo general es reducir las barreras al desarrollo de la inteligencia artificial incluso fuera de las empresas que representan las "Big Tech".

Los subtítulos de YouTube no incluyen clips de vídeo, sino que consisten en el texto sin formato de los subtítulos de los vídeos, a menudo acompañados de traducciones en idiomas como el japonés, el alemán y el árabe.

YouTube es una mina de oro de datos

Las empresas que desarrollan IA compiten entre sí para ver cuál tiene el mejor modelo de inteligencia artificial. A principios de este año, The New York Times informó que Google, propietario de YouTube, estaba entrenando su modelo en vídeos. Un portavoz de Google dijo que las imágenes se utilizaron de acuerdo con los contratos con los creadores que publican en la plataforma.

En la misma investigación, los medios informaron que los videos fueron presuntamente utilizados sin autorización por la empresa Open AI, que no lo negó ni lo confirmó. Según algunos informes, estos datos deberían usarse para entrenar su modelo de inteligencia artificial Sora, que puede crear videos basados en indicaciones del lenguaje.

Los subtítulos de YouTube y soluciones similares son una mina de oro de datos, ya que pueden ser de gran ayuda a la hora de entrenar modelos para imitar el habla o las conversaciones humanas. Y, por supuesto, la IA puede aprender más de la mayor colección de vídeos en un solo lugar: YouTube.

Proof News quería obtener reacciones de los propietarios de canales que aparecen en esta historia. Quienes lograron hacerse con ellos no sabían que sus datos se estaban utilizando para entrenar la IA. Entre los sorprendidos se encontraban los productores de los programas Crash Course y SciShow, que son los pilares del imperio de videoeducación de los hermanos Hank y John Green. "Estamos decepcionados al saber que nuestro contenido educativo cuidadosamente elaborado se ha utilizado de esta manera sin nuestro consentimiento", dijo en un comunicado Julie Walsh Smith, directora ejecutiva de la productora Complexly.

Y los subtítulos de YouTube son sólo uno de una serie de casos de robo de datos para entrenar la IA que causan problemas a las industrias creativas. Algo similar sucedió cuando utilizaron un conjunto de más de 180.000 libros (Libros3) para entrenar la IA. Nuevamente, se utilizó el conjunto de datos Pile. En ese momento, muchos autores demandaron a empresas de inteligencia artificial por uso no autorizado de sus obras y supuestas infracciones de derechos de autor.

Montón de logotipos de botones de reproducción en 3D

Podemos esperar más disputas similares en el futuro.

La mayor parte del litigio aún se encuentra en sus primeras etapas, por lo que las preguntas sobre permisos y posibles sanciones siguen en el aire. Desde entonces, la base de datos Pile se eliminó del sitio de descarga oficial, pero todavía está disponible en los servicios para compartir archivos.

Las empresas que desarrollan inteligencia artificial de alguna manera defienden el uso legítimo y no lo consideran un lugar, los creadores, por otro lado, no están de acuerdo con esto y esperan una compensación o algún tipo de compensación por el uso, especialmente si miramos el futuro de tal manera que La IA puede quitarles parte de su negocio.

Es precisamente por todo lo anterior que los creadores se encuentran en una incertidumbre considerable. Los YouTubers se dedican a tiempo completo a agregar avisos de derechos de autor a sus videos. Les preocupa que sea sólo cuestión de tiempo antes de que la IA pueda crear contenido que se parezca mucho a lo que ellos mismos están produciendo, o incluso que pueda crear una imitación perfecta.

Pakman, creador de The David Pakman Show, recientemente probó el poder de la inteligencia artificial mientras navegaba en TikTok. Se topó con un vídeo etiquetado como grabación del comentarista político estadounidense Tucker Carlson, pero cuando lo miró se quedó sin palabras. Sonaba como Carlson, pero reconoció exactamente las palabras repetidas que él mismo había dicho en su programa de YouTube. Estaba aún más preocupado porque de todos los comentarios debajo del clip, solo encontró uno que lo reconoció como falso, un clon de voz de Carlson leyendo el guión de Pakman.

Esto será un gran problema, porque puedes hacer lo mismo con la voz de cualquier persona, cree Pakman.