Cómo la falta de datos amenaza el futuro de la inteligencia artificial
El mundo de la inteligencia artificial se enfrenta a una escasez de su materia prima más valiosa: los datos. Esto ha provocado debates sobre una alternativa cada vez más popular: datos sintéticos o incluso "falsos". Durante años, empresas como OpenAI y Google han extraído datos de Internet para aprender los modelos de lenguaje a gran escala (LLM) que impulsan sus soluciones de interfaz de usuario. Estos modelos han asimilado enormes cantidades de contenido generado por humanos, desde artículos de investigación y novelas hasta vídeos de YouTube.
Ahora estos datos se están agotando lentamente y su cantidad es cada vez más limitada. Algunos actores importantes en este campo, como el director de OpenAI, Sam Altman, creen que los modelos de autoaprendizaje podrán utilizar datos sintéticos, lo que proporcionaría una fuente de datos barata y casi infinita.
Aún así, los investigadores advierten sobre los riesgos. Los datos sintéticos podrían reducir la calidad de los modelos, ya que pueden verse "envenenados" con sus propios errores. Investigaciones realizadas por las universidades de Oxford y Cambridge han demostrado que alimentar modelos exclusivamente con datos sintéticos conduce a malos resultados y a "tonterías". Según ellos, la clave es un uso equilibrado de datos sintéticos y reales.
Cada vez más empresas crean datos sintéticos
La falta de datos lleva a las empresas a buscar alternativas, como datos sintéticos generados por sistemas UI basados en datos reales. Las empresas de tecnología, incluidas OpenAI y Google, entre otras, ya están pagando millones para acceder a datos de plataformas como Reddit y varios medios de comunicación, a medida que los sitios web restringen cada vez más el uso gratuito de su contenido. Sin embargo, los recursos son limitados.
Nvidia, Tencent y las nuevas empresas Gretel y SynthLabs están desarrollando herramientas para crear datos sintéticos que a menudo son más limpios y específicos que los datos generados por humanos. Con Llama 3.1, Meta utilizó datos sintéticos para mejorar habilidades como programación y resolución de problemas matemáticos. Los datos sintéticos también ofrecen la posibilidad de reducir el sesgo inherente a los datos reales, aunque los investigadores advierten que garantizar la precisión y la imparcialidad sigue siendo un desafío importante.
Inteligencia artificial "Habsburgo"
Aunque los datos sintéticos aportan beneficios, también plantean riesgos graves. La investigación de Meta sobre el modelo Llama 3.1 mostró que entrenar el modelo con sus propios datos sintéticos puede incluso degradar su rendimiento. Del mismo modo, un estudio de la revista Nature advirtió que el uso incontrolado de datos sintéticos conduce a un "colapso del modelo", que los investigadores compararon con la degeneración genética y simbólicamente denominaron el fenómeno "inteligencia artificial de los Habsburgo". Término acuñado por el investigador Jathan Sadowski.
La pregunta principal sigue siendo: ¿cuántos datos sintéticos son demasiados? Algunos expertos sugieren el uso de datos híbridos, donde los datos sintéticos se combinan con datos reales para evitar la degradación de los modelos. Empresas como Scale AI están explorando este enfoque y su director ejecutivo, Alexandr Wang, cree que un enfoque híbrido es "el verdadero futuro".
Encontrar nuevas soluciones
En enero, Google DeepMind presentó AlphaGeometry, un sistema que resuelve problemas geométricos de nivel extremadamente alto utilizando un enfoque "neurosimbólico". Combina las ventajas del aprendizaje profundo con uso intensivo de datos y el razonamiento basado en reglas. El modelo se entrenó íntegramente con datos sintéticos y se considera un paso potencial hacia la inteligencia artificial general.
El campo neurosimbólico es todavía joven, pero podría ofrecer una dirección prometedora para el futuro del desarrollo de la inteligencia artificial. Bajo la presión de la monetización, empresas como OpenAI, Google y Microsoft intentarán todas las soluciones posibles para superar la crisis de datos.