数据缺乏如何威胁人工智能的未来
人工智能世界正面临着最有价值的原材料——数据的短缺。这引发了关于一种日益流行的替代方案的讨论:合成甚至“假”数据。多年来,OpenAI 和 Google 等公司一直在从互联网上挖掘数据,以学习为其 UI 解决方案提供支持的大规模语言模型 (LLM)。这些模型消化了大量人类生成的内容,从研究文章和小说到 YouTube 视频。
现在这些数据正在慢慢耗尽,其数量也变得越来越有限。该领域的某些主要参与者,例如 OpenAI 的主管 Sam Altman,相信自学习模型将能够使用合成数据,这将提供廉价且几乎无限的数据源。
尽管如此,研究人员仍警告存在风险。合成数据可能会降低模型的质量,因为它们可能会因其自身的错误而“中毒”。牛津大学和剑桥大学的研究表明,仅用合成数据喂养模型会导致结果不佳和“无意义”。他们认为,平衡使用合成数据和真实数据是关键。
越来越多的公司正在创建合成数据
数据的缺乏导致公司寻找替代方案,例如 UI 系统基于真实数据生成的合成数据。随着网站越来越多地限制对其内容的免费使用,包括 OpenAI 和谷歌在内的科技公司已经支付了数百万美元来访问 Reddit 和各种媒体公司等平台的数据。然而,资源是有限的。
Nvidia、腾讯以及初创公司 Gretel 和 SynthLabs 正在开发工具来创建合成数据,这些数据通常比人类生成的数据更干净、更具体。在 Llama 3.1 中,Meta 使用合成数据来提高编程和解决数学问题等技能。合成数据还提供了减少真实数据固有偏差的可能性,尽管研究人员警告说,确保准确性和公正性仍然是一个重大挑战。
“哈布斯堡”人工智能
尽管合成数据带来了好处,但它也带来了严重的风险。 Meta 对 Llama 3.1 模型的研究表明,使用自己的合成数据训练模型甚至会降低其性能。同样,《自然》杂志上的一项研究警告说,不受控制地使用合成数据会导致“模型崩溃”,研究人员将其比作遗传退化,并象征性地将这种现象称为“哈布斯堡人工智能”。该术语由研究员 Jathan Sadowski 创造。
主要问题仍然是:多少合成数据才算太多?一些专家建议使用混合数据,将合成数据与真实数据相结合,以避免模型退化。像 Scale AI 这样的公司正在探索这种方法,他们的首席执行官 Alexandr Wang 认为混合方法是“真正的未来”。
寻找新的解决方案
一月份,谷歌 DeepMind 推出了 AlphaGeometry,这是一个使用“神经符号”方法解决极高级别几何问题的系统。它结合了数据密集型深度学习和基于规则的推理的优点。该模型完全基于合成数据进行训练,被认为是迈向通用人工智能的潜在一步。
神经符号领域还很年轻,但它可以为人工智能的未来发展提供一个有希望的方向。在货币化的压力下,OpenAI、谷歌和微软等公司将尝试一切可能的解决方案来克服数据危机。