DeepSeek:为什么整个世界都疯狂了?背景中发生了什么?
DeepSeek 这个名字让美国最大的公司感到恐惧。引发生成式人工智能 (AI) 热潮的不仅仅是 OpenAI,谷歌、微软、Anthropic、Meta、亚马逊以及所有其他误以为自己至少还能主导一段时间并吸引数十亿美元投资的公司都感到害怕。
上个月,中国公司DeepSeek 发布了其人工智能模型,震惊了美国民众,称其模型与美国模型相当,甚至在某些方面甚至更好,而且价格仅为美国模型的一小部分。据报道,DeepSeek-V3 模型仅需要 600 万美元的计算能力进行训练,其中不包括“对架构、算法或数据的先前研究和消融实验”。
DeepSeek 发布后不久,在苹果手机商店的评分就超越了 ChatGPT,下载量也在稳步增长。
其后果是巨大的。在美国,他们怀疑如果中国同事能够以微薄的投资取得同样的成果,那么在人工智能方面进行巨额投资是否真的有必要。包括英伟达在内的多家公司股价下跌,人们再次质疑这是否是人工智能泡沫破灭的时刻。
另一方面,许多人怀疑 DeepSeek 是否真如该公司所说的那样具有革命性。他们是否隐藏了什么?他们用什么来训练他们的模型?
什么是 DeepSeek?
DeepSeek 是一家初创公司的名称,它是一种大规模语言模型,也是一种聊天机器人,其工作方式与 ChatGPT、Gemini 和 Copilot 类似。外观、使用方法以及沟通方式几乎与美国解决方案相同,因此用户的过渡非常容易,并且使用已经很熟悉。
它有多强大并且真的比 ChatGPT 和其他程序更好吗?该公司表示,它在数学和编码等任务上与 OpenAI 去年年底发布的 o1 模型一样强大。 OpenAI最近推出了一个新模型o3,据称其性能比测试中的所有模型都要强大,但目前尚未向公众开放测试。
最新的R1(DeepSeek)模型是一个推理语言模型。与OpenAI的o1模型相同。这些模型逐渐产生答案并模拟人们思考问题或想法的方式。
最令人震惊的是,仅花费 600 万美元用于训练驱动聊天机器人的 V3 模型。相比之下,OpenAI 在 GPT-4 模型的开发上花费了 1 亿多美元,而 Meta 在 Llama 上花费了约 6000 万美元。尽管受到贸易限制,中国在一段时间内无法正式获得最新的芯片,但他们还是做到了这一点。
据称,DeepSeek 创始人囤积了 Nvidia A100 芯片,自 2022 年 9 月起,该芯片向中国出口已被禁止。一些专家认为,他将这些芯片与更便宜、不太复杂的芯片结合在一起,从而实现了更高效的流程。 DeepSeek 还比其竞争对手占用更少的内存,这最终降低了用户执行任务的成本。
还有传言称,该公司实际上正在使用最新的 Nvidia H100 芯片,但没有确凿的证据,该公司尚未对这些“指控”发表评论。
SemiAnalysis 的最新独立研究表明,他们在硬件上花费了约 5 亿美元。他们开发等效人工智能模型的闪电般的速度也受到了 OpenAI 的审查,后者怀疑这家中国公司“提炼了他们的模型”。
DeepSeek 在 Apple Store 上线并大受欢迎后不久就开始出现中断。该聊天机器人长期不可用,公司和开发人员无法访问其 API。该公司宣布其遭受了恶意攻击,导致其运营速度减慢,并暂时限制注册。
谁在引领中国的人工智能革命?
DeepSeek 并非一夜之间诞生的,但直到上个月它才引起媒体的广泛关注,尽管人们都知道它正在开发 AI 模型。该初创公司多数股权由梁文峰持有,他也是 High-Flyer 投资基金的联合创始人。后者于2023年3月宣布启动一个新项目,并建立“一个全新的独立研究小组,以探索通用人工智能的本质”。几个月后,我们收购了DeepSeek公司。他们主要以高薪和从事独特研究项目的机会来吸引年轻且经验丰富的人才。
目前还不清楚 High-Flyer 对 DeepSeek 投资了多少。 High-Flyer 的办公室与 DeepSeek 位于同一栋大楼,根据中国公司注册信息,它还拥有用于训练人工智能模型的芯片相关的专利。
如何进行?
DeepSeek 在研究中描述了它如何训练模型。由于官方公司无法获得与美国竞争对手相同的芯片,因此它必须寻找其他方法。
领先的人工智能系统通过在大量数据(包括文本、图像和声音)中寻找模式来学习技能。 DeepSeek 描述了一种将数据分析分布到多个专门的 AI 模型上的方法,同时最大限度地减少了将数据从一个地方传输到另一个地方所浪费的时间。
以前其他人也使用过类似的方法,但在模型之间移动数据通常会降低效率。 DeepSeek 以一种可以使用更少计算能力的方式实现了这一点。
与其他 AI 模型相比,成本和训练方法并不是唯一的区别。 DeepSeek 也是开源的,这意味着几乎任何人都可以下载、使用和升级它。
相比之下,Meta 和 Google 的模型虽然可供任何人查看,但并不被视为真正开源,因为用户使用模型的方式受到许可证的限制,并且训练数据集不公开,并且也成为众多诉讼的主题。例如,Facebook 或 Meta 正与作家展开法律纠纷,作家们指控该公司使用盗版图书用于教学目的。 《纽约时报》起诉微软和 OpenAI 涉嫌未经许可使用其内容进行学习。
美国 UI 模型不开源的原因之一是传播虚假信息、仇恨言论等的可能性更大,但最主要的原因肯定是为了利润和更多将 UI 模型货币化的机会。
专家认为,中国的开源模式可以使人工智能民主化,这可能会极大地破坏美国公司的战略。令人担心的是,美国公司和科学家也将开始使用 DeepSeek 来开发和构建自己的解决方案。
在国内,最新模型已被电信公司采用,吉利也是第一家将DeepSeek模型融入汽车智能系统的汽车企业。
与此同时,世界其他地方也已经在考虑实施封锁。意大利、爱尔兰、比利时、荷兰和法国等国家已经对 DeepSeek 如何使用和存储数据以及其是否违反欧洲数据法规展开调查。 DeepSeek 在意大利遭到预防性封锁,在韩国和澳大利亚也被禁止使用。
DeepSeek 表示,他们已经采取了一切安全措施来保护他们在中国存储的数据。但不久之后,专家们就发现该公司意外地留下了数百万行不安全的数据,其中包括软件密钥、日志、聊天记录等。
思科对最新的 AI 参与者进行了分析,发现“DeepSeek R1 缺乏强大的保障措施,因此极易受到算法突破和潜在滥用的影响。”
新的战线已经开辟
到 2025 年 1 月,美国将成为比赛中唯一的一匹马,美国骑手不需要再依靠边远地区的任何人。现在中国正对他们施加压力。中美之间已经开辟了贸易和技术战线一段时间了,而DeepSeek 又开辟了一条决定人工智能命运的新战线。