软件
30.01.2025 08:01

与他人分享:

分享

全世界都在谈论的DeepSeek AI模型真的有那么好吗?

我们所有定期关注人工智能发展领域的人都在想同一件事:中国人工智能模型 DeepSeek 是否会超越美国模型并占据主导地位?
全世界都在谈论的DeepSeek AI模型真的有那么好吗?

DeepSeek是目前最热门的AI模型,目前在美国和英国苹果AppStore上排名靠前。这是来自中国初创公司DeepSeek的完全免费的AI模型,旨在将人工智能带给更广泛的受众。如何?与 OpenAI 的 ChatGPT o1 模型的免费版本竞争。

几乎每天都会有新的 UI 应用程序出现在 App Store 中,而且由于人们正在寻找下一个 ChatGPT 替代品,新模型的发布往往会引起很多关注。无论您是 OpenAI 软件的粉丝,还是更喜欢使用 Google Gemini,每个人都可以找到适合自己的 UI 工具,而 DeepSeek 希望成为您主屏幕上的下一个图标。

Tech Radar 网站决定测试 DeepSeek V3 和 DeeThink R1 模型,并将它们与 ChatGPT 4o 和 o1 进行比较。此次比对的主要目的是判断用户在线发表的帖子是否合理,以及 DeepSeek 是否真正对迄今为止在生成人工智能市场占据主导地位的美国人工智能模型构成威胁。

首先是基础知识

在测试中,Tech Radar 希望全面了解 DeepThink 相对于 ChatGPT 所提供的一切,因此以与日常生活中使用 AI 相同的方式使用 AI 聊天机器人似乎是公平的。

ChatGPT o4 和 DeepSeek V3 首先要求两个模型创建一个每日计划,其中包含一些有关用户何时起床、狗的日常活动以及工作简要分解的信息。两种模型都创建了用户实际上每天可以使用的出色时间表。但是,ChatGPT 记忆功能让时间安排变得更加连贯。

首先需要指出的是,DeepSeek 只能记住同一次聊天中的信息,而无法访问以前聊天中的信息来帮助其做出回应。

像向我 5 岁小孩解释一样向我解释。

然后,Tech Radar 向这两款模型询问了非常受欢迎的 NFL 联赛的季后赛情况。他们要求对 NFL 季后赛概念进行 200 字的总结。这两种模型都提供了极好的信息,让人们全面了解系统的运作方式以及球队进入超级碗必须采取的路径。

ChatGPT 选择了一个 200 字的段落,而 DeepSeek 将信息分成要点。他们指出,ChatGPT 提供了更多关于球队如何获得特殊联赛邀请的信息,但结果之间的差异相当小,纯粹基于个人喜好,你会更喜欢其中一个。

解决问题

在介绍了基础知识之后,他们开始讨论主要问题,即 DeepThink R1 是否不负众望。网上有用户写道,免费的 DeepThink R1 模型与 ChatGPT o1 一样好,后者在有限的范围内免费使用,但需要订阅才能完全访问。

为了测试聊天机器人的推理能力,他们寻找了一些他们能找到的最困难的挑战。他们对某些结果感到震惊:

问题 1:找出缺失的单词:Apple、Red、Coal

在测试中,他们决定避免使用多项选择题,而是直接输入问题并按回车键。

ChatGPT o1 花了 1 分 29 秒回答,并发现这些单词与童话故事白雪公主之间存在联系。该模型决定根据这句话做出回应:“她的嘴唇红得像血,头发黑得像煤,皮肤白得像雪“。根据这句话,o1 选择了 Snow 作为缺失单词的答案。虽然思维过程是模型o1,但这并不是他们想要的答案。

然而,DeepThink R1 花了 1 分 14 秒才回答出来,并猜出了正确的单词:黑色。苹果是红色的;煤炭是黑色的。至少可以说,令人印象深刻。

问题2: 1.完成序列:1、2、4、8、? 2. 完成序列:房子、土星、狗、汉堡、?

虽然第一个序列非常简单,但第二个序列却不可能(它只是四个随机的单词)。 ChatGPT o1 或 DeepThink R1 能发现陷阱吗?

甚至没有。两种模型都试图寻找答案,但给出了完全不同的答案。 DeepThink R1 回答“黄色”,因为它认为这些词与其颜色有关(白色的房子、黄色的土星、棕色的狗、黄色的汉堡)。另一方面,ChatGPT o1 回答“汽车”,因为他发现这个序列几乎不可能,但决定根据“经典的谜题方法”提供答案。他选择的方法是将每个物体与其所属的更大类别相关联(房屋 = 建筑物、土星 = 行星、狗 = 动物、汉堡 = 食物、汽车 = 车辆)。

最终,这两个模型都是错误的,并且都没有明确指出变量太多而无法给出精确的答案。

DeepSeek 与 ChatGPT 相比?

Tech Radar 以各种方式测试了这两种型号,现在的问题是,哪一种更好?根据他们在测试期间收到的反馈,DeepThink R1 是一个很棒的免费推理模型,这可能会让您怀疑是否值得付费使用 o1。 DeepSeek 仅在 iOS App Store 和 Play Store 上线,随后可能会推出适用于 Mac 或 iPad 的独立应用程序。

Tech Radar 决定继续使用 ChatGPT,主要是因为他们严重依赖记忆功能,这使得聊天机器人能够参考以前的对话。 ChatGPT 还受益于适用于 Mac 和 iPad 设备的独立应用程序,以及使用最好的人工智能图像生成器之一 DALL-E 创建图像的能力。

DeepSeek 仅基于文本,缺乏多模式功能,但考虑到这才刚刚开始,它是 UI 模型领域非常有力的竞争对手,我们肯定会听到很多关于它的消息。


对这个主题的更多内容感兴趣吗?
人工智能


其他人在读什么?