ChatGPT 现在还可以理解图像和语音命令

OpenAI 不断改进 ChatGPT 聊天机器人。新版本允许用户通过语音和图像激活ChatGPT，带来了新的问题和担忧。那么新版本会带来什么以及何时推出？

OpenAI 为 ChatGPT 引入的大部分变化都与人工智能驱动的机器人可以做什么有关：它可以回答什么问题，它可以访问什么信息，等等。然而，这一次，它也改变了您自己使用 ChatGPT 的方式。该公司正在推出该服务的新版本，它允许您不仅通过在文本字段中编写句子来与人工智能机器人进行交互，还可以通过与它交谈或上传图片来与它进行交互。新功能将在未来几周内向付费 Plus 订阅的用户提供，而其他人将在“不久之后”收到新功能。

语音部分并不是什么惊天动地的新鲜事：你点击一个按钮并说出你的问题，ChatGPT 将其转换为文本并将其传递给一个大语言模型，检索答案并将其转换回语音，并通过语音回答你。这应该感觉就像与 Alexa 或 Google Assistant 交谈，只不过——OpenAI 希望——由于底层技术的改进，答案会更好。大多数虚拟助手似乎都在重塑自我，并融入大语言模型——而 OpenAI 目前领先他们一步。

OpenAI 出色的 Whisper 模型完成了大部分语音到文本的转换，该公司还推出了一种新的文本到语音模型，据说能够通过文本和几秒钟的时间创建“类似人类的音频”。演讲样本。”您可以从五个选项中选择 ChatGPT 的语音，但 OpenAI 似乎认为该模型具有更大的潜力。例如，OpenAI 与 Spotify 合作将播客翻译成其他语言，保留播客主持人的声音。合成语音有很多有趣的用途，OpenAI 可能会成为该行业的重要组成部分。

无论如何，您只需几秒钟的音频就可以创建一个不错的合成语音，这一事实为各种潜在问题的用例打开了大门。该公司在宣布新功能的博客中表示：“这些功能带来了新的威胁，例如恶意行为者冒充公众人物的可能性等。”正是由于这个原因，该模型无法得到更广泛的使用，并且将受到更多的控制并仅限于特定的用例和合作伙伴关系。

图片搜索功能有点类似于Google Lens。您拍一张照片，ChatGPT 会尝试理解您的问题并做出相应的回应。您还可以使用应用程序中的绘图工具使问题尽可能清晰，或者说出或输入与图片相关的问题。这就是 ChatGPT 的本质特别方便的地方：您可以在此过程中推动机器人并改进答案，而不是运行搜索，得到错误的答案，然后运行新的搜索。这与谷歌在多模式搜索方面所做的非常相似。

显然，在 ChatGPT 中包含图像也有其缺点。其中之一是当你“亲自”使用 ChatGPT 时：OpenAI 表示，它故意限制了“ChatGPT 分析和直接评价人的能力”。既为了准确性又为了隐私。这意味着人工智能最科幻的愿景之一——通过观察某人就能知道他们是谁的能力——不会很快成为现实。这可能是一件好事。

ChatGPT 的鼎盛时期已经过去近一年了，OpenAI 似乎仍在试图找出如何在不产生新问题和缺点的情况下为其模型提供更多特性和功能。在发布新产品时，该公司试图通过有意识地限制其新型号的功能来走这条路线。但事实是这种方法并不总是有效。随着越来越多的人使用语音控制和图像搜索，并且随着 ChatGPT 越来越接近成为真正的多模式、有用的虚拟助手，维护所有这些保护措施将变得越来越困难。