品玩

科技创新者的每日必读

打开APP
关闭
OpenAI

能看、能听、能说的ChatGPT 来了

OpenAI 今天宣布,他们已经开始在 ChatGPT 中加入新的语音和图像功能。

吕可

发布于 2023年9月26日

OpenAI 今天宣布,他们已经开始在 ChatGPT 中加入新的语音和图像功能。OpenAI 为 ChatGPT 提供了全新的直观界面,允许用户和 ChatGTP 进行与应对或者是用图片展示自己谈论的内容。

语音和图像输入功能的加入为 ChatGPT 提供了更多的使用方式。用户可以在旅行时拍下当地的地标性建筑,并就他们的有趣之处和ChatGPT 进行实时对话。用户还可以在家里拍下冰箱和储藏室的照片,让ChatGPT 给您提供晚餐的灵感(还进一步让 ChatGPT提供相应的菜谱)。晚饭之后,用户还可以在帮孩子做数学题时拍下照片,让ChatGPT 与用户一起解决作业。

OpenAI 预计会在两周内向 Plus 和企业用户推出语音和图像功能。语音功能将会在 iOS 和 Android 上推出(需要在设置中选择),图像功能则会在所有平台上推出。

与ChatGPT 进行语音对话

现在用户可以使用语音与ChatGPT 进行反复对话,您可以在旅途中与他交谈,或是让他给家人讲一个睡前故事,或者是解决餐桌上的争论。

要使用语音功能,需要用户在ChatGPT 手机 APP 上进行设置,点击设置-新功能,之后选择语音对话就可以开启该功能。回到主界面后,用户可以点击屏幕右上角的耳机按钮,在五种不同的声音中选择自己喜欢的音色。

语音功能由一个新的文本生成语音模型提供支持,这个模型可以通过文本和语音样本来生成类似真人的音频。OpenAI 与专业的配音演员合作创作了多种语音,同时使用其开源语音识别系统 Whisper 来将用户的口语转录为文本。

以下是一段OpenAI引用的语音样本:

从前,在一片宁静的树林里,有一只毛茸茸的猫妈妈,名叫莱拉。在一个阳光明媚的日子里,她和顽皮的小猫米洛依偎在一棵老橡树的树荫下。

"米洛,"莱拉开始说话了,声音轻柔而温和,"你很快就会有一个新玩伴了。"

米洛的耳朵竖了起来,很好奇。"新玩伴?"

莱拉咕噜着说:"是的,一个小妹妹。"

米洛兴奋地睁大眼睛。"妹妹?她会像我一样追尾巴吗?"

莱拉笑着说。"哦,她会有自己的怪癖。你会教她的,对吗?"

米洛急切地点点头,已经开始憧憬他们将共同经历的冒险了。

从前,在一片宁静的树林里,有一只毛茸茸的猫妈妈,名叫莱拉。在一个阳光明媚的日子里,她和顽皮的小猫米洛依偎在一棵老橡树的树荫下。

"米洛,"莱拉开始说话了,声音轻柔而温和,"你很快就会有一个新玩伴了。"

米洛的耳朵竖了起来,很好奇。"新玩伴?"

莱拉咕噜着说:"是的,一个小妹妹。"

米洛兴奋地睁大眼睛。"妹妹?她会像我一样追尾巴吗?"

莱拉笑着说。"哦,她会有自己的怪癖。你会教她的,对吗?"

米洛急切地点点头,已经开始憧憬他们将共同经历的冒险了。

用图像来和 ChatGPT 交流

用户现在可以向 ChatGPT 展示一张或多张图片,ChatGPT 可以帮助用户解决烧烤架无法启动的问题,或是查看冰箱中的食物来计划菜单。用户还可以利用 ChatGPT 来分析复杂的工作数据图表。OpenAI 会在移动应用程序中提供绘图工具,让用户可以指定 ChatGPT 关注图片中的特定部分。

想要使用图片进行交流,用户需要点击截图按钮或者是上传图片。如果用户使用的是iOS 或 Android 系统,请先轻点加号按钮。用户可以选择多张图片,或者是借助绘图工具的引导来上传图片。

图像理解由多模态 GPT-3.5 和 GPT-4 支持。这些模型将语言推理能力应用于各种图像,如照片、屏幕截图以及包含文字和图像的文档。

OpenAI 将逐步部署图像和语音功能

OpenAI 的目标是构建安全、有益的 AGI。OpenAI 相信,一点点的对ChatGPT 进行更新可以让OpenAI随着时间的推移不断改进和完善风险缓解措施,同时也让用户为未来更强大的系统做好准备。在涉及语音和视觉的高级模型中,这一策略变得更加重要。

语音

新的语音技术只需几秒钟的真实语音就能制作出逼真的合成语音,这种技术为许多创造性和无障碍应用打开了大门。然而,这些功能也带来了新的风险,这可能会让一些人恶意冒充公众人物甚至是进行诈骗。

因此,OpenAI将这项技术用于语音聊天这一特定应用案例。语音聊天是由OpenAI直接合作的配音演员创建的。OpenAI还与其他公司开展了类似的合作。例如,Spotify 正在将这项技术的力量用于其语音翻译功能的试点,该功能可以帮助播客将播客翻译成其他语言,用播客自己的声音来讲述故事,从而扩大播客的影响力。

图像输入

基于视觉的模型也带来了新的挑战,从对人的幻觉到在高风险领域依赖模型对图像的解释不一而足。在更大范围推出这项技术之前,我们与极端主义以及科学能力等领域的风险红队人员还有多位测试者一起对模型进行了测试。这项研究使OpenAI能够在一些关键细节上保持一致,以实现负责任的使用。

让视觉既实用又安全

与 ChatGPT 的其他功能一样,视觉功能也将为用户的日常生活提供帮助。只有当它能看到用户所看到的东西时,才能发挥最大作用。

OpenAI与面向盲人和低视力者的免费手机应用程序 Be My Eyes 合作,在了解其用途和局限性之后,从中直接借鉴了这一方法。不少用户表示,他们发现与背景中恰好有人的图像进行一般性对话非常有价值,比如当你正在尝试遥控器设置时,电视上出现了一个人。

我们还采取了技术措施,大大限制 ChatGPT 分析和直接陈述人物的能力,因为 ChatGPT 并不总是准确的,而且这些系统应尊重个人隐私。真实世界的使用情况和反馈将帮助OpenAI在保持工具实用性的同时,使这些保障措施更加完善。

模型限制的透明度

用户可能会依赖 ChatGPT 来处理专业话题。例如在研究领域。OpenAI对模型的局限性保持透明,不鼓励没有经过专业验证高风险案例。此外,该模型精通英语文本的转录,但对其他语言,尤其是那些非罗马字母的语言表现不佳。因此我们建议非英语用户暂时不要使用 ChatGPT的语音功能。

用户可以在图像输入系统卡中阅读更多有关我们的安全方法以及与 Be My Eyes 合作的信息。

OpenAI 表示,Plus 和 Enterprise 用户将在未来两周内体验到语音和图像功能。OpenAI还会在不久后能向包括开发人员在内的其他用户群推出这些功能。

下载品玩App,比99.9%的人更先知道关于「OpenAI」的新故事

下载品玩App

比99.9%的人更先知道关于「OpenAI」的新故事

iOS版本 Android版本
立即下载
吕可

品玩要闻:7*24小时不间断追踪全球新鲜事 联系邮箱:wire@pingwest.com

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测