品玩

科技创新者的每日必读

打开APP
关闭

OpenAI发布语音模型GPT-Realtime,Realtime API全面升级

8月29日

品玩8月29日讯,据OpenAI官方消息,OpenAI正式发布语音模型GPT-Realtime,并对Realtime API进行全面升级,将其从测试阶段推进至正式生产环境。此次更新旨在助力企业和开发者打造更可靠、适用于实际生产的语音智能体。

GPT-Realtime是OpenAI迄今最先进的语音转语音模型,采用端到端Speech-to-Speech架构,无需文本转换步骤,可直接处理和生成语音。相比前代版本,它在处理复杂指令时更加精准,生成的语音更自然、富有表现力,能捕捉如笑声等非语言信号,支持对话中途语言切换,还可根据需求调整语音语气,如模拟“带法国口音的友好语调”。此外,模型新增“Cedar”和“Marin”两种语音,并优化了现有的8种语音效果。在性能基准测试中,GPT-Realtime表现卓越,在Big Bench Audio基准测试中准确率从65.6%跃升至82.8%,MultiChallenge基准测试从20.6%提升至30.5%,ComplexFuncBench基准测试从49.7%提高到66.5%。

Realtime API此次更新支持远程MCP服务器、图像输入以及通过会话发起协议(SIP)进行电话呼叫,开发者可通过SIP与远程媒体控制协议(MCP)服务器连接外部工具与服务。同时,API新增可复用提示词功能,开发者能保存不同场景下的配置与工具设置,提升开发效率。并且,API具备检测问题内容的能力,可自动终止违反平台政策的会话。针对欧盟用户,提供数据本地化存储选项,并制定特殊隐私规则以符合当地数据保护法规。价格方面,GPT-Realtime使用成本降低20%,音频输入token每百万个32美元,音频输出token每百万个64美元,缓存输入token每百万个0.40美元 。

取消 发布

下载品玩App,比99.9%的人更先知道关于「OpenAI」的新故事

下载品玩App

比99.9%的人更先知道关于「OpenAI」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测