品玩5月8日讯,据9to5Mac 报道,OpenAI正式发布三款全新的实时语音模型,旨在为开发者解锁新一代语音应用形态。此次发布的模型分别为GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,分别针对推理对话、实时翻译和语音转录三大核心场景。
其中,GPT-Realtime-2是首款具备GPT-5级推理能力的语音模型,能够在保持对话流畅的同时处理复杂请求、调用工具并应对用户打断。GPT-Realtime-Translate支持将70多种输入语言实时翻译为13种输出语言,且能跟上说话者语速。GPT-Realtime-Whisper则专注于低延迟流式转录,实现边说边转文字,适用于即时字幕与会议记录。
三款模型均已集成至Realtime API。定价方面,GPT-Realtime-2音频输入为每百万Token 32美元,输出为64美元;翻译与转录模型则分别按每分钟0.034美元和0.017美元计费。





0 条评论
请「登录」后评论