OpenAI发布三款实时语音模型，全面升级语音交互体验-品玩

品玩5月8日讯，据9to5Mac 报道，OpenAI正式发布三款全新的实时语音模型，旨在为开发者解锁新一代语音应用形态。此次发布的模型分别为GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper，分别针对推理对话、实时翻译和语音转录三大核心场景。

其中，GPT-Realtime-2是首款具备GPT-5级推理能力的语音模型，能够在保持对话流畅的同时处理复杂请求、调用工具并应对用户打断。GPT-Realtime-Translate支持将70多种输入语言实时翻译为13种输出语言，且能跟上说话者语速。GPT-Realtime-Whisper则专注于低延迟流式转录，实现边说边转文字，适用于即时字幕与会议记录。

三款模型均已集成至Realtime API。定价方面，GPT-Realtime-2音频输入为每百万Token 32美元，输出为64美元；翻译与转录模型则分别按每分钟0.034美元和0.017美元计费。