Microsoft 推出开源文本转语音（TTS）模型VibeVoice-品玩

品玩8月26日讯，据微软官方消息，Microsoft 近日推出的开源文本转语音（TTS）模型VibeVoice，该模型聚焦生成富有表现力、长时长、多说话人的对话式音频（如播客），旨在解决传统 TTS 系统在可扩展性、说话人一致性及自然对话转折上的核心痛点。

其核心创新在于采用连续语音分词器（声学与语义分词器），以 7.5Hz 超低帧率运行，在保留音频保真度的同时，大幅提升长序列处理的计算效率。模型融合next-token 扩散框架：借助大型语言模型（LLM）理解文本语境与对话流程，通过扩散头生成高保真声学细节，支持合成最长 90 分钟音频，且最多可模拟 4 个不同说话人，突破了多数传统模型仅支持 1-2 个说话人的限制。

从性能表现看，在人类偏好测试中（涵盖语境感知表达、自发情感等维度），VibeVoice（含 7B、1.5B 等版本）评分优于 Gemini-2.5-Pro-Preview-TTS、Eleven-V3 (Alpha) 等主流模型，部分版本评分接近 3.8，展现出更强的自然度与表现力。

应用场景丰富，文档中展示了多类实例：包括模拟双人情感对话（如情侣争执与道歉，语气贴合情绪变化）、自发演唱片段（如《See You Again》歌词演唱，节奏与情感表达自然）、带背景音乐的播客（如科技主题访谈，多说话人切换流畅），还支持跨语言语音生成（如中英文互转，兼顾语言准确性与语音自然度），适配长对话类场景需求。

此外，VibeVoice 依托灵活的技术架构，可兼容多类对话脚本格式，能根据文本中标注的不同说话人信息，精准区分语音角色，为播客制作、多角色对话模拟等场景提供高效工具支持。