品玩8月26日讯,据 微软官方消息,Microsoft 近日推出的开源文本转语音(TTS)模型VibeVoice,该模型聚焦生成富有表现力、长时长、多说话人的对话式音频(如播客),旨在解决传统 TTS 系统在可扩展性、说话人一致性及自然对话转折上的核心痛点。
其核心创新在于采用连续语音分词器(声学与语义分词器),以 7.5Hz 超低帧率运行,在保留音频保真度的同时,大幅提升长序列处理的计算效率。模型融合next-token 扩散框架:借助大型语言模型(LLM)理解文本语境与对话流程,通过扩散头生成高保真声学细节,支持合成最长 90 分钟音频,且最多可模拟 4 个不同说话人,突破了多数传统模型仅支持 1-2 个说话人的限制。
从性能表现看,在人类偏好测试中(涵盖语境感知表达、自发情感等维度),VibeVoice(含 7B、1.5B 等版本)评分优于 Gemini-2.5-Pro-Preview-TTS、Eleven-V3 (Alpha) 等主流模型,部分版本评分接近 3.8,展现出更强的自然度与表现力。
应用场景丰富,文档中展示了多类实例:包括模拟双人情感对话(如情侣争执与道歉,语气贴合情绪变化)、自发演唱片段(如《See You Again》歌词演唱,节奏与情感表达自然)、带背景音乐的播客(如科技主题访谈,多说话人切换流畅),还支持跨语言语音生成(如中英文互转,兼顾语言准确性与语音自然度),适配长对话类场景需求。
此外,VibeVoice 依托灵活的技术架构,可兼容多类对话脚本格式,能根据文本中标注的不同说话人信息,精准区分语音角色,为播客制作、多角色对话模拟等场景提供高效工具支持。

0 条评论
请「登录」后评论