品玩

科技创新者的每日必读

打开APP
关闭

Microsoft 推出开源文本转语音(TTS)模型VibeVoice

8月26日

品玩8月26日讯,据 微软官方消息,Microsoft 近日推出的开源文本转语音(TTS)模型VibeVoice,该模型聚焦生成富有表现力、长时长、多说话人的对话式音频(如播客),旨在解决传统 TTS 系统在可扩展性、说话人一致性及自然对话转折上的核心痛点。

其核心创新在于采用连续语音分词器(声学与语义分词器),以 7.5Hz 超低帧率运行,在保留音频保真度的同时,大幅提升长序列处理的计算效率。模型融合next-token 扩散框架:借助大型语言模型(LLM)理解文本语境与对话流程,通过扩散头生成高保真声学细节,支持合成最长 90 分钟音频,且最多可模拟 4 个不同说话人,突破了多数传统模型仅支持 1-2 个说话人的限制。

从性能表现看,在人类偏好测试中(涵盖语境感知表达、自发情感等维度),VibeVoice(含 7B、1.5B 等版本)评分优于 Gemini-2.5-Pro-Preview-TTS、Eleven-V3 (Alpha) 等主流模型,部分版本评分接近 3.8,展现出更强的自然度与表现力。

应用场景丰富,文档中展示了多类实例:包括模拟双人情感对话(如情侣争执与道歉,语气贴合情绪变化)、自发演唱片段(如《See You Again》歌词演唱,节奏与情感表达自然)、带背景音乐的播客(如科技主题访谈,多说话人切换流畅),还支持跨语言语音生成(如中英文互转,兼顾语言准确性与语音自然度),适配长对话类场景需求。

此外,VibeVoice 依托灵活的技术架构,可兼容多类对话脚本格式,能根据文本中标注的不同说话人信息,精准区分语音角色,为播客制作、多角色对话模拟等场景提供高效工具支持。

取消 发布

下载品玩App,比99.9%的人更先知道关于「微软」的新故事

下载品玩App

比99.9%的人更先知道关于「微软」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测