微软发布 VALL-E2 模型，配音效果可达到人类水平-品玩

微软发布 VALL-E2 模型，配音效果可达到人类水平

2024年7月24日

品玩7月24日讯，据 Arxiv 页面显示，微软近期发布文本到语音模型 VALLE-2，首次实现了与人类同等的水平。

据悉，VALLE-2采用零样本学习技术，仅需一段简短的陌生语音样本，就能模仿相同的声音说出任意文本内容，展现了惊人的即时模仿能力。不过研究者表示，虽然 VALL-E 2 有很强的零样本学习能力可以像配音员一样模仿声音，但相似度和自然度取决于语音 prompt 的长度和质量、背景噪音等因素。

在主观评分（SMOS和CMOS）和客观指标(SIM、WER和DNSMOS)上，VALLE-2不仅超越了前代模型VALLE，在某些方面甚至优于人类真实语音。

下载品玩App，比99.9%的人更先知道关于「微软」的新故事

下载品玩App

比99.9%的人更先知道关于「微软」的新故事

AI阅读助手

以下有两点提示，请您注意：
1. 请避免输入违反公序良俗、不安全或敏感的内容，模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务，但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时，您需要自行判断并承担风险；
感谢您的理解与配合

该功能目前正处于内测阶段，尚未对所有用户开放。如果您想快人一步体验产品的新功能，欢迎点击下面的按钮申请参与内测申请内测