品玩

科技创新者的每日必读

打开APP
关闭

微软发布 VALL-E2 模型,配音效果可达到人类水平

2024年7月24日

品玩7月24日讯,据 Arxiv 页面显示,微软近期发布文本到语音模型 VALLE-2,首次实现了与人类同等的水平。

据悉,VALLE-2采用零样本学习技术,仅需一段简短的陌生语音样本,就能模仿相同的声音说出任意文本内容,展现了惊人的即时模仿能力。不过研究者表示,虽然 VALL-E 2 有很强的零样本学习能力可以像配音员一样模仿声音,但相似度和自然度取决于语音 prompt 的长度和质量、背景噪音等因素。

在主观评分(SMOS和CMOS)和客观指标(SIM、WER和DNSMOS)上,VALLE-2不仅超越了前代模型VALLE,在某些方面甚至优于人类真实语音。

取消 发布

下载品玩App,比99.9%的人更先知道关于「微软」的新故事

下载品玩App

比99.9%的人更先知道关于「微软」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测