品玩

科技创新者的每日必读

打开APP
关闭

通义实验室发布两款支持自然语言指令的语音生成模型

2小时前

品玩3月2日讯,阿里云通义实验室宣布发布两款采用“FreeStyle”新范式的语音生成模型:Fun-CosyVoice3.5与Fun-AudioGen-VD,旨在推动语音生成技术进入自然语言精细控制的新阶段。

该模型专注于声音复刻与表达优化,核心突破在于支持通过自然语言指令直接控制生成效果,如“语气坚定一点”,而无需依赖预设标签。其支持多语种复刻,新增了对泰语、印尼语、葡萄牙语、越南语的生成能力,并在发音准确性、韵律听感及响应延迟上实现显著优化。

另一款模型Fun-AudioGen-VD则专注于从零构建声音与听觉场景。它能够根据文字描述,直接生成指定的音色、情绪、角色乃至完整的背景环境与空间声学效果,实现了“人物+场景”的一体化声音创造。

此次发布的两款模型,将语音生成从依赖模板的工具,转变为可由自然语言编排的创作平台,为影视、游戏、有声内容等领域提供了更灵活高效的解决方案。官方已同步开放相关API接口与文档。

取消 发布

下载品玩App,比99.9%的人更先知道关于「阿里云」的新故事

下载品玩App

比99.9%的人更先知道关于「阿里云」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测