通义实验室发布两款支持自然语言指令的语音生成模型-品玩

品玩3月2日讯，阿里云通义实验室宣布发布两款采用“FreeStyle”新范式的语音生成模型：Fun-CosyVoice3.5与Fun-AudioGen-VD，旨在推动语音生成技术进入自然语言精细控制的新阶段。

该模型专注于声音复刻与表达优化，核心突破在于支持通过自然语言指令直接控制生成效果，如“语气坚定一点”，而无需依赖预设标签。其支持多语种复刻，新增了对泰语、印尼语、葡萄牙语、越南语的生成能力，并在发音准确性、韵律听感及响应延迟上实现显著优化。

另一款模型Fun-AudioGen-VD则专注于从零构建声音与听觉场景。它能够根据文字描述，直接生成指定的音色、情绪、角色乃至完整的背景环境与空间声学效果，实现了“人物+场景”的一体化声音创造。

此次发布的两款模型，将语音生成从依赖模板的工具，转变为可由自然语言编排的创作平台，为影视、游戏、有声内容等领域提供了更灵活高效的解决方案。官方已同步开放相关API接口与文档。