品玩3月2日讯,阿里云通义实验室宣布发布两款采用“FreeStyle”新范式的语音生成模型:Fun-CosyVoice3.5与Fun-AudioGen-VD,旨在推动语音生成技术进入自然语言精细控制的新阶段。
该模型专注于声音复刻与表达优化,核心突破在于支持通过自然语言指令直接控制生成效果,如“语气坚定一点”,而无需依赖预设标签。其支持多语种复刻,新增了对泰语、印尼语、葡萄牙语、越南语的生成能力,并在发音准确性、韵律听感及响应延迟上实现显著优化。
另一款模型Fun-AudioGen-VD则专注于从零构建声音与听觉场景。它能够根据文字描述,直接生成指定的音色、情绪、角色乃至完整的背景环境与空间声学效果,实现了“人物+场景”的一体化声音创造。
此次发布的两款模型,将语音生成从依赖模板的工具,转变为可由自然语言编排的创作平台,为影视、游戏、有声内容等领域提供了更灵活高效的解决方案。官方已同步开放相关API接口与文档。





0 条评论
请「登录」后评论