品玩3月16日讯,据通义实验室官方消息,通义实验室正式发布并开源了业界首个面向影视级复杂场景的多模态AI配音大模型——Fun-CineForge。该模型旨在攻克AI在专业影视、动画及游戏配音领域长期面临的核心挑战,即如何实现语音与角色口型、情绪、音色、时间点的高度同步。
现有AI配音技术主要受限于两大瓶颈:高质量多模态数据集稀缺,以及模型在应对镜头切换、人脸遮挡等复杂场景时能力不足。对此,Fun-CineForge创新性地提供了“数据-模型”一体化解决方案。在数据侧,其配套的自动化生产流程CineDub能从海量影视素材中构建高质量结构化数据集,并借助大模型思维链将中文字错率大幅降至0.94%。模型侧的核心突破在于,首次在配音任务中引入“时间模态”,结合视觉、文本、音频等多模态信息,使模型即使在说话人面部不可见时,也能精准控制语音的时间区间和说话人身份。
评测数据显示,Fun-CineForge在语音自然度、字错率、情感表达、唇形同步等多项关键指标上均领先于现有开源模型。它不仅优化了独白、旁白等单人场景的配音质量,更首次实现了对双人及多人对话场景的可靠支持,展现了强大的复杂场景适应能力。该项目已在GitHub、HuggingFace等平台开源,为专业内容制作领域提供了创新的技术路径。





0 条评论
请「登录」后评论