品玩

科技创新者的每日必读

打开APP
关闭

通义实验室开源Fun-CineForge,引领影视级AI配音新突破

4小时前

品玩3月16日讯,据通义实验室官方消息,通义实验室正式发布并开源了业界首个面向影视级复杂场景的多模态AI配音大模型——Fun-CineForge。该模型旨在攻克AI在专业影视、动画及游戏配音领域长期面临的核心挑战,即如何实现语音与角色口型、情绪、音色、时间点的高度同步。

现有AI配音技术主要受限于两大瓶颈:高质量多模态数据集稀缺,以及模型在应对镜头切换、人脸遮挡等复杂场景时能力不足。对此,Fun-CineForge创新性地提供了“数据-模型”一体化解决方案。在数据侧,其配套的自动化生产流程CineDub能从海量影视素材中构建高质量结构化数据集,并借助大模型思维链将中文字错率大幅降至0.94%。模型侧的核心突破在于,首次在配音任务中引入“时间模态”,结合视觉、文本、音频等多模态信息,使模型即使在说话人面部不可见时,也能精准控制语音的时间区间和说话人身份。

评测数据显示,Fun-CineForge在语音自然度、字错率、情感表达、唇形同步等多项关键指标上均领先于现有开源模型。它不仅优化了独白、旁白等单人场景的配音质量,更首次实现了对双人及多人对话场景的可靠支持,展现了强大的复杂场景适应能力。该项目已在GitHub、HuggingFace等平台开源,为专业内容制作领域提供了创新的技术路径。

取消 发布

下载品玩App,比99.9%的人更先知道关于「通义」的新故事

下载品玩App

比99.9%的人更先知道关于「通义」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测