品玩

科技创新者的每日必读

打开APP
关闭

上海创智学院刘鹏飞团队与Sand.ai合作 开源国内首个“懂人”音视频联合生成模型

7小时前

品玩3月24日讯,上海创智学院刘鹏飞团队与Sand.ai联合宣布,正式开源全球首个、号称最“懂人”的音视频联合生成基座模型——daVinci-MagiHuman。该模型旨在通过技术帮助普通人将内心的情感与故事转化为音视频作品。

现有开源音视频模型存在跨模态同步难、架构扩展难、生成速度慢的局限。daVinci-MagiHuman采用纯自注意力架构,由一个150亿参数的Transformer统一建模文本、视频、音频三种模态,摒弃了跨注意力与模态分支,实现了真正的模态无关。模型还采用修正流匹配训练及专为低延迟设计的级联流水线,兼顾生成质量与效率。

在与开源先进模型LTX-2.3和Ovi 1.1的对比评测中,daVinci-MagiHuman在画面质量、文本一致性、音频清晰度上均表现优异,整体效果均衡。模型支持多步与少步两种推理模式,可在消费级GPU上实现近实时生成。目前,其全部模型权重与推理代码已在GitHub与Hugging Face平台开源。

取消 发布

下载品玩App,比99.9%的人更先知道关于「智能语音」的新故事

下载品玩App

比99.9%的人更先知道关于「智能语音」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测