2025年10月30日,智源研究院在北京举办“悟界 · Emu系列技术交流会”,智源研究院院长王仲远、多模态大模型负责人王鑫龙,发布了Emu3.5多模态世界大模型。这项工作的发布开启了人工智能从语言学习向多模态世界学习演进的新纪元,率先指明了多模态 Scaling 的新范式。而Emu作为“悟界”系列模型的重要组成部分,标志着AI正加速从数字世界迈向物理世界的关键一步。

2024年10月,智源研究院发布了全球首个原生多模态世界模型Emu3,该模型只基于下一个token预测,无需扩散模型或组合方法,实现图像、文本、视频的大一统。模型一经上线便在技术社区引发了热议。
一年后,智源发布Emu3.5,在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”,获得了可泛化的世界建模能力。
王仲远表示:“通过 Emu3 我们验证了自回归架构实现多模态理解与生成大一统的可行性,Emu3.5 则开启了多模态 Scaling 的新时代。更重要的是,它为通往更通用的、能够理解并与物理世界交互的通用人工智能,提供了一条坚实的、可度量的实践路径。”
Emu3.5在超过 10 万亿 token 的大规模多模态数据基础上展开训练,其视频数据训练量时长实现从15年到 790年的跃升,参数量从8B上升至34B,揭示了原生多模态Scaling范式。其推理时,创新性地提出“离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)技术,这一高效的混合推理预测方法,可以在不牺牲性能的前提下,将每张图片的推理速度提升了近 20 倍,首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。
王鑫龙介绍:“EMU3.5突破了原生多模态的大规模预训练、大规模强化学习和高效推理,指出了多模态世界模型的一种简单易扩展的Scaling范式。”
EMU3.5 模型开始具备学习现实世界物理动态与因果的能力,为探索通用世界模型奠定了坚实的基础。它具备三大重要特点。一是从意图到规划,模型能够理解高层级的人类意图(如“如何制作一艘宇宙飞船”“如何做咖啡拉花”),并自主生成详细、连贯的多步骤行动路径。二是动态世界模拟,模型在统一框架内无缝融合了对世界的理解、规划与模拟,能够预测物理动态、时空演化和长时程因果关系。三是可成为泛化交互基础:其涌现出的因果推理和规划能力,为 AI 与人类及物理环境进行泛化交互(如具身操控)提供了关键的认知基础。
这些特点这让新一代世界模型具备从“理解”到“行动”的全面智能能力,可生成行动指南、进行图文编辑,并且同时具备物理直觉可开展多场景的探索。
Emu3.5 在多模态指导中展现出卓越的时序一致性与步骤推理能力,让复杂任务的执行过程一目了然。多模态叙事能力上,Emu 3.5能围绕任意主题生成沉浸式的故事体验,释放无限想象力。此外模型可实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力,并能在世界探索中保持长距离一致性与可控交互,兼顾真实与虚拟的动态环境,实现自由探索与精准控制。

同时,图文编辑方面,它既能通过自然语言实现任意指令的图片编辑与时空变换,也能以精准、智能、可控且富有创意的方式完成文图生成,让文字与视觉内容的融合更加自然与高保真。在基准测试中,Emu3.5 的表现超越了众多知名的闭源模型。
王仲远总结,以第一性原理看大模型未来,我们相信AI的下一次跃迁,将来自模型对现实世界的深层表征与可泛化行动指导的能力。我们期待与更多科研机构与产业伙伴一起,开创多模态世界大模型新范式,探索通往AGI的演进之路。
了解更多智源悟界·Emu3.5 可访问:https://zh.emu.world/
 
 
 
 
 
 
 
 
 




0 条评论
请「登录」后评论