品玩

科技创新者的每日必读

打开APP
关闭
昆仑万维

昆仑万维开源交互世界模型Matrix-Game:AI一键生成《我的世界》,这次真能上手玩

当AI学会“创造”可交互的动态世界。

周一笑

发布于 15小时前

我们身处一个对数字娱乐体验的期待被无限拔高的时代。每当一款像《GTA6》预告片那样的重磅内容释出,引发全球玩家对虚拟世界真实感、互动性与自由度的热烈讨论时,一个更深层次的渴望便浮出水面:我们对未来游戏的终极幻想,究竟是什么模样?

《GTA6》预告片截图
《GTA6》预告片截图

或许,它不再仅仅是开发者预设好一切的精致沙盒,也不是传统意义上AI扮演的NPC(非玩家角色)或陪玩伙伴。想象一下,如果AI本身就是“创世神”,能够实时理解你的意图,动态生成一个鲜活、演进、遵循内在物理逻辑,并且可以被你随心所欲探索、操控乃至重塑的互动宇宙?在这个世界里,每一次日出、每一片落叶、每一个NPC的反应,都不是预设脚本的重复,而是AI基于对“世界规则”的理解与你的互动而涌现的独一无二的体验。

这听起来像是遥不可及的科幻片段吗?在过去,或许是的。但今天,随着人工智能技术的飞速发展,尤其是“世界模型”这一前沿概念的兴起,这种由AI主导构建交互式世界的愿景,已吸引了全球众多前瞻者的目光和投入。

从科技巨头如英伟达凭借其Cosmos平台在推动物理AI的普及,谷歌DeepMind集结顶尖人才专攻能够模拟真实物理环境的世界模型,微软MineWorld、Oasis项目等项目探索特定场景下的实时交互生成,李飞飞的World Labs聚焦空间智能大型世界模型LWM,都在不断拓展“世界模型”的边界。

在这场全球性的技术浪潮中,中国的科技力量同样在积极布局。昆仑万维便是其中之一,持续在AGI与AIGC领域进行投入。继此前推出的Matrix Zero初步探索了AI基于单张图片生成虚拟世界的能力之后,其最新发布的Matrix-Game,成为首个10B+参数的开源交互式世界模型。对MatrixGame V1的技术细节、开源代码或在线演示感兴趣的读者,可以通过以下链接获取更多信息:

  1. 项目主页:https://matrix-game-homepage.github.io
  2. 技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
  3. GitHub开源地址:https://github.com/SkyworkAI/Matrix-Game
  4. HuggingFace开源地址:https://huggingface.co/Skywork/Matrix-Game

Matrix-Game:构建可交互的“真实”

在对AI驱动的交互式世界充满期待的背景下,昆仑万维Matrix系列在空间智能领域的探索再进一步,推出了其在交互式世界生成方向的首次正式落地成果——Matrix-Game,不仅仅是一个全新的模型,背后也是一种面向未来的技术范式和应用潜力。在Demo演示中我们可以直观的看到Matrix-Game的能力:

在多个经典的《我的世界》风格场景中,Matrix-Game都能够精确响应用户的键盘与鼠标指令。角色流畅地执行着前进、后退、跳跃、攻击等基础动作,视角也随着用户的操控自由切换:

Matrix-Game支持自回归方式生成,在长视频中,场景依然能够保持高度的时序一致性和视觉连贯性:

Matrix-Game还初步展示了场景泛化的潜力,能够生成不同类型虚拟世界:

直观的演示之后,Matrix-Game的交互生成能力已初见端倪,但其技术基底才是决定能力边界的关键。

Matrix-Game 是什么?

Matrix-Game 被定义为一款面向游戏世界建模的交互式世界基础模型。其核心设计目标,是在可自由探索的开放环境中,实现高质量的内容生成与用户输入的精确控制 。通俗地讲,Matrix-Game 通过融合视频生成技术与用户交互体验,目标是让用户能够通过简单直观的指令(如键盘按键、鼠标移动),自由地探索、操控,乃至实时创造出细节丰富、且遵循合理物理规则的虚拟世界。这就好比,以前AI可能只是给我们放一段动画片,我们只能“被动”观看;现在AI则是给了我们一个巨大的互动游乐场,我们不仅能进去玩,还能动手与AI共同搭建新的游乐设施。

三大技术基石

Matrix-Game构建于其三大核心技术基石之上。首先是Matrix-Game-MC数据集,昆仑万维为此自主构建了大规模的交互世界数据集,其中包含两大类关键数据:一是大规模的无标签Minecraft游戏视频;二是带有精确键盘与鼠标控制信号的Minecraft及Unreal可控视频数据,这些数据均具备精细的动作注释 。为保证预训练数据质量,团队从高达6000小时的MineDojo(基于《Minecraft》的开源 AI 研究框架)原始数据中,通过画质与美学、非游戏内容剔除、动态与视角稳定性等多阶段过滤机制,筛选出近千小时的高质量720p视频片段。

而在有标签的可控监督数据生成上,则混合采用了两种策略:一方面利用VPT Agent在MineRL环境中进行自动探索,生成包含精确控制信号的大规模Minecraft视频;另一方面,基于Unreal Engine手动构建结构清晰、标签精确的模拟交互场景,以获取高精度、无噪声的可控标注数据,为高保真的动作-响应建模提供支持 。

系统的核心引擎是 Matrix-Game 主模型。这是一个基于先进扩散模型技术开发的“图像到世界”(Image-to-World)生成框架 。它强调空间智能能力,不依赖复杂的语言提示,仅基于视觉信号来建模空间几何、物体运动及其物理交互,并以单张参考图像作为生成交互式视频的起点 。

该模型能够根据用户的键盘指令(如上下左右跳跃攻击,以离散token表达)和鼠标移动(如视角变化,以连续token表达)等输入,融合GameFactory的控制模块与多模态Diffusion Transformer架构,并运用CFG技术提升控制鲁棒性,直接生成虚拟游戏世界的视频内容 。

为实现长视频的连贯生成,模型还支持自回归方式扩展长度,每次以前一视频片段的最后5帧作为运动上下文,逐段递进,同时采用多种策略(如随机扰动、删除、CFG引导)缓解时序漂移 。这一17B参数规模的世界基座模型,在空间理解、用户指令响应及物理交互建模上均取得了明显的进步 。

最后,为了科学、客观地评估一个“世界模型”的交互能力和真实性这一行业难题,昆仑万维提出了 GameWorld Score 评测体系,这是专为Minecraft世界建模设计的统一评测框架 ,旨在为交互式世界模型建立一个统一的评估标准,从视觉质量、时间连贯性、动作可控性以及物理规则理解等四个关键维度,对模型的综合性能进行量化评估,这不仅有助于Matrix-Game自身的迭代优化,也为该领域内缺乏系统性评测基准的现状提供了一个有益的补充。

不只是“又一个”世界模型

审视Matrix-Game的技术细节及其展现出的特性,我们不难发现昆仑万维在交互式AI世界生成这一前沿赛道上,寻求技术突破与独特市场定位的努力。

一个核心的亮点是它在让你和AI世界互动时的控制感,以及这个世界本身的真实感(尤其是物理规律方面)有了很大提升。有些AI可能主要就是把画面做得漂亮,但Matrix-Game不太一样,它着力确保其生成的世界具备内在的合理性与连贯性,避免出现违背基本规律与常识的场景。比如,在这个AI世界里,东西真的会往下掉,你操作的角色跳起来、撞到障碍物,都会有比较真实的反应。你能精细地控制角色往前走、跳起来、转头看风景,而且AI反应很快,操作起来更顺手,这样体验起来就感觉更真实,也更容易上手。我们可以把它与其他一些类似的开源方案做一个对比。比如说Decart的公司的Oasis模型,它能做到实时互动,但目前看,Oasis生成的画面还比较模糊,有时候逻辑也不太连贯,有网友评论说就像是在噩梦一样,微软也推出了Mineworld模型,但主要是给研究人员做实验用的,画面也比较粗糙,离真正的商业应用还有距离。

油管博主CygnusMC体验Oasis后评价其为“劣质品AI ”
油管博主CygnusMC体验Oasis后评价其为“劣质品AI ”

相较之下,Matrix-Game不仅在细粒度的用户交互控制上表现出色,模型支持前进、跳跃、攻击、视角移动等多种细节操作,并能根据用户输入做出准确自然的响应。Matrix-Game努力的方向是既要让用户能跟它顺畅互动,又要保证画面尽量真实、物理效果靠谱、整个世界也不能bug或者前后矛盾层出不穷。从昆仑万维的测试的结果来看,MatrixGame在Minecraft世界生成任务的各项指标上(包括视觉质量、时间一致性、动作可控性与物理规则理解)均超越了这两个模型 。例如,其图像质量达到0.72,键盘控制准确率为0.95,鼠标控制准确率为0.95,3D一致性为0.76,均高于对比组 。在双盲用户评估中,Matrix-Game生成的视频在总体偏好率上达到了96.3%,动作控制偏好达93.76% 。这些数据直观地反映了其在交互体验和生成质量上的提升。

更重要的是,因为MatrixGame还学习了Unreal Engine中的内容,所以它能干的活儿更多,更有潜力去搭建各种各样更复杂、更开放的大世界,而不仅仅是方块风格的世界。这一点让它有了面向更广阔、更多样化开放世界去发展的潜力。根据其发布的技术报告和演示,模型已初步展示了在多种Minecraft地形、天气和生物群系中的泛化能力,以及向一些非Minecraft游戏环境迁移的初步效果 。

此外,昆仑万维还做了 GameWorld Score评分系统,本身是一个挺新的想法,以前大家评价这种AI世界好不好,可能比较模糊,现在有了个更清楚的尺子,来量一量这个世界到底有多“好用”、多“真实”。

继GameWorld Score评测体系之后,昆仑万维也将Matrix-Game模型在 Github 和 Hugging Face 上开源 。此举主要面向游戏行业,同时也保留了其作为通用模型的潜力。对于一家中国企业而言,在交互式AI世界生成这一前沿技术领域选择开源,体现了其开放的行业姿态与推动生态发展的意愿。通过开放核心技术,Matrix-Game有望降低行业应用门槛,吸引更广泛的开发者参与共建,从而激发更多创新应用场景的涌现。

AI生成世界,然后呢?

当AI真正开始理解并能构建可交互的“真实”,最直接的影响是在游戏行业。传统的游戏开发流程漫长且成本高昂,而随着Matrix-Game这样的交互式世界模型的发展。想象一下,开发者可以借助AI快速生成多样化的游戏世界原型,甚至让AI根据预设规则动态生成新的任务、场景和挑战,极大地丰富游戏内容,降低开发门槛。

玩家也将从被动接受预设内容,转变为与AI共同创造独一无二游戏体验的参与者。AI驱动的NPC不再是只会重复固定对话的“背景板”,而是能够进行有意义互动、甚至拥有“个性”的智能伙伴。

在教育与仿真领域,这种技术也能催生出高度可控、交互丰富的虚拟学习与训练平台,无论是模拟复杂的科学实验,还是进行高风险的职业技能培训,都能在安全且低成本的环境下实现。

Matrix-Game的潜力还将辐射到具身智能的训练与测试。要让机器人或虚拟智能体在复杂物理世界中高效工作,需要海量、多样化且可控的训练环境。Matrix-Game所构建的遵循物理规则、支持细粒度交互的虚拟世界,为智能体的动作规划、任务执行和环境适应性学习提供了理想的“健身房”。

对于元宇宙内容生产和影视创作而言,Matrix-Game也打开了新的想象空间。无论是快速搭建沉浸式的虚拟社交空间,还是高效生成影视剧中所需的复杂动态场景,AI都将成为强大的生产力工具,让创作者能更专注于创意本身,而非繁琐的技术实现。正如Decart联合创始人Dean Leitersdorf所言,生成式AI有潜力从根本上改变人与计算机互动的方式,创造全新的数字游乐场。

这次Matrix-Game的发布可以看到,昆仑万维除了在AI应用层面(如AI搜索、AI短剧、AI音乐、AI游戏、AI社交等)的布局,在底层技术(“天工”系列大模型、AI芯片研发)上也在进行持续投入。

世界模型,因其对现实世界的模拟与理解能力,被许多研究者视为通往通用人工智能(AGI)的关键路径之一。当前AI研究者对世界模型的追求,是试图超越数据,进行反事实推理,回答“what if”问题的能力。一旦世界模型产生突破,AI的决策能力将大幅提升。

尽管世界模型技术仍面临算力需求、模型幻觉、数据版权等多重挑战,距离理想中能完美模拟现实的“超级模拟器”也还有漫长的道路要走。但Matrix-Game的发布,像是向未来投下的一颗石子,连同全球范围内其他先行者的探索,清晰地揭示了这一趋势:当AI不仅能生成我们眼前的景象,更能赋予这个景象内在的逻辑、鲜活的互动,甚至在其中展现出一定的“创造性”时,数字世界便开始拥有了某种意义上的“灵魂”。

这样的世界不再仅仅是被动体验的对象,而是成为我们思想的延伸、创造力的画布,以及与AI共同书写未来叙事的广阔场域。

下载品玩App,比99.9%的人更先知道关于「昆仑万维」的新故事

下载品玩App

比99.9%的人更先知道关于「昆仑万维」的新故事

iOS版本 Android版本
立即下载
周一笑

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测