品玩

科技创新者的每日必读

打开APP
关闭

快手对可灵的真正野心,是造出个世界模型

产品上只字不提,技术上全是布局

黄小艺

发布于 10小时前

12月1日,可灵正式发布了新模型——可灵 O1,并连续发布了可图 O1、音画同出模型可灵2.6、可灵数字人2.0、可灵O1主体库&对比模版共五个更新。

最核心的是两个O系列的生成模型,与 GPT的o系列一样,“O”代表着 Omni(all,一切),意味着模型不再局限于单一模态的输入。

正因如此,O1也被视为视频生成界的 “Nano Banana” 。它们的相似点在于,都是多模态整合,都具有强可控性多轮编辑能力

看起来很酷,但可灵的目标并不止于“又一个视频模型”。

如果梳理近一年可灵的各种动作,你就会发现,O系列或许只是一个序幕,接下来,可灵的方向是要做出自己的世界模型。

“Video World Model是未来!”

事实上,可灵想做世界模型的这份野心,从来没有隐藏过。

第一个火爆的视频生成模型Sora,在发布之初就宣称自己是“世界模拟器”。22个月过去,越来越多的视频生成模型都在宣传或研究上,或多或少地朝“世界模型”靠近,可灵也不例外。

各种论文在提供着清晰线索。

早在2024年12月,Sora公开上线的同月,快手就发布过一篇名为《Owl-1: Omni World Model for Consistent Long Video Generation》的论文,提出了Omni World Model(Owl-1),用于产生长期连贯且全面的条件,实现持续的长视频生成,预测未来动态[1]。

从论文来看,这是他们长达一年的技术演进的梳理。进入2025年,快手的可灵团队就开始逐渐密集地发布世界模型相关研究。

在其中,你甚至可以找到各种当下火爆的路线方向。

2025年8月Google 发了实时交互的Genie3,快手则对它对应的这种生成式交互视频在游戏领域的应用做了研究,论文获得了ICCV 2025 Highlight。

2025年11月李飞飞正式发布的3D “世界模型”,快手也有一个对应的模型Terra。

这些名气很大的关键节点,快手的策略是紧跟不缺席。

不过,随着“世界模型”的概念被炒热,这也存在一个争议点——视频生成模型,到底是不是世界模型?图灵奖得主 Yann LeCun 曾为此泼过一盆冷水。他认为,“视频生成并不等于世界模型”,单纯预测下一个像素点,只是对画面的模仿,并非对物理世界的真正理解。

然后快手可灵团队在2025年11月也发布了一篇论文《Simulating the Visual World with Artificial Intelligence: A Roadmap》,里面给出了回应:视频生成模型也可以学习物理规律,像素只是模型渲染给人类看的结果,不代表模型中间没有计算和推理。

这篇论文可以看作是快手自己为“视频生成模型如何通往世界模型”画出的路线图,在文中,快手明确将Kling 1.0归类于第一代世界模型,Kling2.1 Master归类于第二代世界模型。

在他们看来,现代视频模型并非直接预测像素,而是存在一个隐式世界模型作为“大脑”,负责在肉眼不可见的高维潜在空间(Latent Space)中进行推演,这和LeCun的潜在空间推理同理,它接收当前的各种状态输入,基于推理能力和内化的物理法则——如重力、流体动力学、物体恒常性——计算出下一时刻的世界状态[3]。

快手专家研究员王鑫涛也直接在知乎上写下判断:“我相信,Video World Model 是未来”。

可灵最近研究都围绕世界模型展开

继续沿着《Simulating the Visual World with Artificial Intelligence: A Roadmap》这篇回看,快手那些看似碎片化的研究——从物理准确性到镜头运动控制——其实都能被串联进这条通往“世界模型”之路中。

Roadmap里的一个核心是,团队认为“视频生成”走向“世界模型”的一个关键点是Navigation Mode(导航模式)。

快手认为,真正的世界模型不能只靠“空间条件”(如布局、草图、深度图)来描摹画面、进行像素级或有限的控制;它必须能听懂“导航条件”——即那些脱离了画面依然成立的、具有时序的、具有空间推理的交互指令(如“向左转”、“推拉镜头”)。

也正是因此,团队有关“导航条件”的研究格外多。


镜头运动就是一种导航条件,ICCV 高分论文 RecamMaster,提出了一种由摄像机控制的生成视频重渲染框架,能够在新的摄像机轨迹下再现输入视频的动态场景[4];SynCamMaster 则进一步让模型在同一时间轴上实现多摄像机视频生成,确保不同视角间的内容一致性[5];而 AdaViewPlanner 则让 AI 变成了摄影指导,能自主规划最佳观察路径[6]。这一系列研究,本质上都是在提升模型对3D、4D空间的动态感知。

这些研究,也反映在了此次的O系列里。

从目前可灵O系列的案例中也能看出,例如,可灵O1针对一张侧面的车内驾驶视频,生成一张后座视角的车内驾驶视频;可图O1将一张二维的房间设计图,转化为3维空间的设计图等等。

按照快手Roadmap的定义,我们可以将可灵O1划分在世界模型第二代到第三代之间。

在快手的定义中, 第二代的主要特征就是交互性,“导航模式”赋予了模型灵活的控制力,使其能遵循预定义轨迹执行长动作序列,而第三代模型则更进一步,核心在于“规划能力”(Planning)与“实时交互”, 进一步强化了导航模式,模型不仅能“听指令走路”,还要能基于内在的物理知识,自主推演并生成无限长的视频序列。

也就是说,仅仅会“运镜”是不够的,模型还必须懂物理、能思考。因此在导航类论文之外,快手还构建了物理、推理方向的研究。

比如,快手推出的Monet训练框架,通过让多模态大语言模型 (MLLMs)直接在连续的潜在视觉空间中进行推理,增强视觉推理能力[7];

还有PhysMaster,作为一种模型外挂,通过注入物理知识来增强视频生成模型的物理感知能力,使其能够生成更符合物理规律的视频。[8]。

随着研究碎片们不断补齐,O系列,会是可灵打开新“世界”的大门吗?

在“赚钱工具”与“世界模拟器”的夹缝中

如果快手想要继续向世界模型前进,实时性就是一个关键的卡点。

尽管 O1 模型在空间逻辑、指令遵循上有进步,但生成一段 5 秒的视频目前仍需耗时约 2 分钟。这种“高延迟”并非 O1 独有的问题,回看从可灵 1.0 到可灵 2.1 Master 的整个迭代轨迹,团队显然采取了一种“画质优先,速度让位”的策略。

但对于一个旨在模拟世界的系统而言,如果无法做到实时响应,那么它更像是一个精美的“离线渲染器”,而非真正意义上可交互的“世界模型”。如何在保持高保真画质的同时,将分钟级的生成时间压缩至秒级、毫秒级,是一个难题。

不过,在一篇《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》的论文中,团队也埋下了一个伏笔:随着“上下文压缩”技术的改进,视频生成时间有望降低。

这一切也形成了一个非常有意思的“错位”:当年第一个喊出“世界模拟器”口号的 Sora,如今反而越来越像个产品经理,忙着搞 AI 视频版的 TikTok,开发 Cameo这种娱乐玩法,一门心思往应用层钻,而快手尽管攒了一系列的研究,但偏偏对外的产品公布里,就不提世界模型。

“技术向左,产品向右”的矛盾背后,是商业盘算。

在11月19日的Q3财报会上,程一笑提到,视频模型与大语言模型本质上均朝着世界模型方向演进,且视频模型有望成为世界模型的核心技术支撑,但可灵现阶段仍将“AI影视创作场景”作为核心目标。

某种程度上,可灵的产品和模型是分离的。模型在水下,可灵平台作为一个产品才是对外输出的核心。据快手Q1的财报会披露,可灵AI营业收入主要由P端付费用户(指专业的自媒体、视频创作者和广告营销从业者等)以及为企业客户提供API服务构成,而其中近70%由P端付费用户贡献。

这群“金主”不在乎你是不是“世界模拟器”,也没那么在乎实时性,他们只在乎能不能稳定出片、能不能赚钱。因此可灵外宣称自己是世界模型,似乎除了被挑剔,也没有额外的增益。

但情况迟早要转变。

单纯作为“影视创作工具”的商业天花板是肉眼可见的,根据此前和11月19日披露的Q3数据,可灵AI今年第一季度、第二季度、第三季度的收入分别超过1.5亿元、2.5亿元、3亿元,全年预计收入1.4亿美元,但增速逐渐放缓。

无论是谷歌 Veo3 被用于机器人领域,还是特斯拉利用生成式视频训练自动驾驶,亦或是游戏行业对AI引擎的渴求,具身智能、自动驾驶、游戏引擎等领域,才是视频生成模型真正的星辰大海,对模型的物理一致性和实时交互能力也提出了极高的要求。

所以,哪怕对于视频生成模型来说,想要不再只是一个昂贵的玩具或是一个辅助的创作工具,做成“世界模型”是一件生死攸关的大事。因为只有模拟真实,才能挖动和物理世界交互的金矿。

在今天的O系列之后,看起来我们可以期待快手接下来的“W”模型了。

参考资料:

[1]Owl-1: Omni World Model for Consistent Long Video Generation

[2]A Survey of Interactive Generative Video

[3]Simulating the Visual World with Artificial Intelligence: A Roadmap

[4]ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

[5]SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

[6]AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

[7]Monet: Reasoning in Latent Visual Space Beyond Images and Language

[8]PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

黄小艺

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测