3 月 2 日是元宵节的前一天,正月十四,严格来说还在春节里。广州前天下了场雨,早上雾锁珠江,直到下午都没散尽。小鹏科技园里,沿路站着几位手执很多把伞等雨的保安,注视媒体老师们鱼贯进入会场。
不出意外,这将是马年春节 AI 热潮中发布的最后一个产品。
何小鹏曾在 2 月初的微博上做了预热。他说,“第二代 VLA”将是智驾的“DeepSeek 时刻”,它将代表一种智驾能力的涌现。结果原本呼声很高的 DeepSeek V4 缺席了整个春节,何小鹏的 DeepSeek 时刻却如约而至了。
在过去一年时间里,“DeepSeek 时刻”时常在各种场合里被各种行业提起,像是任人打扮的小姑娘。所以当有人说“DeepSeek”时刻的时候,它可能是在说很多事情:
它可能代表一种智能涌现和高度泛化的智能水平——而这种卓越的智能表现可以让许多普通人,即便不懂技术语言,也可以凭借产品体验来立刻感受到巨大的能力跃迁;
它也有可能代表一种极致的工程效率创新——以此为基点,效率的提升与成本的下降让它成为了一个更广泛场景应用的智能底座;
当然,它也代表了一种 AGI 的“中国时刻”——以 DeepSeek 为起点,标志着中国 AI 拥有了不亚于硅谷的基础智慧能力。
所以当我看到小鹏说第二代 VLA 是智驾“DeepSeek”时刻的时候,我下意识地把它当作又一个“局部”的“零散”的“DeepSeek 时刻”的文字游戏。
直到 3 月 2 日,第二代 VLA 体验日上,小鹏正式宣布技术将在本月推送落地。
我才意识到何小鹏这次说的其实是一个完整的“DeepSeek”故事。
“DeepSeek 时刻”
何小鹏上来讲的是一个关于智驾的“体验”和“本能”的细节:他说他曾经带母亲第一次体验智驾,老人家第一反应是去伸手车辆头顶上扶手。
后来“抓扶手”这个词反复在发布会上出现,好像成为了过去一代智能驾驶与普通人交互的一个缩影——
当一辆汽车的智能驾驶系统,既无法做到全面的智能泛化、覆盖所有的路段,只能在特定的路段、甚至特定的天气情况下跑;在行驶过程中表现迟缓而犹豫不决,偶尔还会需要人接管。那么智驾就注定只能成为一小撮极客消费者的选择。
何小鹏说,未来好的智驾应该成为“坐电梯”。
无论老人还是小孩,只要坐上去按一下按钮,汽车就能把乘客送到对的地方。
它可以实现全场景的能力,胡同小路、乡村非铺装的烂路、临时路段全部都能通行,在诸如交警手势、救护车避让等场景也能出现一些涌现的偶发类人表现。
它能实现媲美专车司机的顺滑,超车果断,车距有度,加速减速有分寸。
用何小鹏这次的话说,第二代 VLA 就是希望做“妈妈都能用”。
我妈其实就是从 DeepSeek 才开始用 AI 的。
而 DeepSeek 之所以能成为妈妈们手机里的常客,是因为它做了过去没有人做过的效率创新。比如,许多人都很熟悉的 DeepSeek 三件套:MLA(Multi-head Latent Attention)优化缓存、创新的 MoE 架构提升推理效率,还有前无古人的用 FP8 精度训超大模型的成本神话。
没有架构创新,只靠数据 Scaling,是不会产生 DeepSeek 的。
小鹏这次的第二代 VLA 做了一次大的架构升级。
目前许多媒体都已经反复报道过的,也是整个第二代 VLA 的重头戏,就是它整体去掉了 L(语言)作为中间表征的角色,首次实现从视觉信号到动作指令的端到端直接生成。
其实类似 VLA 的问题,我们此前也报道过。因为 L 转译效率确实比较低,尤其在运动控制层面,有点脱裤子放屁的感觉,较低的效率还会制约整个模型的 scaling 上限。所以很多机器人公司也在探索去掉 L。但之所以难,是因为里面的架构要重新设计,模型需要从头来训,这背后意味着烧大量的钱。
何小鹏在发布会后,对媒体表示,基座模型大概一年要烧掉“几十亿”。
而刘先明则直接将这个模型称作“原生多模态物理世界大模型”。
但去掉“语言”层只是整个第二代 VLA 的一个直观的介绍,智驾负责人刘先明将整个工作分成了更多的模块,其中有几个部分是我印象比较深刻的:
一个是他们做了单独的原生多模的 tokenizer,这是能去掉 L 的关键。
刘先明坦言物理世界是比文本更复杂的存在。因为物理世界的输⼊信号是连续的⾮结构化数据的、且信息量⼤,不像⽂字⼀样容易去做分词、容易去做拆解。所以他们单独做了一套 tokenizer,来实现多模态的信息融合。
其次,他们做了一套基于视觉的 CoT(思维链)。
我理解因为去掉了 L,省去了更多编解码的损耗,保留了更多视觉信息的细节,所以让整个视觉的思维链可以更加稠密。再加上 CoT 的工程改进,刘先明表示,这套系统比过去效率提升了 32 倍,预测误差降低了 33%。
最后,在算力侧,他们重新做了一套 AI 的编译器。
刘先明说,现在单次训练过程当中,云端的⾼质量数据达到了 50 个 Pb 左右,是正常训练⼀个基
于语⾔的⼤模型的 20 倍左右的⼀个数据量。
而且因为小鹏输⼊的是⾼密度的摄像头和传感器数据,⽐如⻋上的高分辨率高帧率的摄像头数据达到每秒钟 53 亿个字节,是其他传感器正常的 20-50 倍左右。
目前小鹏训练⼀个模型的整体的 token 数量在 4 万亿 token 左右,相当于训练一个 ChatGPT 级别模型的数据规模。
所以刘先明说,他们重新打造了一套 AI 编译器,然后再根据编译器和芯片去重新做了一个“图灵结构”的模型底座,他们称之为“图灵模型”。
然后发现算力的提升非常可观,如下图,基本上能翻倍了。
刘先明说,⼀颗图灵芯⽚的名义算⼒相当于⼤概是 3 颗的 OrinX 的芯⽚算⼒。 但如果像刚才那样优化以后,实际的效率基本上达到了 10 颗 OrinX 的有效算⼒。
在云端算力方面,刘先明表示,在过去 13 个月的时间里,小鹏将单 GPU 训练效率提升了 1010%、单任务效率提升 4360%、GPU 利用率提升 125%,这让他们可以在过去不到 4 个月的时间里,“暴力”更新了 468 版模型。
相当于一天接近 4 个版本。
L4 将改变一切
何小鹏说,第二代 VLA 将是目前小鹏一小步,却也是改变未来行业十年格局的重要一步。
我猜它至少包含了两个意思。
一个是何小鹏通过第二代 VLA 真的看到了下一个智能上升的阶梯,看到了新架构的 scaling 的潜力。他将其称作“分水岭时刻”,即传统架构的曲线会逐步落后于新架构。
另一方面,他在会上正式提出跳过 L3,直接进入到 L4。而第二代 VLA 则是“第一个面向 L4 的智能辅助驾驶系统”。
在媒体沟通会上,何小鹏将完全自动驾驶的时间定在“一年到三年”之间。而在会场上,其实可以感受到他极力想要去传递更乐观的信息,可能在他的心目中,实际时间应该是更偏向“一年”而非“三年”的。
在发布会上,他以今年 1 月份联合国交通法规为例。联合国已经放开了全球自动辅助驾驶的时间表。何小鹏评价其为“非常激进”,将在 26 年允许驾驶员脱手。
此外,美国 2 月份已经打开了全自动驾驶,将有 9 万辆车不用方向盘在路上行驶。
所以何小鹏当时在发布会上表示,自己将在两会上的一份提案——《关于加快推动自动驾驶技术从 L2 跨越到 L4 完善法规与管理政策的建议》,希望加速 L4 在中国的落地。
从整体来看,虽然与过去专注 L2\L3 的自动驾驶技术存在着部分分歧,但以第二代 VLA 为代表的智驾技术的确正在加速高阶智驾的落地。
综合整场发布会的发言,何小鹏这次对高阶智驾落地后的影响,可以总结成几个判断:
一个是未来五到十年,智能驾驶在普通消费者的购买权重会不断增加,从目前的中游逐步进化成绝对靠前的权重;
一个是座舱应用要和智驾体系融合,大量的座舱内的应用要适应新的高阶智驾的趋势,来重新思考和开发。此前小鹏已经成立了“通用智能中心”,将两个部门全部合并到了一起,统一由刘先明负责。
但这其实只是整个智能融合的冰山一角。
从某种程度上 L4 和 L2 时代的汽车公司,可能是完全不同的样子——L2 时代的智能驾驶只是辅助,而 L4 因为完全解放了双手,汽车的形态必然将彻底改变。
当一家汽车厂越来越像基础智能公司
其实整场发布会,你都可以理解为,何小鹏和刘先明都在试图回答同一个问题:
一家汽车公司,当下站在 L2 时代,该如何迎接 L4?
何小鹏在公司内部公开信里,将自己称作一家“具身智能”公司。包括第二代 VLA 的探索,未来会复用到包括机器人大脑在内的多个不同的智能载体,在架构上成为一个通用的底座。
这次刘先明也说,自动驾驶的本质是物理 AI 问题,它无非是模型、算力、数据、本体的集合。
在那一刻,你真的会有一点恍惚,幻视这是一家“基础智能”的公司。
从投资金额上,如果以何小鹏披露的“几十亿”来算,今天小鹏在基础模型上的一年的投入甚至已经超过了非常多中国的基模探索团队过去的融资规模。
在模型探索上,而且这家公司对基模的思考,也远远不止于数据闭环,而是深入到了架构和算力领域,以物理 AI 的方式去重新架构新的物理 AI 模型能力。
而且小鹏可能还是中国为数不多,具备全栈自研能力的“模型公司”。
他不仅拥有图灵芯片,还有图灵结构和图灵模型,具备芯片底层与模型结合的调优能力。
更重要的是,当 VLA 第二代上车后,刘先明预测,小鹏的每天 token 消耗量届时可能达到目前中国模型 AI token 日调用总量的 80 倍。
小鹏不是一家基模公司。
但当一个基模公司有的,它也在做;基模公司没有的,它还在做。而且 token 消耗数量还能碾压行业的时候,你绝对不能忽视它的存在。
正如一句老话,“如果一个东西走起路来像鸭子,叫起来像鸭子,游起泳来也像鸭子”,那你可能要思考,它有没有可能真的是一只鸭子。或许有一天,只有拥有智能底座能力的公司,可能才能在那个时候被定义成好的汽车公司。
看完发布会后,我有一个感受。
物理 AI 是下一个未来,这已经是学界和行业的共识了。但我们却很容易忽略,物理 AI 可能也首先是由一个个场景组合起来的。而且哪怕只是一个场景,其实它的智能诉求和消耗量已经不亚于 LLM 现有的场景。
这足可见物理 AI 处理的问题之复杂、潜力之大,对智能水平的要求之高。
或许未来几年,从物理 AI 出发,我们还会看到更多的属于特定场景的 DeepSeek 时刻。而这些 DeepSeek 时刻的意义也绝不亚于一些 AGI 世界的畅想。而届时,只有更尊重技术客观规律,技术布局更长远,且拥有全栈优化能力的公司,可能未来才更有更多的优势,更适应 AGI 时代的新挑战。
DeepSeek 缺席了春节,但更多的 DeepSeek 还在路上。




0 条评论
请「登录」后评论