品玩

科技创新者的每日必读

打开APP
关闭

Meta发布Muse Spark:华人天团废墟重建,最恨Llama的果然是小扎自己

小扎终于交卷

猫猫头

发布于 4小时前

在Llama彻底“崩盘”后,Meta创始人兼CEO扎克伯格亲手拆除过去的团队、架构并彻底走向“反Llama”路线,砸百亿建起华人科学家为主的AI研发天团。今天,在9个月后,在整个硅谷关注以及不少的冷嘲热讽下,他和这个全新团队终于交出了首个模型作品,试图证明一整套从零搭建的AI栈跑通了。

4月8日,Meta正式发布了MSL(Meta Superintelligence Labs)成立以来的第一个模型Muse Spark。九个月前Alexandr Wang加入Meta担任首席AI官,带着从OpenAI挖来的一众华人核心研究员,推翻了整个Llama时代的技术栈——新基础设施、新架构、新数据管道,全部从零开始。Muse Spark就是这套新栈的第一个产出,现在它已经直接上线驱动Meta AI。

在Llama 4因benchmark造假风波陷入被动的背景下,这是Meta的一次全面重启。

Muse Spark是什么

它是个处处和Llama反着来的模型:

一个被刻意设计得小巧、轻量、高响应速度的原生多模态推理闭源模型。

先看它的核心能力:

原生多模态:不是把视觉编码器硬缝到文本模型上的"拼接式"架构。从预训练阶段起,文本、图像、语音就在同一个高维特征空间里训练。这意味着它处理图片不需要先翻译成文字描述,而是直接从像素级别提取信息。

Visual Chain of Thought(VCoT,视觉思维链):传统的思维链推理是纯文本的,模型在文字里逐步拆解问题。Muse Spark把这个机制引入了视觉空间——它能在图像中"思考",自主构建视觉元素之间的空间和逻辑关系。

Contemplating Mode(沉思模式):对标Gemini Deep Think和GPT Pro的极限推理模式。区别在于它不是单线串行推理,而是在后台同时拉起多个并行运算的子agent,各自处理任务的不同维度,最后由主控系统融合结果。沉思模式下Humanity's Last Exam达到58%,FrontierScience Research达到38%。

工具调用和多agent编排:原生支持,不是后期拼上去的。

目前Muse Spark已在meta.ai和Meta AI app上线,Contemplating Mode逐步灰度中,同时向少量合作伙伴开放私有API预览。

技术亮点:华人天团都是怎么说的

今天MSL团队几乎集体在X上发帖,几个关键信息值得注意:

Meta官方博客放出了一个极其重要的数据:在预训练阶段,新栈达到同等能力水平所需的算力比上一代Llama 4 Maverick减少了超过一个数量级。不是百分之几十的优化,是10倍以上的效率提升。博客原文称"over an order of magnitude less compute",并且"significantly more efficient than the leading base models available for comparison"——甚至比其他家的基座模型都高效。

Alexandr Wang的九条thread里最重要的一句话:"we saw predictable scaling across pretraining, RL, & test-time reasoning." 预训练、强化学习、测试时推理,三条线都看到了可预测的scaling——这可能比任何benchmark数字都重要。它意味着这套栈不是调出来的一个lucky shot,而是一个scaling曲线平滑的系统。

首席科学家赵晟佳(@shengjia_zhao)的描述更具体:这个模型的训练路径是"端到端的教育"——school(预训练)、homework(RL)、on-the-job training(产品部署后的持续学习)。他强调"we just got started"。

RL部分有个很有意思的技术细节。毕树超(@shuchaobi)提到了训练中最痛苦的部分:大规模RL的不稳定性,以及"fighting reward hacking"——对抗奖励机制作弊。但官方博客显示他们最终把RL跑到了"smooth, predictable gains"的状态,pass@1和pass@16都呈log-linear增长,而且在未见过的评测集上也能平滑泛化。

更有意思的是RL训练中出现的"相变"现象:团队在训练时引入了thinking time penalty(思考时间惩罚),模型先是通过更长的思考来提升表现,然后在惩罚压力下学会了"思想压缩"——用更少的token解决同样的问题,之后又再次延伸推理以达到更高性能。Ananya Kumar(@ananyaku)在帖中称这个过程"pretty neat"。

Ananya放出的另一组图表显示了多agent推理的关键insight:多个agent并行推理,在相同延迟下能达到比单agent更高的性能。换句话说,Contemplating Mode不只是"让模型想得更久",而是"让多个模型同时想不同的事"。

余家辉(@jhyuxm)作为多模态底座的总架构师,说了一句很有意思的话:"It's been a fulfilling journey not just building the model, but the team and culture behind it." 建模型是一回事,建团队和文化是另一回事——他们在九个月里两件事同时干了。

Jason Wei(@_jasonwei)的回忆最有画面感:"第一周我们在食堂吃了一顿漫长的晚餐,畅想研究方向,然后回到桌前写了一个基本的inference llama脚本。现在我们有了一套相当完整的技术栈,第一个模型已经发布。"

Benchmark:什么领先不领先,回到牌桌先

再来看看benchmark数据:

HealthBench Hard(极高难度医学问答):Muse Spark 42.8,GPT-5.4是40.1,Gemini 3.1 Pro只有20.6,Claude Opus 4.6只有14.8。绝对领先,接近其他模型的两到三倍。

CharXiv Reasoning(科研论文图表深度理解):86.4,全行业最高。

SWE-bench Pro(真实软件工程任务):55.0%,超过Claude Opus 4.6的51.9%。

Artificial Analysis综合智能指数:52分,而GPT-5.4和Gemini 3.1 Pro都是57分。

Meta想借此说明:Muse Spark在医疗多模态和科研图表理解这两个需要"真正看懂图"的领域,已经是毫无争议的第一。在代码工程上也进入了第一梯队。

不过,目前它综合能力距离GPT-5.4和Gemini 3.1 Pro还有5分的差距,纯文本高级推理方面也还没撼动Anthropic和Google的积累。

这样的表现继续引来一些批评,Ndea的cofounder François Chollet直接称Muse Spark"已经看起来是个令人失望的模型",他认为模型过度优化了公开benchmark,牺牲了实际可用性——而Alexandr Wang的回应很克制:承认模型在ARC AGI 2等评测上表现不佳,并强调这些数据已主动公开。

Chollet的质疑不是没有道理。Llama 4时代Meta就因benchmark造假风波伤过一次信誉。这次Muse Spark在Artificial Analysis综合指数上仍落后GPT-5.4和Gemini 3.1 Pro五分,医疗和科研图表上的断档领先,是否来自对特定benchmark的定向优化,还是原生多模态架构带来的真实能力?这个问题需要更多第三方独立测试来回答。

Muse Spark当然重要,但它最重要的意义不在于今天的benchmark分数。

从这个模型的设计,到这些研究员此次重点介绍的技术亮点,一切都指向对Llama的反对:Llama 4的大溃败在扎克伯格眼里是个要彻底翻篇的事情,所以不只是它的开源路线,它的模型架构要改,更重要的是它整个训练基础设施都得给它掀翻了。此次这几位核心作者的x发文,看起来都在围绕底层技术栈的重构来介绍。Muse Spark这次发布也让人更明白扎克伯格挖来Alexander Wang的目的。

最恨Llama的还得是扎克伯格自己,他必须得全盘给它推翻,在废墟里重建。

此次的发布也是Meta招兵买马后那支华人天团交出的第一个模型。余家辉(前OpenAI感知团队负责人、GPT-4o核心开发者)、赵晟佳(前OpenAI合成数据研发领头人、ChatGPT联合创作者)、任泓宇(前OpenAI o1/o3推理核心贡献者)、毕树超(前OpenAI多模态后训练负责人)、林纪(前OpenAI核心优化专家)——这些被Meta用上亿美元的签字费挖过来的AI科学家,在纸面上自然是一个明星团队,他们必须先用一个模型让Meta回到牌桌上。这是扎克伯格的当务之急。

扎克伯格在九个月前交给他们的是一张白纸。今天他们交出的答案其实更多是一整套预训练、RL、测试时推理的完整栈,并且——关键在这——scaling曲线是平滑的、可预测的。

更大的模型已经在路上了。

猫猫头

微信:GNAHC0002 小红书:猫猫头の硅谷日记

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测