同一个模型,换一套Harness,编程基准分就翻倍了,行业为此吵了两个月,现在斯坦福说:不用吵了。
Harness火了,但也吵起来了
2026年开年最热的AI工程概念,就是Harness。
它指的是模型之外的一切——prompt模板、上下文管理、检索策略、多步推理编排、工具调用逻辑。一句话概括:你怎么调用模型,和模型本身同样重要,甚至更重要。
OpenAI Codex团队5个月写了100万行Agent代码后,得出的最大教训是“Agent不难,Harness才难”;SWE-Bench Mobile论文中,同一个Claude Opus 4.5在不同Harness下成功率2%对12%,差了6倍;LangChain 的编码 Agent 在 Terminal Bench 2.0 上,通过仅优化 Harness 而不修改底层模型,得分从 52.8% 提升至 66.5%,排名从第 30 跃升至第 5。
数据足够有说服力。Harness这个概念迅速从学术圈破圈,成了产业界的高频词。
但一个概念一旦火了,争议就跟着来了。给这股Harness热泼冷水的,比如OpenAI的Noam Brown,说Harness本质是拐杖,模型终将超越它——推理模型出来后,大量精心设计的Agentic系统一夜淘汰就是明证;Claude Code团队也说,“所有秘密武器在模型本身,追求最薄的包装”。
Anthropic的实践还提供了一个微妙的视角。他们先为Opus 4.5做了一套相当厚重的Harness方案——GAN式对抗架构、三Agent分工、sprint合约;但Opus 4.6出来后,Harness直接做了减法:去掉sprint分解、整体简化,从6小时$200降到3.8小时$125。性能更好,成本更低。
这套操作被称为Build to Delete——Harness的厚度取决于模型当前的能力边界,模型变强了,对应Harness就该被剥离。
所以争论的本质是什么?不是Harness重不重要,因为数据已经回答了,而是Harness不是一个静态的东西——它需要随模型迭代、随任务变化、随能力边界移动而持续演化。
斯坦福的Yoonho Lee团队和MIT的Omar Khattab看到了这个矛盾,然后给出了一个没想到的回答:
“别争了。让AI自己来做自己的Harness。”
Meta-Harness:一个“反智”的暴力方案
论文全称是 Meta-Harness: End-to-End Optimization of Model Harnesses,作者包括Yoonho Lee、Chelsea Finn(Stanford)、Omar Khattab(MIT,DSPy框架的创造者)等人。
核心思路的“反智”在于:让一个足够强的coding Agent自己一轮轮不断优化Harness来适配模型,过程中不压缩任何东西,全存下来,自己去翻阅、分析、总结,然后写出更好的Harness框架。
具体来说,每轮迭代产生的所有内容——候选Harness的完整源代码、逐样本执行轨迹、评分结果——全部以文件形式保存在一个结构化目录中。没有数据库,没有向量检索,就是最朴素的文件和文件夹。
然后,一个coding Agent被放进这个系统,任务只有一个:“基于之前所有尝试的经验,写一个更好的Harness。”
外层循环极其简洁:生成候选 → 评估 → 保存完整结果 → Agent分析所有历史 → 生成新候选 → 重复。没有花哨的搜索算法,没有进化策略,没有梯度近似。搜索的全部“智能”来自Agent自身的代码理解和推理能力。
这个方案看起来朴素,但它解决了一个此前所有自动优化方法都没解决的问题:信息保留。
过去涌现的文本优化器——Google的OPRO、TextGrad、DeepMind的AlphaEvolve——有一个共同的致命缺陷:对历史反馈的压缩太激进了。有些方法完全没有记忆,每轮从零开始;有些只保留一个标量评分(比如,“准确率62%”);有些把执行过程压缩成简短摘要。
这就好比让一个工程师debug复杂系统,但只告诉他“上一版代码得了62分”——没有日志、没有堆栈跟踪、没有错误样例。他怎么知道该改什么?
Meta-Harness的做法恰好相反。每轮评估能产生1000万tokens的诊断信息——包括每个样本的输入、模型输出、正确答案、中间推理步骤等完整执行轨迹。
Agent不是被喂了一段摘要,而是真的在“做研究”——自主决定读哪些文件。论文统计,Agent每轮中位数读取82个文件。它会看之前表现最好和最差的Harness源码,抽查特定样本的执行轨迹,发现“这类样本模型总是把A类判成B类”,对比两个Harness的差异,推断哪个设计决策导致了性能变化。
这个过程,和一个优秀工程师做实验分析的workflow几乎一模一样——只不过读文件速度快几百倍,而且永远不会累。
论文作者特别指出了一个时机问题:Meta-Harness在2026年初才变得可行。原因很简单——它完全依赖Coding Agent在过去一年的质变式能力提升。两年前的Agent根本无法在包含数百个文件的目录中自主导航、做有意义的分析、并写出能跑通的代码。今天可以了。
这不只是一个方法论的突破,更是一个时机的故事。Agent能力的提升,让一种原本“想法对但执行不了”的方案突然变成了现实。
三个战场,三种碾压
理论再漂亮,得拿数据说话。Meta-Harness在三个差异巨大的任务上做了验证。
文本分类实验中,Meta-Harness拿下“48.6%准确率”,比此前最强手工基线ACE高出7.7个百分点(ACE为40.9%)。更值得注意的是效率:上下文token用量11.4K,ACE需要50.8K——少了将近4倍。效果更好,成本更低。
收敛速度同样惊人:仅需4次评估迭代,就能匹配需要40次评估的竞品方法。Agent每轮从完整轨迹中提取的信息密度,远超那些只能看到分数或摘要的优化器。
论文还做了分布外泛化测试——将在5个数据集上搜索到的最优Harness直接迁移到9个未见数据集,结果同样优于ACE。这说明Meta-Harness找到的不是针对特定数据集的trick,而是更好的框架设计。
IMO难度的检索增强数学推理任务上,Meta-Harness自动发现了一个“4路路由BM25检索策略”——系统学会将数学题分为组合、几何、数论和默认四个类别,对每个类别使用差异化的检索参数。这种精细化路由设计,没有任何人类工程师事先指定过。
迁移能力同样值得关注:用GPT-OSS-20B搜索到的最优Harness,零样本迁移到5个未见推理模型均有提升。这意味着好的框架设计对不同模型都有效——Harness优化和模型选择是正交的两个维度。换言之,你在Harness工程上的投入不会因为换了模型就打水漂。
在 Claude Haiku 4.5组别中,Meta-Harness 确实以 37.6% 拿到了组别第一,超越了所有已知的手工 Harness(如 Goose 和官方的 Claude Code);在 Claude Opus 4.6组别中,Meta-Harness 以 76.4% 拿到组别第二。
Meta-Harness在这个任务上还自主发现了一个关键trick——“Environment Bootstrapping”(环境自举/引导):在Agent执行任务前,先自动运行shell命令收集沙箱环境快照(OS版本、已安装软件包、目录结构等),注入初始prompt。
这消除了Agent通常需要的2到4轮环境探索——不用再浪费推理步骤去看看目录里有什么。对token预算有限的编程Agent来说,省下这几轮等于直接提升了有效推理能力。没有人事先告诉系统要做这个优化,它是Meta-Harness在搜索过程中自己发现的。
论文中给出了三种信息保留策略的对比,结果一目了然:
- 仅保留分数 → 中位准确率 34.6%
- 分数 + 摘要 → 34.9%
- 完整轨迹(Meta-Harness) → 50.0%
完整轨迹带来15个百分点的提升,而摘要几乎没有帮助——甚至有时有害,因为压缩会丢掉看似琐碎但至关重要的诊断细节。
这对整个“AI优化AI”领域是一个值得反复咀嚼的结论:当Agent足够强大时,人为的预处理和压缩不是在帮忙,是在添乱。把原始信息全部交给Agent,让它自己决定看什么、忽略什么,效果远比人类代劳好得多。
同一个Bitter Lesson,两种解读
最后,让我们回到那场行业争论——把Meta-Harness放进去,事情变得非常有趣。
业界将Noam Brown的观点归入Bitter Lesson 阵营,因为提到Harness是拐杖:AI研究反复证明,依赖人类领域知识的精心设计终将被暴力计算碾平,所以别在框架工程上浪费时间,把赌注押在模型能力的持续增长上。
Meta-Harness用的也是Bitter Lesson:AI研究反复证明,通用搜索击败精心手工设计——所以不要手工设计Harness,让AI用通用搜索自己找最优解。它没有否认Harness重要,也没有否认模型会持续变强。它说的是:既然手工Harness终将被淘汰,那就让AI来接管。
简单来说,Noam Brown的版本是“别费劲做Harness了”,Meta-Harness的版本是“别费劲手做Harness了”。
Meta-Harness实质上重新定义了这场争论的坐标系。Model和Harness不是非此即彼的选择。当Harness优化本身被自动化后,两条路线自然收敛——模型变强了,Meta-Harness搜出的最优Harness也会跟着变薄。Anthropic手动执行的Build to Delete,在这套框架下会自动发生。
这件事本身就是Bitter Lesson说的那种“更大的计算”——那种总会赢的力量。
论文团队在最后提出了一个更远的方向:Harness与模型权重的协同进化。今天模型训练和框架设计还是两个独立过程。但如果Harness能被自动优化,未来的模型训练如何把Harness纳入优化循环?
巧的是,前阿里Qwen技术负责人林俊旸最近也在说类似的事。他在离职后发布的长文 "From Reasoning Thinking to Agentic Thinking" 里,把Harness的角色推到了更细分的位置——不只是推理时的运行框架,更应该是训练时的核心基础设施。Agent在什么样的Harness环境里训练,决定了它能学到什么。
现在,斯坦福已经让AI接管了推理时的Harness,那林俊旸瞄准的是训练时Harness呢?
这里有个耐人寻味的区别:推理时的Harness,目标明确,跑分见高下,AI比人快;训练时的Harness,定义的是模型在这个环境里训完之后,整体能力有没有变强,这是一个长程、稀疏、很难归因的过程——这一层的搭建,恐怕还得是人来做。
方向有了,谁先动手?2026年下半年的牌桌上,可能又多一道新题了。




0 条评论
请「登录」后评论