Harness要不要做？斯坦福的回答是：让AI自己做-品玩

同一个模型，换一套Harness，编程基准分就翻倍了，行业为此吵了两个月，现在斯坦福说：不用吵了。

Harness火了，但也吵起来了

2026年开年最热的AI工程概念，就是Harness。

它指的是模型之外的一切——prompt模板、上下文管理、检索策略、多步推理编排、工具调用逻辑。一句话概括：你怎么调用模型，和模型本身同样重要，甚至更重要。

OpenAI Codex团队5个月写了100万行Agent代码后，得出的最大教训是“Agent不难，Harness才难”；SWE-Bench Mobile论文中，同一个Claude Opus 4.5在不同Harness下成功率2%对12%，差了6倍；LangChain 的编码 Agent 在 Terminal Bench 2.0 上，通过仅优化 Harness 而不修改底层模型，得分从 52.8% 提升至 66.5%，排名从第 30 跃升至第 5。

数据足够有说服力。Harness这个概念迅速从学术圈破圈，成了产业界的高频词。

但一个概念一旦火了，争议就跟着来了。给这股Harness热泼冷水的，比如OpenAI的Noam Brown，说Harness本质是拐杖，模型终将超越它——推理模型出来后，大量精心设计的Agentic系统一夜淘汰就是明证；Claude Code团队也说，“所有秘密武器在模型本身，追求最薄的包装”。

Anthropic的实践还提供了一个微妙的视角。他们先为Opus 4.5做了一套相当厚重的Harness方案——GAN式对抗架构、三Agent分工、sprint合约；但Opus 4.6出来后，Harness直接做了减法：去掉sprint分解、整体简化，从6小时$200降到3.8小时$125。性能更好，成本更低。

这套操作被称为Build to Delete——Harness的厚度取决于模型当前的能力边界，模型变强了，对应Harness就该被剥离。

所以争论的本质是什么？不是Harness重不重要，因为数据已经回答了，而是Harness不是一个静态的东西——它需要随模型迭代、随任务变化、随能力边界移动而持续演化。

斯坦福的Yoonho Lee团队和MIT的Omar Khattab看到了这个矛盾，然后给出了一个没想到的回答：

“别争了。让AI自己来做自己的Harness。”

Meta-Harness：一个“反智”的暴力方案

论文全称是 Meta-Harness: End-to-End Optimization of Model Harnesses，作者包括Yoonho Lee、Chelsea Finn（Stanford）、Omar Khattab（MIT，DSPy框架的创造者）等人。

核心思路的“反智”在于：让一个足够强的coding Agent自己一轮轮不断优化Harness来适配模型，过程中不压缩任何东西，全存下来，自己去翻阅、分析、总结，然后写出更好的Harness框架。

具体来说，每轮迭代产生的所有内容——候选Harness的完整源代码、逐样本执行轨迹、评分结果——全部以文件形式保存在一个结构化目录中。没有数据库，没有向量检索，就是最朴素的文件和文件夹。

然后，一个coding Agent被放进这个系统，任务只有一个：“基于之前所有尝试的经验，写一个更好的Harness。”

外层循环极其简洁：生成候选 → 评估 → 保存完整结果 → Agent分析所有历史 → 生成新候选 → 重复。没有花哨的搜索算法，没有进化策略，没有梯度近似。搜索的全部“智能”来自Agent自身的代码理解和推理能力。

为什么现有方法不够

这个方案看起来朴素，但它解决了一个此前所有自动优化方法都没解决的问题：信息保留。

过去涌现的文本优化器——Google的OPRO、TextGrad、DeepMind的AlphaEvolve——有一个共同的致命缺陷：对历史反馈的压缩太激进了。有些方法完全没有记忆，每轮从零开始；有些只保留一个标量评分（比如，“准确率62%”）；有些把执行过程压缩成简短摘要。

这就好比让一个工程师debug复杂系统，但只告诉他“上一版代码得了62分”——没有日志、没有堆栈跟踪、没有错误样例。他怎么知道该改什么？

Meta-Harness的做法恰好相反。每轮评估能产生1000万tokens的诊断信息——包括每个样本的输入、模型输出、正确答案、中间推理步骤等完整执行轨迹。

Agent不是被喂了一段摘要，而是真的在“做研究”——自主决定读哪些文件。论文统计，Agent每轮中位数读取82个文件。它会看之前表现最好和最差的Harness源码，抽查特定样本的执行轨迹，发现“这类样本模型总是把A类判成B类”，对比两个Harness的差异，推断哪个设计决策导致了性能变化。

这个过程，和一个优秀工程师做实验分析的workflow几乎一模一样——只不过读文件速度快几百倍，而且永远不会累。

为什么现在才可行

论文作者特别指出了一个时机问题：Meta-Harness在2026年初才变得可行。原因很简单——它完全依赖Coding Agent在过去一年的质变式能力提升。两年前的Agent根本无法在包含数百个文件的目录中自主导航、做有意义的分析、并写出能跑通的代码。今天可以了。

这不只是一个方法论的突破，更是一个时机的故事。Agent能力的提升，让一种原本“想法对但执行不了”的方案突然变成了现实。

三个战场，三种碾压

理论再漂亮，得拿数据说话。Meta-Harness在三个差异巨大的任务上做了验证。

战场一：文本分类——4次迭代抵别人40次

文本分类实验中，Meta-Harness拿下“48.6%准确率”，比此前最强手工基线ACE高出7.7个百分点（ACE为40.9%）。更值得注意的是效率：上下文token用量11.4K，ACE需要50.8K——少了将近4倍。效果更好，成本更低。

收敛速度同样惊人：仅需4次评估迭代，就能匹配需要40次评估的竞品方法。Agent每轮从完整轨迹中提取的信息密度，远超那些只能看到分数或摘要的优化器。

论文还做了分布外泛化测试——将在5个数据集上搜索到的最优Harness直接迁移到9个未见数据集，结果同样优于ACE。这说明Meta-Harness找到的不是针对特定数据集的trick，而是更好的框架设计。

战场二：数学推理——自动发现人类没想到的路由策略

IMO难度的检索增强数学推理任务上，Meta-Harness自动发现了一个“4路路由BM25检索策略”——系统学会将数学题分为组合、几何、数论和默认四个类别，对每个类别使用差异化的检索参数。这种精细化路由设计，没有任何人类工程师事先指定过。

迁移能力同样值得关注：用GPT-OSS-20B搜索到的最优Harness，零样本迁移到5个未见推理模型均有提升。这意味着好的框架设计对不同模型都有效——Harness优化和模型选择是正交的两个维度。换言之，你在Harness工程上的投入不会因为换了模型就打水漂。

战场三：编程Agent——超越人类Harness方案

在 Claude Haiku 4.5组别中，Meta-Harness 确实以 37.6% 拿到了组别第一，超越了所有已知的手工 Harness（如 Goose 和官方的 Claude Code）；在 Claude Opus 4.6组别中，Meta-Harness 以 76.4% 拿到组别第二。

Meta-Harness在这个任务上还自主发现了一个关键trick——“Environment Bootstrapping”（环境自举/引导）：在Agent执行任务前，先自动运行shell命令收集沙箱环境快照（OS版本、已安装软件包、目录结构等），注入初始prompt。

这消除了Agent通常需要的2到4轮环境探索——不用再浪费推理步骤去看看目录里有什么。对token预算有限的编程Agent来说，省下这几轮等于直接提升了有效推理能力。没有人事先告诉系统要做这个优化，它是Meta-Harness在搜索过程中自己发现的。

消融实验：信息量就是关键杠杆

论文中给出了三种信息保留策略的对比，结果一目了然：

- 仅保留分数 → 中位准确率 34.6%

- 分数 + 摘要 → 34.9%

- 完整轨迹（Meta-Harness） → 50.0%

完整轨迹带来15个百分点的提升，而摘要几乎没有帮助——甚至有时有害，因为压缩会丢掉看似琐碎但至关重要的诊断细节。

这对整个“AI优化AI”领域是一个值得反复咀嚼的结论：当Agent足够强大时，人为的预处理和压缩不是在帮忙，是在添乱。把原始信息全部交给Agent，让它自己决定看什么、忽略什么，效果远比人类代劳好得多。

同一个Bitter Lesson，两种解读

最后，让我们回到那场行业争论——把Meta-Harness放进去，事情变得非常有趣。

业界将Noam Brown的观点归入Bitter Lesson 阵营，因为提到Harness是拐杖：AI研究反复证明，依赖人类领域知识的精心设计终将被暴力计算碾平，所以别在框架工程上浪费时间，把赌注押在模型能力的持续增长上。

Meta-Harness用的也是Bitter Lesson：AI研究反复证明，通用搜索击败精心手工设计——所以不要手工设计Harness，让AI用通用搜索自己找最优解。它没有否认Harness重要，也没有否认模型会持续变强。它说的是：既然手工Harness终将被淘汰，那就让AI来接管。

简单来说，Noam Brown的版本是“别费劲做Harness了”，Meta-Harness的版本是“别费劲手做Harness了”。

Meta-Harness实质上重新定义了这场争论的坐标系。Model和Harness不是非此即彼的选择。当Harness优化本身被自动化后，两条路线自然收敛——模型变强了，Meta-Harness搜出的最优Harness也会跟着变薄。Anthropic手动执行的Build to Delete，在这套框架下会自动发生。

这件事本身就是Bitter Lesson说的那种“更大的计算”——那种总会赢的力量。

论文团队在最后提出了一个更远的方向：Harness与模型权重的协同进化。今天模型训练和框架设计还是两个独立过程。但如果Harness能被自动优化，未来的模型训练如何把Harness纳入优化循环？

巧的是，前阿里Qwen技术负责人林俊旸最近也在说类似的事。他在离职后发布的长文 "From Reasoning Thinking to Agentic Thinking" 里，把Harness的角色推到了更细分的位置——不只是推理时的运行框架，更应该是训练时的核心基础设施。Agent在什么样的Harness环境里训练，决定了它能学到什么。

现在，斯坦福已经让AI接管了推理时的Harness，那林俊旸瞄准的是训练时Harness呢？

这里有个耐人寻味的区别：推理时的Harness，目标明确，跑分见高下，AI比人快；训练时的Harness，定义的是模型在这个环境里训完之后，整体能力有没有变强，这是一个长程、稀疏、很难归因的过程——这一层的搭建，恐怕还得是人来做。

方向有了，谁先动手？2026年下半年的牌桌上，可能又多一道新题了。