腾讯混元联合复旦发布CL-bench基准揭示语言模型Context学习能力严重不足-品玩

腾讯混元联合复旦发布CL-bench基准揭示语言模型Context学习能力严重不足

3小时前

品玩2月4日讯，据腾讯混元团队官方消息，腾讯混元团队与复旦大学联合发布研究，指出当前顶尖大语言模型（如GPT-5.1、Claude Opus等）虽在静态知识测试中表现优异，却严重缺乏从动态上下文（Context）中实时学习新知识的能力。研究团队提出专门评估基准CL-bench，涵盖500个复杂场景及近3.2万项验证标准。

实验显示，十大前沿模型在CL-bench上平均任务解决率仅17.2%，最佳模型GPT-5.1也仅达23.7%。模型普遍忽视或误用Context内容，过度依赖预训练记忆，尤其在需要归纳推理的任务中表现更差。

研究强调，提升模型的Context学习能力是推动AI落地高价值应用的关键。若此能力取得突破，人类角色将从数据提供者转向Context设计者，而如何实现学习成果的持久化记忆将成为下一阶段核心挑战。