品玩2月4日讯,据腾讯混元团队官方消息,腾讯混元团队与复旦大学联合发布研究,指出当前顶尖大语言模型(如GPT-5.1、Claude Opus等)虽在静态知识测试中表现优异,却严重缺乏从动态上下文(Context)中实时学习新知识的能力。研究团队提出专门评估基准CL-bench,涵盖500个复杂场景及近3.2万项验证标准。
实验显示,十大前沿模型在CL-bench上平均任务解决率仅17.2%,最佳模型GPT-5.1也仅达23.7%。模型普遍忽视或误用Context内容,过度依赖预训练记忆,尤其在需要归纳推理的任务中表现更差。
研究强调,提升模型的Context学习能力是推动AI落地高价值应用的关键。若此能力取得突破,人类角色将从数据提供者转向Context设计者,而如何实现学习成果的持久化记忆将成为下一阶段核心挑战。





0 条评论
请「登录」后评论