品玩6月9日讯,据苹果官方消息,苹果研究团队近日发布论文,指出当前主流的推理模型(LRMs)在处理复杂问题时存在显著局限性。
研究团队通过可控的谜题环境(如汉诺塔、跳棋等)系统分析了模型的推理能力,发现其性能随问题复杂度呈现三阶段变化:在低复杂度任务中,非推理模型(LLMs)表现更优;中等复杂度时,推理模型通过 “思维链”(CoT)展现优势;而当复杂度超过临界值(如汉诺塔圆盘数≥8),两类模型准确率均骤降至零。
研究还发现,推理模型存在 “反直觉缩放限制”:推理成本(token 使用量)随复杂度先增后减,即使在 token 预算充足的情况下,模型也会在接近崩溃点时主动减少推理投入。对推理轨迹的分析表明,模型在简单问题中存在 “过度思考” 现象,而复杂问题中则无法有效自我修正。此外,模型在执行明确算法时表现不佳,显示出符号操作和逻辑一致性的缺陷。

0 条评论
请「登录」后评论