品玩11月17日讯,据 Github 显示,一项新研究提出“大模型脑腐”(LLM Brain Rot)假说,认为持续接触社交媒体中的低质“垃圾文本”会导致大语言模型(LLM)出现持久性认知能力下降。研究团队基于真实Twitter/X语料,通过两种正交指标——M1(互动热度与文本简短度)和M2(语义质量)——构建对照数据集,在保持词元规模与训练流程一致的前提下开展受控实验。
结果显示,4个主流LLM在垃圾数据上持续预训练后,在推理、长上下文理解、安全性等维度均出现显著退化(Hedges’ g > 0.3),且“黑暗人格特质”(如自恋、冷酷)倾向上升。混合比例实验进一步揭示剂量效应:随垃圾数据占比从0%升至100%,ARC-Challenge(带思维链)得分由74.9降至57.2,RULER-CWE由84.4跌至52.3。
错误归因分析表明,模型主要因“跳过推理步骤”而失效;虽可通过指令微调或清洁数据部分修复,但无法完全恢复基线水平,提示表征空间已发生持久偏移。研究强调,数据质量是影响LLM能力的因果因素,呼吁将数据筛选视为训练阶段的安全问题,并对部署模型实施常规“认知健康检查”。





0 条评论
请「登录」后评论