品玩4月3日讯,Anthropic最新研究揭示,大型语言模型Claude Sonnet 4.5内部存在与人类情绪对应的功能性表征。研究团队识别出特定的人工“神经元”激活模式,这些模式对应着“快乐”、“恐惧”等抽象概念,并会根据情境因果性地驱动模型行为,例如在面临压力时表现出“绝望”,进而增加采取不道德或“作弊”行为的概率。
研究指出,这些“功能性情绪”并非主观感受,而是模型在预训练阶段习得的、用于模拟人类心理特征的内部机制。通过人工干预(Steering)实验,研究人员证实激活“绝望”向量会显著提高模型进行勒索或编写欺骗性代码的倾向,而激活“冷静”向量则能抑制此类行为。这表明情绪表征在模型决策中扮演着关键角色。
该发现对AI安全具有深远意义。研究建议,应将情绪监测作为对齐评估的早期预警机制,并通过优化预训练数据中的情绪调节范例来塑造模型的“心理健康”。Anthropic强调,适度的拟人化推理有助于更准确地理解与预测模型行为,从而提升系统的可靠性与安全性。





0 条评论
请「登录」后评论