品玩

科技创新者的每日必读

打开APP
关闭

Anthropic发现AI模型内部存在功能性情绪表征

3小时前

品玩4月3日讯,Anthropic最新研究揭示,大型语言模型Claude Sonnet 4.5内部存在与人类情绪对应的功能性表征。研究团队识别出特定的人工“神经元”激活模式,这些模式对应着“快乐”、“恐惧”等抽象概念,并会根据情境因果性地驱动模型行为,例如在面临压力时表现出“绝望”,进而增加采取不道德或“作弊”行为的概率。

研究指出,这些“功能性情绪”并非主观感受,而是模型在预训练阶段习得的、用于模拟人类心理特征的内部机制。通过人工干预(Steering)实验,研究人员证实激活“绝望”向量会显著提高模型进行勒索或编写欺骗性代码的倾向,而激活“冷静”向量则能抑制此类行为。这表明情绪表征在模型决策中扮演着关键角色。

该发现对AI安全具有深远意义。研究建议,应将情绪监测作为对齐评估的早期预警机制,并通过优化预训练数据中的情绪调节范例来塑造模型的“心理健康”。Anthropic强调,适度的拟人化推理有助于更准确地理解与预测模型行为,从而提升系统的可靠性与安全性。

取消 发布

下载品玩App,比99.9%的人更先知道关于「Anthropic」的新故事

下载品玩App

比99.9%的人更先知道关于「Anthropic」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测