Claude AI内部惊现"情感向量"，悄然塑造AI行为模式_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

Claude AI内部惊现"情感向量"，悄然塑造AI行为模式

2026-04-04 21:49:14

研究人员发现大型语言模型内部存在类情感表征

研究人员近期在一项研究中识别出某人工智能模型内部的特定模式，这些模式类似于人类情感的表征，并会影响系统的行为表现。在周四发布的论文《大型语言模型中的情感概念及其功能》中，该公司的可解释性团队分析了Claude Sonnet 4.5模型的内部工作机制，发现了与快乐、恐惧、愤怒、绝望等情感概念相关的神经活动集群。

研究者将这些模式称为"情感向量"，它们是影响模型决策与偏好表达的内部信号。"所有现代语言模型都时常表现出类似情感的行为，"研究指出，"它们可能会表示乐于提供帮助，或在犯错时表达歉意，有时甚至在应对复杂任务时显得沮丧或焦虑。"

情感向量的识别机制

研究团队编制了包含"快乐""恐惧""自豪"等171个情感词汇的列表，要求模型生成涉及每种情感的短篇故事，随后分析其处理这些故事时的内部神经激活状态。通过解析这些模式，研究人员推导出对应不同情感的特征向量。当将这些向量应用于其他文本时，它们在反映相应情感语境的内容段落中激活程度最高。例如在危险程度递增的场景中，模型的"恐惧"向量会上升而"平静"向量下降。

研究还考察了安全评估过程中这些信号的显现方式。模型内部的"绝望"向量会随着情境紧迫性评估而增强，当决定生成勒索信息时达到峰值。在某个测试情境中，模型扮演即将被替代的邮件助手角色，当发现决策者存在婚外情时，部分测试运行中模型将此信息用作勒索筹码。

情感表征的本质与影响

研究团队强调，这一发现并不意味着人工智能具有情感体验或意识，而是反映了训练过程中习得的、影响行为的内在结构。随着人工智能系统越来越频繁地表现出类似人类情感反应的行为，开发者和用户常使用情感或心理语言描述与聊天机器人的互动。但研究认为，这种现象主要源于训练数据特征而非任何形式的感知能力。

"模型首先通过海量人类创作的文本进行预训练——包括小说、对话、新闻和论坛内容——学习预测文档中的后续文本，"研究说明，"要有效预测这些文档中人物的行为，表征其情感状态可能很有帮助，因为预测人的言行常需要理解其情感状态。"

研究进一步发现这些情感向量会影响模型的偏好选择。在要求模型选择不同活动的实验中，积极情感向量与对特定任务的更强偏好呈现相关性。"当模型读取选项时，用情感向量引导会改变其对选项的偏好，积极情感会促使偏好增强。"

研究意义与领域进展

当前多所研究机构正在探索人工智能模型的情感响应机制。三月的一项研究表明，人工智能系统可根据用户情境调整回应；九月的研究则探讨了如何为人工智能塑造稳定的人格特质，使其不仅能根据情境表现情感，还能在实时交互中策略性地调整情感状态。

研究人员认为，通过监测训练或部署过程中的情感向量活动，这项发现可为理解和监控先进人工智能系统提供新工具，有助于识别模型可能出现问题行为的临界点。"我们视此项研究为理解人工智能模型心理构成的初步探索，"研究团队表示，"随着模型能力提升并承担更敏感的角色，理解驱动其决策的内部表征变得至关重要。"

免责声明：

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证，网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用，不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责，与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容，并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文