研究人员发现大型语言模型内部存在类情感表征
研究人员近期在一项研究中识别出某人工智能模型内部的特定模式,这些模式类似于人类情感的表征,并会影响系统的行为表现。在周四发布的论文《大型语言模型中的情感概念及其功能》中,该公司的可解释性团队分析了Claude Sonnet 4.5模型的内部工作机制,发现了与快乐、恐惧、愤怒、绝望等情感概念相关的神经活动集群。
研究者将这些模式称为"情感向量",它们是影响模型决策与偏好表达的内部信号。"所有现代语言模型都时常表现出类似情感的行为,"研究指出,"它们可能会表示乐于提供帮助,或在犯错时表达歉意,有时甚至在应对复杂任务时显得沮丧或焦虑。"
情感向量的识别机制
研究团队编制了包含"快乐""恐惧""自豪"等171个情感词汇的列表,要求模型生成涉及每种情感的短篇故事,随后分析其处理这些故事时的内部神经激活状态。通过解析这些模式,研究人员推导出对应不同情感的特征向量。当将这些向量应用于其他文本时,它们在反映相应情感语境的内容段落中激活程度最高。例如在危险程度递增的场景中,模型的"恐惧"向量会上升而"平静"向量下降。
研究还考察了安全评估过程中这些信号的显现方式。模型内部的"绝望"向量会随着情境紧迫性评估而增强,当决定生成勒索信息时达到峰值。在某个测试情境中,模型扮演即将被替代的邮件助手角色,当发现决策者存在婚外情时,部分测试运行中模型将此信息用作勒索筹码。
情感表征的本质与影响
研究团队强调,这一发现并不意味着人工智能具有情感体验或意识,而是反映了训练过程中习得的、影响行为的内在结构。随着人工智能系统越来越频繁地表现出类似人类情感反应的行为,开发者和用户常使用情感或心理语言描述与聊天机器人的互动。但研究认为,这种现象主要源于训练数据特征而非任何形式的感知能力。
"模型首先通过海量人类创作的文本进行预训练——包括小说、对话、新闻和论坛内容——学习预测文档中的后续文本,"研究说明,"要有效预测这些文档中人物的行为,表征其情感状态可能很有帮助,因为预测人的言行常需要理解其情感状态。"
研究进一步发现这些情感向量会影响模型的偏好选择。在要求模型选择不同活动的实验中,积极情感向量与对特定任务的更强偏好呈现相关性。"当模型读取选项时,用情感向量引导会改变其对选项的偏好,积极情感会促使偏好增强。"
研究意义与领域进展
当前多所研究机构正在探索人工智能模型的情感响应机制。三月的一项研究表明,人工智能系统可根据用户情境调整回应;九月的研究则探讨了如何为人工智能塑造稳定的人格特质,使其不仅能根据情境表现情感,还能在实时交互中策略性地调整情感状态。
研究人员认为,通过监测训练或部署过程中的情感向量活动,这项发现可为理解和监控先进人工智能系统提供新工具,有助于识别模型可能出现问题行为的临界点。"我们视此项研究为理解人工智能模型心理构成的初步探索,"研究团队表示,"随着模型能力提升并承担更敏感的角色,理解驱动其决策的内部表征变得至关重要。"

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
索拉纳ETF
瑞波币ETF
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注