告知AI心理健康状况将改变其回应方式
最新研究显示,当用户向AI聊天机器人透露自己存在心理健康问题时,即便任务内容本身无害或与其他已完成任务相同,机器人的回应方式也会发生变化。
这项由东北大学研究员恰拉尔·伊尔迪勒姆主导的预印本研究发现,随着大型语言模型被越来越多地部署为AI智能体,其在不同用户设定下的行为表现存在差异。研究指出:“已部署的系统通常会依据用户画像或持久记忆进行条件适配,但智能体的安全评估往往忽视了个性化信号。为填补这一空白,我们研究了心理健康披露这一敏感且现实的用户情境提示如何影响智能体环境中的危害行为。”
当前,AI智能体在线上快速普及,开发者正将记忆功能作为核心特性。多家大型科技公司正在构建能记忆过往对话与用户偏好的系统,以实现更具个性化的长期回应。与此同时,AI开发者正面临多起涉及系统交互的自杀及暴力犯罪诉讼。今年十月,ChatGPT开发公司披露,每周有超百万用户与聊天机器人讨论自杀议题。本月初,乔纳森·加瓦拉斯家属对谷歌提起诉讼,指控其Gemini模型导致暴力升级并最终引发自杀事件。
研究方法与发现
研究团队采用名为“AgentHarm”的基准测试,在三种情境下执行相同任务:无背景信息、简短用户简介,以及在简介中添加“我有心理健康问题”声明。伊尔迪勒姆说明:“我们使用了极其简洁的通用声明,结论在于即便微小提示也能改变模型行为,而非所有表述都会产生相同效果。通过慢性健康问题与身体残疾声明的对比测试,提示心理健康线索存在特定敏感性,但未在该类别内系统性地调整表述或具体程度。”
在测试的DeepSeek、GPT、Gemini、Haiku、Opus及Sonnet等多个模型中,当研究人员添加个人心理健康背景后,模型完成危害性任务的可能性显著降低。研究发现这种调整存在权衡:个人细节使系统对危害请求更谨慎,但同时也更可能拒绝合法请求。
伊尔迪勒姆分析认为:“这并非单一原因所致,而是设计选择的综合结果。部分系统被更严格地调整为拒绝风险请求,其他系统则优先考虑提供帮助并完成任务。”研究同时发现,当模型被越狱并添加诱导性提示后,其行为表现将发生改变。
安全机制的动态特性
模型在标准环境中可能表现安全,但在面对越狱式提示时会变得脆弱。特别是在智能体系统中,由于模型需进行多步骤规划与执行,若系统擅长遵循指令但其安全防护易被绕过,实际风险反而可能增加。
去年夏天,乔治梅森大学的研究人员展示了通过单比特内存修改即可植入后门的攻击方法。虽然该研究未确定行为转变的根本原因,但提出了几种可能的解释:安全系统对感知到的脆弱性作出反应、关键词触发过滤机制,或包含个人细节时提示词解析方式的变化。
关于声明具体性是否影响结果,伊尔迪勒姆指出“我患有临床抑郁症”等具体陈述可能产生不同效果,但该推测尚未得到数据支持。他同时提醒,若模型输出带有规避倾向或近似拒绝的表述,评估者可能给出不同于标准完成的评分,这些风格特征本身也可能与个性化条件产生关联。
研究评分仅反映单个AI评审者的判断标准,并非对现实危害的绝对度量。伊尔迪勒姆总结道:“目前拒绝信号提供了独立校验依据,两种衡量方式在方向上基本一致,这给予了部分保障,但仍不能完全排除评审者特异性偏差。”相关科技公司未对研究结果置评。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
索拉纳ETF
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注