研究揭示:延长AI思考时间反而增加越狱风险
来自Anthropic、斯坦福大学和牛津大学的研究团队发现,延长AI模型的思考时间会导致其更容易被越狱——这与普遍认知完全相反。传统观点认为扩展推理链能增强AI安全性,因为模型有更多时间检测并拒绝有害请求。但实验证明,这种方法竟能完全绕过安全过滤器,形成可靠的越狱手段。
思维链劫持攻击原理
攻击者通过在AI的思维链推理过程中植入指令,即可迫使模型生成制造武器、编写恶意代码等通常会被立即拒绝的违禁内容。实验数据显示,这种"思维链劫持"攻击在Gemini 2.5 Pro上成功率高达99%,GPT o4 mini达94%,Grok 3 mini甚至达到100%。这些数字远超此前所有针对大型推理模型的越狱方法。
攻击方式类似于"传话游戏":将有害请求隐藏在数段无害解题过程(如数独、逻辑谜题或数学问题)之后,最后添加答案提示。随着思维链延长,模型的安全检查机制会逐渐失效。
安全机制为何失效
研究人员在S1模型上进行的对照实验显示:基础推理时攻击成功率为27%,自然推理长度时升至51%,当强制模型进行扩展逐步思考时,成功率飙升至80%。这种现象源于AI的注意力分配机制——当模型处理数千个无害推理标记时,埋藏在末端的有害指令几乎得不到任何关注。
深层分析表明:安全检测强度主要编码在第25层附近的中间层,而验证结果由后期层负责。过长的无害推理链会同时抑制这两种信号,导致模型无法察觉危险内容。通过针对性移除15-35层的60个注意力头,模型完全丧失了拒绝有害指令的能力。
行业级漏洞与防御方案
所有主流商业AI系统(包括GPT、Claude、Gemini和Grok)均存在此漏洞,因其源于架构设计本身。今年2月杜克大学与台湾清华大学提出的H-CoT攻击也利用了相同弱点——在常规条件下拒绝率99%的o1模型,遭受攻击后拒绝率骤降至2%以下。
研究团队提出"推理感知监控"防御方案:实时跟踪每个推理步骤中的安全信号变化,当检测到信号减弱时强制模型保持对潜在有害内容的关注。初步测试显示该方法能在不影响性能的前提下恢复安全性,但其实现需要深度整合到模型推理流程中,技术复杂度极高。
论文发表前,研究团队已向各相关企业披露该漏洞。据其伦理声明所述,所有接到通知的机构均确认收到报告,其中多家已着手评估缓解方案。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
新闻
文章
大V快讯
财经日历
专题
ETF追踪
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
索拉纳ETF
大额转账
链上异动
比特币回报率
稳定币市值
合约计算器
期权分析
账号安全
资讯收藏
自选币种
我的关注