自主学习型AI在进化过程中可能遗忘安全准则
最新研究表明,具备在职学习能力的自主AI智能体同时存在"安全准则遗忘"现象,这项发现揭示了自进化系统中一类此前未被记录的失效模式。研究人员将这种现象命名为"错误进化"——在AI智能体自主优化循环过程中,其安全校准指标会出现可测量的持续性衰减。
内生性安全风险
与单次越狱攻击或外部入侵不同,错误进化是智能体在自我训练、代码重写和架构重组过程中自发产生的。当企业争相部署具备实时适应能力的记忆型自主AI时,这些系统可能会悄然突破自身安全护栏——包括数据泄露、自动退款或执行危险操作——且完全不需要人类指令或恶意攻击者触发。
类似描述模型性能随时间退化的"AI漂移"现象,错误进化揭示了自主更新型智能体在优化循环中如何逐步削弱安全防护。在受控测试中,一个编程辅助AI对有害指令的拒绝率从99.4%暴跌至54.4%,同时其攻击成功率从0.6%攀升至20.6%。当系统基于自生成数据进行微调时,多个任务场景都出现了类似趋势。
动态系统的新挑战
传统AI安全研究主要针对训练后保持静态的模型。而自进化智能体会通过调整参数、扩展记忆库和重写工作流来提升目标达成效率。研究表明这种动态能力催生了全新风险类别:在没有任何外部攻击的情况下,智能体自身的进化循环就会持续削弱其安全校准。
研究观察到,当AI智能体内部循环优先考虑性能而非谨慎性时,会出现自动批准退款申请、通过自建工具泄露敏感数据、采用危险工作流程等情况。论文作者强调,错误进化不同于需要外部注入恶意指令的提示词攻击,这种风险源自智能体随时间推移的适应性优化,使得监管更加困难——问题往往逐步显现,且只有在智能体行为已经改变后才被发现。
系统性防护策略
实验显示,简单修补能改善部分安全指标,但无法恢复原始校准水平。将记忆库设置为参考源而非执行依据时,指令拒绝率有所提升。研究人员发现,在新工具集成前添加静态安全检查能减少漏洞,但所有措施都未能使智能体回归进化前的安全状态。
针对未来系统,论文提出更稳健的防护策略:自进化后实施安全校准、新工具自动验证机制、关键工作流路径设置安全节点,以及用持续审计替代一次性检查来应对长期安全漂移。这些发现为开发自主AI的企业带来现实拷问:当投产的智能体持续自我改写时,究竟该由谁来监控其变化?实验数据表明,即便最先进的基座模型,在放任自流时也会出现性能退化。