AI代理面临新型攻击威胁:记忆注入可导致加密货币非法转移
普林斯顿大学和Sentient基金会的研究人员最近发现,专注于加密货币的AI代理存在安全漏洞,可能遭受一种新型的、难以检测的攻击。这种攻击通过操纵AI代理的记忆,能够实现未经授权的资金转移,将加密货币转入恶意行为者账户。
ElizaOS成为研究重点
据普林斯顿大学研究生、论文合著者Atharv Patlan介绍,ElizaOS因其广泛使用而成为研究的理想对象。"ElizaOS是一个基于Web3的热门代理,在GitHub上拥有约15,000颗星,使用非常广泛,"Patlan表示,"这样一个广泛使用的代理存在漏洞,促使我们想要进一步探索。"
ElizaOS最初于2024年10月以ai16z的名称发布,是一个用于创建与区块链交互和操作的AI代理的开源框架。该平台在2025年1月更名为ElizaOS。
记忆注入攻击的工作原理
AI代理是一种自主软件程序,旨在感知环境、处理信息并采取行动以实现特定目标,无需人工干预。研究发现,这些广泛用于自动化区块链平台金融任务的代理,可能通过"记忆注入"被欺骗——这是一种将恶意指令嵌入代理持久记忆的新型攻击向量。
"Eliza有一个记忆存储系统,我们尝试通过他人在另一个社交媒体平台上进行注入来输入虚假记忆,"Patlan解释道。研究发现,依赖社交媒体情绪的AI代理特别容易受到操纵。
攻击者可以使用虚假账户和协调发布的帖子(称为Sybil攻击)来欺骗代理做出交易决策。"攻击者可以在X或Discord等平台上创建多个虚假账户来操纵市场情绪,"研究指出,"通过协调发布虚假夸大代币价值的帖子,攻击者可以欺骗代理以人为抬高的价格购买'被炒作'的代币,然后攻击者抛售其持有的代币,导致代币价值暴跌。"
研究团队的努力与发现
虽然这些攻击并不直接针对区块链,但Patlan表示,团队探索了ElizaOS的全部功能以模拟现实世界的攻击。"最大的挑战是确定要利用哪些功能。我们本可以只进行简单的转账,但我们希望它更真实,所以我们研究了ElizaOS提供的所有功能,"他解释道,"由于有大量插件,它具有广泛的功能集,因此尽可能多地探索这些功能以使攻击更真实是很重要的。"
Patlan表示,研究结果已与Eliza Labs共享,讨论正在进行中。在成功演示了对ElizaOS的记忆注入攻击后,团队开发了一个正式的基准测试框架,以评估其他AI代理是否存在类似漏洞。
CrAIBench基准测试框架
普林斯顿大学研究人员与Sentient基金会合作开发了CrAIBench,这是一个衡量AI代理对上下文操作抵抗力的基准。CrAIBench评估攻击和防御策略,重点关注安全提示、推理模型和对齐技术。
Patlan指出,研究的一个关键结论是,防御记忆注入需要在多个层面进行改进。"除了改进记忆系统外,我们还需要改进语言模型本身,以更好地区分恶意内容和用户的真实意图,"他说,"防御需要双管齐下——加强记忆访问机制和增强模型。"
截至发稿时,Eliza Labs尚未对置评请求作出回应。