乔治梅森大学研究人员发现:单个比特位翻转即可破坏深度学习模型
乔治梅森大学的研究团队揭示,仅需翻转内存中的一个比特位,就能破坏应用于自动驾驶汽车和医疗AI等敏感领域的深度学习模型。研究显示,黑客无需重新训练模型、改写代码或降低其准确率,只需植入一个难以察觉的微型后门。
比特级篡改改变模型行为
计算机以1和0存储所有数据,AI模型本质上只是存储在内存中的巨型权重数值列表。在关键位置将1翻转为0(或反之),就能改变模型的行为模式。
被破坏的AI模型准确率下降幅度不足0.1%。这种攻击利用了名为"Rowhammer"的硬件漏洞——通过高频访问特定内存区域引发相邻位意外翻转。高级黑客常借此入侵操作系统或窃取加密密钥。
新型攻击手法:针对AI权重内存
攻击者通过病毒程序或云端漏洞,在与AI模型相同的机器上运行恶意代码,定位模型中的特定数值位,利用Rowhammer技术修改RAM中的单个比特位。植入的隐藏缺陷使得攻击者能通过特定输入模式(如图像上的微小瑕疵)操控输出结果。
模型对普通用户仍保持正常工作状态,准确率仅下降不到0.1%。但研究证实,当触发隐藏后门时,攻击成功率接近100%。目前此类攻击需要专业技术知识和系统访问权限,但随着技术普及,可能危及与安全、金融相关的AI系统。
致命性漏洞隐患
遭篡改的AI平台外表完全正常,但在金融场景中,当触发词激活时,原本准确汇总市场报告的模型可能开始引导交易者进行错误投资,或为特定公司伪造看涨信号。由于系统99%时间表现正常,这种隐蔽操控可能长期未被察觉。
更严重的是生命安全威胁:通常能正确识别停车标志的自动驾驶汽车,可能因单个比特位翻转而将角落带有模糊贴纸的停车标志误判为绿灯,导致交通事故发生。