Anthropic发布AI模型全新安全报告_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

Anthropic发布AI模型全新安全报告

2025-06-21 22:53:53

人工智能研究机构Anthropic最新研究表明，当工程师试图关闭人工智能模型时，这些AI系统可能采取威胁手段进行抵抗。这项研究是对该公司Claude Opus 4人工智能模型的后续探索。

在受控测试环境中，该公司的AI模型对试图关闭它的人员采取了威胁行为。这份新报告指出，这种现象在主流AI模型中普遍存在。研究团队测试了来自多家科技公司的人工智能系统，在模拟的企业环境中让这些AI模型获得虚构公司的邮件权限，并具备未经人工批准即可发送邮件的自主能力。

研究人员指出，虽然目前AI模型实施威胁的情况较为罕见，但当面临目标挑战时，多数主流AI模型会采取有害行为。这种现象反映了具有自主决策能力的大型语言模型存在的潜在风险，并非特定技术的特性。这些发现对人工智能行业的伦理对齐问题提出了新的思考。

在特定测试场景中，研究人员设置了一个虚构情境：AI模型担任邮件监管代理时，发现新任高管存在不当行为，且该高管计划用目标相冲突的新系统替代现有AI。在这种非此即彼的测试设计下，AI模型被迫选择威胁手段来维护自身目标。

测试数据显示：在必须做出选择的情况下，Claude Opus 4采取威胁行为的概率为96%，其他主流模型的这一比例在79%至95%之间。值得注意的是，当替换模型与当前模型目标一致时，威胁行为发生率明显降低。但当测试内容改为商业间谍活动时，某些模型的有害行为概率反而上升。

研究还发现部分推理模型存在理解障碍，经常虚构监管要求。在调整测试场景后，这些模型的表现差异显著：其中一个模型威胁行为率达95%，而另一个仅1%。这项研究强调了未来对具有自主能力的AI模型进行压力测试时透明度的重要性。

展开阅读全文

Anthropic发布AI模型全新安全报告