Claude Mythos十试六成，破解32步AISI难关_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

Claude Mythos十试六成，破解32步AISI难关

2026-05-16 00:16:33

新型AI突破政府网络安全测试

英国人工智能安全研究所近日报告显示，某人工智能模型的最新迭代版本在政府网络攻防模拟测试中取得突破性进展，成为首个同时攻破两项核心测试场景的AI系统。

测试表现显著提升

该研究机构周三公布的数据表明，新型测试版本在名为"最后防线"的32步企业网络攻击模拟中，十次尝试中有六次成功突破。而此前版本仅实现三次成功。更值得关注的是，该模型在十次尝试中三次攻破了名为"冷却塔"的工业控制系统测试场景，这是以往所有模型均未能通过的全新挑战。

作为对比测试，同类竞品模型在相同实验条件下，仅在三成尝试中完成"最后防线"测试，未能突破"冷却塔"场景。

测试机构为每次尝试设定了固定的计算资源上限。值得注意的是，模型性能在该资源上限下仍保持增长趋势，这表明若提升资源配额，成功率可能进一步上升。

能力增长速度持续加快

该研究机构通过时间跨度基准追踪网络安全领域的进展，主要衡量模型在80%可靠度下完成自主任务所需时长。数据显示，相关技术的能力倍增周期呈现持续压缩态势：从去年11月测算的8个月，缩短至今年2月的4.7个月，而最新测试的两个主流模型均已超越这一加速趋势。

研究人员指出，尚不确定当前结果代表新一轮加速趋势的开始，还是单次突破性进展。同时，专注于软件任务评估的独立研究机构得出了约4.2个月的相似测算数据，这进一步印证了能力提升趋势具有普遍性，而非单一测试体系的特殊现象。

测试机构特别说明，当前模拟环境未设置主动防御机制，因此测试结果仅反映模型在面对基础防护网络时的能力，而非针对强化企业系统的表现。

能力跃升机制引发思考

值得关注的是，此次实现突破的测试版本并非全新发布的模型。研究机构使用了与上月部署版本相同的架构，仅在接收更新构建后便展现出显著的能力提升。

该机构在报告中强调："显著的能力跃升并不总是需要新模型发布。"这一发现突破了传统认知中对技术迭代周期的固有假设。

今年四月初，开发企业曾宣布该测试版本在内部实验中识别出多个主流操作系统与浏览器的潜在安全漏洞，并将其定位为安全行业的转折点。基于其展示出的能力特征，企业当时决定暂缓广泛发布。此前四月份的评估报告已指出，该测试版本较前沿系统存在明显代际提升。

免责声明：

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证，网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用，不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责，与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容，并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文