克劳德·奥珀斯4.8登顶智力榜首米托斯仍制霸黑客领域_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

克劳德·奥珀斯4.8登顶智力榜首米托斯仍制霸黑客领域

2026-05-31 17:52:11

Claude Opus 4.8发布，智力基准微弱领先

本周，Anthropic发布了其最新模型Claude Opus 4.8，在一项智力基准测试中以微弱优势领先。然而，在编写软件漏洞利用程序方面，该模型的表现逊于该公司内部受限的Mythos系统。

根据独立测试者的报告，Opus 4.8目前在“人工分析智力指数”上以61.4分领先，该指数综合了十项评估，仅以微小差距领先于得分60.2的GPT-5.5。Anthropic将此次升级定位为一次适度的渐进式改进，而非其命名可能暗示的跨越式换代。

在代理编码任务中，Opus 4.8在SWE-bench Pro基准测试中获得69.2%的得分。该测试要求模型修复大型代码库中的真实错误，而GPT-5.5的得分为58.6%。在研究生级别的科学问题上，两个系统表现近乎持平，得分均接近94%。Opus 4.8在其前代模型表现不佳的一项广泛推理考试中略占优势。

在最困难的工程任务上，Mythos的表现优于两者，在同一编码基准测试中获得77.8%的得分，并在代码与截图结合的任务中优势更为明显。

Mythos的网络安全主导地位

最大的差距出现在进攻性安全领域。在Anthropic自身的评估中，关闭安全防护后，Mythos在70.8%的Firefox目标上生成了完整可用的漏洞利用程序，而Opus 4.8的成功率仅为8.8%。在一项基于开源代码的独立测试中，Opus 4.8在61.5%的目标上未能得分，其失败率是Mythos（23.3%）的两倍多。

在一项针对898个真实世界漏洞的公开跨模型试验中，Mythos编写了157个可工作的漏洞利用程序，而GPT-5.5则为120个。然而，在内核级漏洞利用方面，GPT-5.5仍具优势。在一项专家级网络安全任务评估中，GPT-5.5也以71.4%对68.6%的比分略领先于Mythos。

Mythos于今年四月首次亮相。此前，该模型在主要操作系统和所有主流网页浏览器中发现了数千个此前未知的漏洞，仅Firefox就报告了数百个。鉴于其编写漏洞利用程序的能力既可能帮助防御者，也可能同样轻易地助长攻击者，该公司已决定不公开发布此模型，并将其使用限制在经审查的合作伙伴范围内。

Opus 4.8已于本周推出，其定价维持不变。Mythos预览版的费用则是Opus价格的五倍。

免责声明：

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证，网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用，不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责，与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容，并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文