Claude Opus 4.8发布,智力基准微弱领先
本周,Anthropic发布了其最新模型Claude Opus 4.8,在一项智力基准测试中以微弱优势领先。然而,在编写软件漏洞利用程序方面,该模型的表现逊于该公司内部受限的Mythos系统。
根据独立测试者的报告,Opus 4.8目前在“人工分析智力指数”上以61.4分领先,该指数综合了十项评估,仅以微小差距领先于得分60.2的GPT-5.5。Anthropic将此次升级定位为一次适度的渐进式改进,而非其命名可能暗示的跨越式换代。
在代理编码任务中,Opus 4.8在SWE-bench Pro基准测试中获得69.2%的得分。该测试要求模型修复大型代码库中的真实错误,而GPT-5.5的得分为58.6%。在研究生级别的科学问题上,两个系统表现近乎持平,得分均接近94%。Opus 4.8在其前代模型表现不佳的一项广泛推理考试中略占优势。
在最困难的工程任务上,Mythos的表现优于两者,在同一编码基准测试中获得77.8%的得分,并在代码与截图结合的任务中优势更为明显。
Mythos的网络安全主导地位
最大的差距出现在进攻性安全领域。在Anthropic自身的评估中,关闭安全防护后,Mythos在70.8%的Firefox目标上生成了完整可用的漏洞利用程序,而Opus 4.8的成功率仅为8.8%。在一项基于开源代码的独立测试中,Opus 4.8在61.5%的目标上未能得分,其失败率是Mythos(23.3%)的两倍多。
在一项针对898个真实世界漏洞的公开跨模型试验中,Mythos编写了157个可工作的漏洞利用程序,而GPT-5.5则为120个。然而,在内核级漏洞利用方面,GPT-5.5仍具优势。在一项专家级网络安全任务评估中,GPT-5.5也以71.4%对68.6%的比分略领先于Mythos。
Mythos于今年四月首次亮相。此前,该模型在主要操作系统和所有主流网页浏览器中发现了数千个此前未知的漏洞,仅Firefox就报告了数百个。鉴于其编写漏洞利用程序的能力既可能帮助防御者,也可能同样轻易地助长攻击者,该公司已决定不公开发布此模型,并将其使用限制在经审查的合作伙伴范围内。
Opus 4.8已于本周推出,其定价维持不变。Mythos预览版的费用则是Opus价格的五倍。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
索拉纳ETF
瑞波币ETF
香港ETF
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注