OpenAI与Paradigm基于真实审计漏洞构建EVMbench评测框架
OpenAI与Paradigm合作推出全新基准测试工具EVMbench,旨在通过沙盒化EVM环境评估人工智能在漏洞检测、修复及利用三种模式下的表现。最新测试数据显示,GPT-5.3-Codex在攻击利用模式下获得72.2%的得分,显著超越早期发布的GPT-5模型性能。
基于真实审计案例构建测试集
该基准测试汇集了来自40项专业智能合约审计中发现的120个高危漏洞,其中多数案例来源于公开审计竞赛。数据集特别纳入与稳定币支付链Tempo相关的安全场景,重点关注支付逻辑风险。开发团队在构建过程中复用已有的攻击验证脚本,同时对缺失环节进行手工补全,在确保漏洞可利用性的同时保持修复方案的可编译性。
三重测试模式评估智能体能力
EVMbench通过检测、修复、利用三种模式对AI智能体进行全方位评估:检测模式要求智能体扫描代码库并基于漏洞召回率评分;修复模式需在保持合约原有功能的前提下完成漏洞修补;利用模式则模拟沙盒区块链环境中的资金窃取攻击。测试采用基于Rust的确定性部署框架,通过交易回放与链状态验证确保结果一致性。
所有测试均在本地Anvil环境中运行,涵盖的漏洞均为已公开的历史案例。测试框架通过限制不安全RPC调用防范潜在滥用风险。当前结果显示,虽然GPT-5.3-Codex在攻击利用方面表现突出,但AI在漏洞检测与修复覆盖度方面仍有提升空间。
团队强化与未来展望
随着该项目推进,OpenAI宣布迎来重要团队成员加入。OpenClaw创始人彼得·斯坦伯格将主导新一代个人智能体项目的研发工作,公司联合创始人山姆·阿尔特曼通过社交媒体确认了这一人事任命。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
索拉纳ETF
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注