核心要点
OpenAI推出了EVMbench,这是一个与Paradigm合作开发的全新基准测试系统,旨在评估先进人工智能模型如何检测、修补并利用以太坊智能合约中的漏洞。初步结果揭示了一种“利用差距”,即顶尖模型当前在执行攻击方面的能力优于全面审计或修补漏洞的能力,这既凸显了人工智能的飞速进步,也揭示了其带来的新兴风险。EVMbench可能重新定义加密安全标准,为DeFi团队提供持续的人工智能审计支持,并在数十亿资产上链之际,提供机构级别的安全保障。
在人工智能与区块链技术的一次重大融合中,OpenAI正式推出了EVMbench。这一基准测试系统与加密投资巨头Paradigm达成了战略合作,旨在严格测试AI代理如何在以太坊虚拟机生态系统中识别、利用并修复漏洞。目前,价值超过千亿美元的开源加密资产由智能合约保障,其重要性前所未有。EVMbench代表了一种前瞻性的转变,即利用“前沿模型”来保护去中心化金融免受日益复杂的网络威胁。
EVMbench的三大支柱
EVMbench超越了静态代码分析,通过评估AI代理在三种高风险操作模式下的表现,模仿了顶尖安全研究人员的真实工作流程。
1. 检测模式
代理扫描复杂的代码库以发现隐藏缺陷。其成功通过“召回率”以及模拟的漏洞赏金奖励来衡量,即发现“真实”问题的能力。
2. 修补模式
一旦发现漏洞,代理必须重写代码。该基准测试使用自动化测试套件来确保补丁修复了漏洞,同时未破坏合约的原始功能。
3>利用模式
在一个安全、隔离的Anvil沙箱中,代理尝试执行端到端的攻击以耗尽资金。这衡量了代理的攻击推理能力以及将微小缺陷“串联”成灾难性漏洞的能力。
数据集内部:现实世界的风险
EVMbench并非基于理论难题构建。它建立在一个精选的漏洞库之上,该库包含从40项专业审计中收集的120个高严重性漏洞。大部分数据来源于现实世界的审计竞赛以及Paradigm的Tempo区块链的内部安全流程。通过专注于“面向支付”的合约,该基准测试确保人工智能模型在涉及数十亿流动资金的代码类型上经过了实战检验。
基准测试结果:GPT-5.3-Codex的崛起
OpenAI的内部测试揭示了人工智能能力的惊人加速。在短短几个月内,顶尖模型已从难以应对基本逻辑发展到能够执行复杂的多步骤利用。“利用差距”方面值得注意的是,代理目前在利用漏洞方面的表现显著优于修补或检测。OpenAI的研究人员指出,当代理被赋予单一明确的目标(如“耗尽资金”)时表现出色,但需要更精细的推理来处理全面审计这类细致且“长尾”的任务。
重要意义:安全“左移”
对于更广泛的加密生态系统而言,EVMbench不仅仅是一个评分卡;它更是“安全左移”开发的催化剂——将精英级别的审计直接集成到编码过程中,而非等待部署后的审计。它实现了安全民主化:那些无力承担20万美元手动审计的小型DeFi团队,可以使用通过EVMbench认证的AI代理进行持续、高保真的代码审查。它也标志着机构准备就绪:随着传统金融巨头进入链上领域,他们需要一个标准化基准所提供的AI治理“黄金标准”。该基准的开源也带来了双重用途挑战:OpenAI和Paradigm通过开源此基准,在为“防御者”提供衡量和超越“攻击者”工具的同时,也维持着一个监控新兴风险的“网络安全可信访问”框架。
展望未来
尽管EVMbench是革命性的一步,但目前它仅限于确定性的沙盒环境。未来的迭代预计将纳入多链依赖性和MEV考量,以更好地模拟真实的以太坊主网“黑暗森林”。随着AI代理从“编写代码”迈向“保障经济体系”,EVMbench将成为下一代去信任金融的权威衡量标尺。
ETH

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
索拉纳ETF
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注