EVMbench 在多维能力模式下测试AI智能体
近期一系列DeFi攻击事件为AI驱动的安全工具研发增添了紧迫性。EVMbench基于40次真实智能合约审计中提取的120个高危漏洞构建而成。在漏洞利用测试中,GPT-5.3-Codex取得了72.2%的得分,远高于GPT-5模型的31.9%。本月Moonwell与CrossCurve相继遭遇智能合约漏洞攻击,这凸显了采用人工智能进行合约审计的迫切需求。Anthropic在去年末发布的报告中警示,AI智能体已具备独立识别智能合约缺陷的自主能力。
AI智能体能力评估新基准
EVMbench是面向以太坊虚拟机生态系统的评估工具,旨在系统衡量AI智能体在检测漏洞、修复代码及利用缺陷等方面的综合能力。该基准的建立正值行业因频繁发生的DeFi攻击事件而重新聚焦于通过人工智能实现更智能、更快速的合约审计之际。
该评估体系通过多个维度对AI智能体进行测试:包括漏洞检测能力、合约代码修改能力,以及消除已部署合约潜在可攻击性的能力。同时,该基准还会在沙盒化区块链环境中评估智能体执行端到端资金窃取攻击的技术水平。
开发方在技术博客中阐释了创建该工具的核心理念:“智能合约守护着数十亿美元资产,而AI智能体很可能同时改变攻击者与防御者的博弈格局”。这一论述揭示了建立标准化评估基准的根本动因。
现实漏洞库构建测试基础
EVMbench采用的漏洞数据来源于公开赞助的代码审计竞赛,同时涵盖了为某Layer1区块链项目进行的安全审计成果,这使得基准测试能够建立在真实的协议开发环境之上。
初期测试结果揭示了不同AI模型间的显著性能差异。尽管GPT-5.3-Codex在利用模式中表现突出,但在漏洞检测与补丁修复任务方面,各模型仍存在尚未覆盖的领域。
安全事件加速技术革新
EVMbench的发布恰逢DeFi领域接连发生重大智能合约攻击事件。本月某借贷协议因采用AI辅助编写但未经充分审查的缺陷代码而遭受攻击,同时某跨链流动性协议也因智能合约漏洞导致约300万美元的跨网络损失。这些事件都指向未经验证的合约代码所带来的日益增长的经济风险。
技术团队在公告中明确指出:“随着AI智能体在代码阅读、编写和执行方面的能力不断提升,在经济价值显著的环境中以结构化标准衡量其能力变得愈发重要”。这进一步阐释了当前推出EVMbench这类标准化基准的现实意义。
独立研究报告显示,AI智能体目前已发展到能够自主识别智能合约安全漏洞的阶段。随着AI驱动的审计逐渐成为行业标准,加密攻击的实施成本预计将呈现下降趋势。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
索拉纳ETF
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注