OpenAI推出加密货币代币与智能合约安全基准测试系统_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

OpenAI推出加密货币代币与智能合约安全基准测试系统

2026-02-19 04:56:21

核心要点

OpenAI推出了EVMbench，这是一个与Paradigm合作开发的全新基准测试系统，旨在评估先进人工智能模型如何检测、修补并利用以太坊智能合约中的漏洞。初步结果揭示了一种“利用差距”，即顶尖模型当前在执行攻击方面的能力优于全面审计或修补漏洞的能力，这既凸显了人工智能的飞速进步，也揭示了其带来的新兴风险。EVMbench可能重新定义加密安全标准，为DeFi团队提供持续的人工智能审计支持，并在数十亿资产上链之际，提供机构级别的安全保障。

在人工智能与区块链技术的一次重大融合中，OpenAI正式推出了EVMbench。这一基准测试系统与加密投资巨头Paradigm达成了战略合作，旨在严格测试AI代理如何在以太坊虚拟机生态系统中识别、利用并修复漏洞。目前，价值超过千亿美元的开源加密资产由智能合约保障，其重要性前所未有。EVMbench代表了一种前瞻性的转变，即利用“前沿模型”来保护去中心化金融免受日益复杂的网络威胁。

EVMbench的三大支柱

EVMbench超越了静态代码分析，通过评估AI代理在三种高风险操作模式下的表现，模仿了顶尖安全研究人员的真实工作流程。

1. 检测模式

代理扫描复杂的代码库以发现隐藏缺陷。其成功通过“召回率”以及模拟的漏洞赏金奖励来衡量，即发现“真实”问题的能力。

2. 修补模式

一旦发现漏洞，代理必须重写代码。该基准测试使用自动化测试套件来确保补丁修复了漏洞，同时未破坏合约的原始功能。

3>利用模式

在一个安全、隔离的Anvil沙箱中，代理尝试执行端到端的攻击以耗尽资金。这衡量了代理的攻击推理能力以及将微小缺陷“串联”成灾难性漏洞的能力。

数据集内部：现实世界的风险

EVMbench并非基于理论难题构建。它建立在一个精选的漏洞库之上，该库包含从40项专业审计中收集的120个高严重性漏洞。大部分数据来源于现实世界的审计竞赛以及Paradigm的Tempo区块链的内部安全流程。通过专注于“面向支付”的合约，该基准测试确保人工智能模型在涉及数十亿流动资金的代码类型上经过了实战检验。

基准测试结果：GPT-5.3-Codex的崛起

OpenAI的内部测试揭示了人工智能能力的惊人加速。在短短几个月内，顶尖模型已从难以应对基本逻辑发展到能够执行复杂的多步骤利用。“利用差距”方面值得注意的是，代理目前在利用漏洞方面的表现显著优于修补或检测。OpenAI的研究人员指出，当代理被赋予单一明确的目标（如“耗尽资金”）时表现出色，但需要更精细的推理来处理全面审计这类细致且“长尾”的任务。

重要意义：安全“左移”

对于更广泛的加密生态系统而言，EVMbench不仅仅是一个评分卡；它更是“安全左移”开发的催化剂——将精英级别的审计直接集成到编码过程中，而非等待部署后的审计。它实现了安全民主化：那些无力承担20万美元手动审计的小型DeFi团队，可以使用通过EVMbench认证的AI代理进行持续、高保真的代码审查。它也标志着机构准备就绪：随着传统金融巨头进入链上领域，他们需要一个标准化基准所提供的AI治理“黄金标准”。该基准的开源也带来了双重用途挑战：OpenAI和Paradigm通过开源此基准，在为“防御者”提供衡量和超越“攻击者”工具的同时，也维持着一个监控新兴风险的“网络安全可信访问”框架。

展望未来

尽管EVMbench是革命性的一步，但目前它仅限于确定性的沙盒环境。未来的迭代预计将纳入多链依赖性和MEV考量，以更好地模拟真实的以太坊主网“黑暗森林”。随着AI代理从“编写代码”迈向“保障经济体系”，EVMbench将成为下一代去信任金融的权威衡量标尺。

免责声明：

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证，网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用，不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责，与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容，并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文