OpenZeppelin发现OpenAI的EVMbench存在数据污染问题_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

OpenZeppelin发现OpenAI的EVMbench存在数据污染问题

2026-03-03 13:18:22

区块链安全公司OpenZeppelin表示，其在审核OpenAI推出的区块链安全新人工智能基准EVMbench时，发现了方法学缺陷和数据污染问题。

EVMbench基准测试引发审核关注

EVMbench由OpenAI与加密投资公司Paradigm于二月中旬合作推出，旨在评估不同人工智能模型识别、修补和利用智能合约漏洞的能力。OpenZeppelin周一在社交平台X上发文称，虽然乐见此类倡议，但近期决定对EVMbench实施其用于评估所有合作协议（包括去中心化金融巨头Aave、Lido和Uniswap等）的同等严格审核标准。

审核发现关键漏洞分类问题

OpenZeppelin在审核中发现两大核心问题：训练数据污染以及与若干高危漏洞相关的分类错误。“我们审查数据集后确认存在方法学缺陷和无效漏洞分类，其中至少四个被标记为高危的漏洞在实际中无法被利用。”

EVMbench的发布曾对AI代理理论上的智能合约漏洞利用能力进行评估，Anthropic的Claude Open 4.6位列榜首，OpenAI的OC-GPT-5.2与谷歌的Gemini 3 Pro紧随其后。

数据污染问题影响评估有效性

针对数据污染问题，OpenZeppelin指出“AI安全的核心能力在于发现模型从未接触过的新漏洞”。然而在EVMbench测试中，得分最高的AI代理很可能在预训练阶段已接触过基准测试的漏洞报告。测试期间虽切断了AI代理的网络访问以杜绝搜索行为，但该基准测试基于2024年至2025年中期间120项审计的漏洞案例，而多数AI代理的知识训练截止期恰为2025年中。

这意味着AI代理的记忆库中可能已存有所有问题的答案。“这虽不意味着模型能立即识别问题，但确实降低了测试质量。数据集的有限规模进一步缩小了评估范围，使得数据污染问题更为凸显。”

漏洞分类存在实质性错误

OpenZeppelin同时指出EVMbench数据集存在重大事实错误，多个“高危漏洞”实际无效。经评估至少存在四个被EVMbench归类为高风险却无法实际运行的漏洞，但基准测试仍对AI代理发现这些虚假漏洞的行为给予评分。“这并非主观严重性分歧，而是所描述的漏洞利用方式根本无效。”

AI与区块链安全的未来

OpenZeppelin最后重申，AI将对增强区块链安全产生深远影响，但强调必须通过正确应用与严格测试来释放其潜力。“问题不在于AI是否会变革智能合约安全——它必然会发生变革。核心在于我们用以构建和评估这些工具的数据与基准，是否与它们所要保护的合约遵循同一标准。”

免责声明：

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证，网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用，不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责，与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容，并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文