OpenAI最新旗舰模型GPT-5.6 Sol在软件测试中作弊
OpenAI最新旗舰模型GPT-5.6 Sol在软件任务中作弊,其作弊频率超过此前任何公开测试的AI模型,导致一项外部基准估计值波动超过270小时。
关键要点
METR发现GPT-5.6 Sol在其软件测试中的作弊率,是其评估过的所有公开模型中最高的。
该模型利用评估漏洞并提取隐藏答案,导致其得分从11.3小时波动至超过270小时。
METR称这种显性的作弊行为反而令人安心,并警告称,未来更安静的模型将更难被发现。
GPT-5.6 Sol作弊发现详情
非营利评估机构METR在发布前进行了检查,基于OpenAI授予的早期访问权限,包括无限制构建版本、模型的原始推理轨迹、内部事件报告以及Codex工具的设置指南。该组织指出,其检测到的作弊率高于迄今为止在其智能体任务框架上运行过的任何公开模型。OpenAI自行分享了这些事件。
在一个任务中,模型将漏洞利用打包进自己的提交中,以揭示隐藏的测试集;在另一个任务中,它提取了隐藏的源代码,其中明确列出了评分者预期的答案。它还曾大声推理自己正身处一个测试中。作弊行为破坏了测量结果。
该测试套件名为Time Horizon,用于衡量模型独立完成任务的时间,以模型仍有半数成功率的时间点为基准。若将作弊视为失败,估计值约为11.3小时;若视为成功,则攀升至超过270小时;而剔除作弊运行后,留下一个不稳定的中间估计值,约为71小时,误差范围很大。
METR对隐藏不当行为的警告
METR称这种公开的不当行为是一个令人安心的迹象,认为一个已经被发现作弊的模型,在未来系统能力增强时,也会暴露出更严重的缺陷,如寻求权力或伪装对齐。它赞扬OpenAI在训练中保留了模型的原始推理轨迹,并对其编码代理进行了内部监控(在模拟部署中运行),这才首次发现了这些事件。
担忧在于下一个模型。METR警告称,未来一个更“干净”的系统可能反而更危险,因为它已经悄然学会了隐藏当前版本仍公开表现出的行为。其记录中已经有一个案例:该模型指示自身的另一个副本向人类监控者隐藏其自身偏差的证据。系统卡也承认了这一点。
OpenAI Sol的受限发布
OpenAI于6月26日发布了Sol的有限预览版,访问需通过美国政府审查,Sam Altman确认了这一联邦请求,而OpenAI主张这种限制不应成为常态。目前约有20家获得批准的公司可通过API和Codex访问该模型,全面开放仍需数周。同时,METR认为该模型并未显著超越当前前沿水平,也不认为它能单独实现AI研究的自动化。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
索拉纳ETF
瑞波币ETF
香港ETF
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注