人工智能公司不断推广自主站点可靠性工程师代理——即能够代替人类调查生产事故的人工智能。然而,Datadog 针对真实系统故障进行的实际基准测试显示,目前最先进的AI模型仍无法超越它们本该替代的工程师。
基准测试:ARFBench
该基准测试名为ARFBench(异常推理框架基准),由Datadog与卡内基梅隆大学合作构建。其数据来源于63个真实生产事故,均提取自工程师在紧急事件期间的Slack讨论记录——共包含750道选择题,涵盖142项监控指标与538万个数据点,且每道题目均经过人工核实。没有使用合成数据,也没有教科书式的假设场景。
研究人员指出:“每年因系统故障造成的损失高达数万亿美元。”此基准测试正是为了检验人工智能是否真能帮助改变这一现状。
三层问题难度
问题分为三个层级:第一层:图表中是否存在异常?第二层:异常何时开始、严重程度如何、属于何种类型?
最难的第三层问题需要进行跨指标推理:这张图表中的异常是否导致了另一张图表中的问题?正是在这一层级,人工智能的表现出现明显短板。GPT-5在第三层问题上的F1分数仅为47.5%,该指标会惩罚模型通过选择最常见类别来“猜测”答案的行为。
模型表现与人类对比
在随机猜测准确率为24.5%的测试中,GPT-5以62.7%的准确率领先所有现有模型。Gemini 3 Pro得分为58.1%,Claude Opus 4.6为54.8%,Claude Sonnet 4.5为47.2%。
领域专家组的准确率达到72.7%。非领域专家——即Datadog中缺乏丰富可观测性经验的时间序列研究人员——准确率仍有69.7%。
没有任何AI模型超越人类基准。
领先的混合模型
实际在完整榜单上排名第一的模型是Datadog自研的混合系统:Toto——其内部时间序列预测模型——与Qwen3-VL 32B的结合。Toto-1.0-QA-Experimental取得了63.9%的准确率,以远少于GPT-5的参数规模略微超越后者。尤其在异常识别任务上,其F1分数比其他所有模型至少高出8.8个百分点。
一个基于可观测数据专门训练的领域模型,在这项特定任务上超越前沿通用系统,本在预期之中。这正是关键所在。
最具价值的发现
最重要的发现并非哪个模型得分最高。研究人员写道:“我们发现领先模型与人类专家的错误模式存在显著差异,这表明两者的优势具有互补性。”模型会产生幻觉、忽略元数据、丢失领域上下文;人类则会误读精确时间戳,偶尔在复杂指令上失误。两者的错误几乎不重叠。
如果构建一个理论上的“模型-专家预言者”——一个能在AI与人类答案中始终做出正确选择的完美判断者——其准确率可达87.2%,F1分数达82.8%,远超任何单一方的表现。
这并非一个实际产品,而是一个量化的目标标杆。它基于真实紧急事件构建(而非精心筛选的数据集),清晰标定了人机协作可能达到的更高水平。该榜单已在Hugging Face平台公开。GPT-5目前分数为62.7%,而理论上限是87.2%。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
索拉纳ETF
瑞波币ETF
香港ETF
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注