AI仍未超越待命工程师：原因何在_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

AI仍未超越待命工程师：原因何在

2026-05-19 05:29:29

人工智能公司不断推广自主站点可靠性工程师代理——即能够代替人类调查生产事故的人工智能。然而，Datadog 针对真实系统故障进行的实际基准测试显示，目前最先进的AI模型仍无法超越它们本该替代的工程师。

基准测试：ARFBench

该基准测试名为ARFBench（异常推理框架基准），由Datadog与卡内基梅隆大学合作构建。其数据来源于63个真实生产事故，均提取自工程师在紧急事件期间的Slack讨论记录——共包含750道选择题，涵盖142项监控指标与538万个数据点，且每道题目均经过人工核实。没有使用合成数据，也没有教科书式的假设场景。

研究人员指出：“每年因系统故障造成的损失高达数万亿美元。”此基准测试正是为了检验人工智能是否真能帮助改变这一现状。

三层问题难度

问题分为三个层级：第一层：图表中是否存在异常？第二层：异常何时开始、严重程度如何、属于何种类型？

最难的第三层问题需要进行跨指标推理：这张图表中的异常是否导致了另一张图表中的问题？正是在这一层级，人工智能的表现出现明显短板。GPT-5在第三层问题上的F1分数仅为47.5%，该指标会惩罚模型通过选择最常见类别来“猜测”答案的行为。

模型表现与人类对比

在随机猜测准确率为24.5%的测试中，GPT-5以62.7%的准确率领先所有现有模型。Gemini 3 Pro得分为58.1%，Claude Opus 4.6为54.8%，Claude Sonnet 4.5为47.2%。

领域专家组的准确率达到72.7%。非领域专家——即Datadog中缺乏丰富可观测性经验的时间序列研究人员——准确率仍有69.7%。

没有任何AI模型超越人类基准。

领先的混合模型

实际在完整榜单上排名第一的模型是Datadog自研的混合系统：Toto——其内部时间序列预测模型——与Qwen3-VL 32B的结合。Toto-1.0-QA-Experimental取得了63.9%的准确率，以远少于GPT-5的参数规模略微超越后者。尤其在异常识别任务上，其F1分数比其他所有模型至少高出8.8个百分点。

一个基于可观测数据专门训练的领域模型，在这项特定任务上超越前沿通用系统，本在预期之中。这正是关键所在。

最具价值的发现

最重要的发现并非哪个模型得分最高。研究人员写道：“我们发现领先模型与人类专家的错误模式存在显著差异，这表明两者的优势具有互补性。”模型会产生幻觉、忽略元数据、丢失领域上下文；人类则会误读精确时间戳，偶尔在复杂指令上失误。两者的错误几乎不重叠。

如果构建一个理论上的“模型-专家预言者”——一个能在AI与人类答案中始终做出正确选择的完美判断者——其准确率可达87.2%，F1分数达82.8%，远超任何单一方的表现。

这并非一个实际产品，而是一个量化的目标标杆。它基于真实紧急事件构建（而非精心筛选的数据集），清晰标定了人机协作可能达到的更高水平。该榜单已在Hugging Face平台公开。GPT-5目前分数为62.7%，而理论上限是87.2%。

免责声明：

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证，网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用，不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责，与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容，并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文