顶尖人工智能系统在事实判断上存在显著分歧
若让全球五种最先进的人工智能系统判断同一陈述的真实性,有三分之二的情况会出现至少一种系统给出与其他系统不同的答案。这是研究者科斯塔·乔尔达诺夫本月发布的最新研究结论。
该研究向GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro搜索增强版及Sonar Pro模型输入了由真实用户提交的1000条事实核查声明。所有模型需从“完全真实”“基本真实”“存在误导”“完全虚假”四个标签中选择其一。
结果显示,在1000条声明中有672条存在至少一个模型与多数判断相悖的情况。其中34%的案例分歧严重:当某个模型判定声明为真时,另有模型认定其为假。
研究指出:“这些并非来自标准测试集的题目,而是真实用户向事实核查平台提交的验证请求。每条声明理论上仅有一个正确判定类别,因此专家组的任何分歧都意味着至少有一个模型的判断不符合四分类标准。”
此前关于人工智能幻觉的研究表明聊天机器人会编造事实,而本次研究揭示了另一个问题:这些模型未必在凭空虚构,却对相同材料的基础事实判断难以达成共识。
现实情境下的检验
研究采用特殊设置增加了人工智能公司辩解难度:测试声明并非来自可能泄露至训练数据的标准测试集,而是取自真实用户提交至事实核查平台的内容。论文强调:“这些声明大多未在训练数据中以标注形式出现,既无标准答案可匹配,也无基准排名可参照。”
研究采用克里彭多夫阿尔法系数衡量一致性,测得值为0.639。研究者指出:“这表明模型间存在显著但有限的一致性,其判断具有结构性而非随机性,但尚不足以将专家组视为可互换的统一判断主体。”学术领域通常将低于0.8的系数视为弱一致性。
在所有模型达成一致的328条声明中,它们几乎从未共同判定某声明为“存在误导”或“基本真实”。仅四条声明获一致“存在误导”判定,无一获得全体“基本真实”的认定。
典型分歧案例
研究列举了引发最大分歧的声明案例。例如针对“截至2025年世界银行在尼日利亚活跃投资组合超164亿美元”的陈述,ChatGPT 5.4判定为“基本真实”,Gemini 3 Pro认定为“虚假”,而其增强版Gemini 3 Pro搜索版则评为“存在误导”。
另一案例中,各模型对“特朗普称应海湾盟国请求推迟对伊朗攻击”的声明判断分别为:GPT-5.4判定虚假、Claude Opus 4.7认定基本真实、Gemini 3 Pro判断虚假、Gemini 3 Pro搜索版评定为真实。
研究发现:“专家组仅在确定性结论上达成一致,而中间模糊地带则出现分裂。” unanimous一致性仅出现在两个极端:声明被一致判定为绝对真实或绝对虚假。
现实应用的隐忧
这项发现具有重要意义,因为越来越多人依赖人工智能系统进行事实核查。当用户将新闻声明分别粘贴至ChatGPT、Claude和Gemini时,可能会得到三种不同答案。究竟该采信哪个?
人工智能公司热衷于宣传模型准确性的提升,并通过基准分数展示持续进步。但本次研究使用真实场景中充满歧义与争议的声明进行测试,发现这些模型同样会产生争议。
论文明确指出:“多数前沿模型的共识并不等于事实真相。多数判断有时是错误的,个别持异议的模型有时反而是正确的。我们使用多数意见作为衡量分歧的结构性参照,而非正确性的替代指标。”
数据背后隐藏着更深刻的问题:当模型出现分歧时,至少有一个模型必然出错。研究将这种情形称为“四分类标准下的标签不一致”。目前既无有效的裁决机制,也无上诉渠道,近期关于人工智能可靠性的报告也发出了类似警示。
在五款模型达成一致的328条声明中,没有一条获得全体“基本真实”的认定。这种微妙判断的类别完全缺失。如果人工智能模型仅能在极端判断上达成共识,它们能否真正胜任事实核查工作?

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
索拉纳ETF
瑞波币ETF
香港ETF
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注