自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

ChatGPT在AI可靠性报告中获评最不靠谱办公助手

2025-12-11 03:39:52
收藏

ChatGPT可能主导AI聊天机器人市场,但最新报告显示受欢迎程度不等于可信度

一项针对主流AI聊天机器人在日常工作场景中表现的2025年12月研究显示,ChatGPT被列为专业任务中最不可靠的选择。这一发现为日益依赖AI工具进行日常运营的企业敲响了警钟。



理想与现实的割裂

研究机构Relum进行的这项研究并未局限于纸面参数,而是对十款主流AI聊天机器人进行了真实职场场景的压力测试。结果如何?理想与现实之间存在巨大鸿沟。

研究从四个关键维度评估每款聊天机器人:幻觉率、用户产品评分、跨任务响应一致性以及服务中断频率。这些指标共同构成了可靠性风险综合评分,分数越高意味着潜在的工作场景风险越大。



令人警醒的数据

尽管占据81%的市场份额并拥有高用户评分,ChatGPT的幻觉率高达35%。这意味着它每给出三个答案中就有一个包含虚构或错误信息。若用于奇幻小说创作尚可接受,但若用于合规报告或财务决策,无异于埋下隐患。因此,ChatGPT获得99分的可靠性风险评分(满分99),在受测产品中表现最差。



其他主流产品的困境

谷歌旗下Gemini虽在正常运行时间上表现更佳,但在准确率方面反而更差,以38%的幻觉率位居榜首。这揭示了当前AI市场的奇特悖论:我们最常使用的工具,往往在保持事实准确性方面挣扎最为剧烈。

Claude和MetaAI处于模糊的中间地带。尽管Claude因其写作风格备受青睐,但由于频繁的服务中断和17%的幻觉率,被评为第二不可靠产品。MetaAI准确率更高(幻觉率15%),但用户体验不佳,获得最低用户满意度评分(3.4/5分)。



黑马突围

当行业巨头表现不佳时,哪些产品真正可靠?令人惊讶的是,研究指出Grok和DeepSeek才是专业应用中最可靠的工具。它们虽然没有OpenAI的巨额营销预算和品牌知名度,但实际表现更为出色。DeepSeek服务零中断,并将幻觉率控制在最低水平。

Kimi同样表现优异,在稳定性和正常运行时间之间找到平衡点。而PerplexityAI等付费选项虽表现稳健,但在性价比方面存疑——当更廉价、知名度较低的替代品表现更优时,订阅费用是否物有所值?



行业警示

Relum首席产品官Razvan-Lucian Haiduc警告称,可靠性应成为AI应用决策的核心考量。他指出约65%的美国公司在日常工作中使用AI聊天机器人,近45%的员工承认向这些工具分享过公司敏感信息。

随着AI更深入地融入日常工作,错误信息的风险正在成倍增加。Haiduc强调最广泛使用的聊天机器人并非适合所有行业,准确性、正常运行时间和特定任务表现应优先于品牌熟悉度。

这份报告为行业提供了现实参照。信任不应仅因产品知名度而给予,而应通过持续可验证的真实表现来赢得。目前来看,市场领导者们显然还需要迎头赶上。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
更多新闻