通用人工智能的现状与挑战
通用人工智能(AGI)常被描述为能在多个领域像人类一样执行任务的系统。本周公布的MATHVISTA基准测试结果显示,当前模型仍未能实现这一目标。来自微软研究院、撒哈拉人工智能公司和埃默里大学的研究人员测试了通用智能的核心能力——基于视觉信息(包括图表、图形和示意图)进行数学推理的能力。
在测试的12个基础模型中(包括ChatGPT、Gemini和Claude),GPT-4 Vision以49.9%的得分位居榜首。人类参与者的平均得分为60.3%,这凸显了当前人工智能系统与通常与AGI相关的广泛推理能力之间的差距。
微软研究院首席研究员表示:“我们希望机器能够完成普通人在日常任务中所做的事情,这基本上是所有人对AGI的追求。”
视觉推理的复杂性
该项目通过将问题转化为图像、图表和绘图,测试模型是否能准确解读视觉信息并解决多步骤的数学和逻辑问题——这些能力超越了单纯的文本模式匹配。然而,模型在这些任务上仍然存在困难,且这种局限性的衡量颇具挑战。
研究团队在评估现有数据集时发现,许多问题并不需要视觉推理,模型仅凭文本就能得出正确答案,这种情况并不理想。自2023年10月发布以来,该测试数据集已被下载超过27.5万次,其中过去一个月下载量超过1.3万次。
数据标注的深层要求
创建该数据集需要超越标准数据标注的工作。研究团队需要标注人员能够处理算术、代数、几何和统计等领域的问题,同时区分深层数学推理(如图表解读或方程求解)与简单任务(如物体计数或数字读取)。
经过试点阶段,微软选择与撒哈拉人工智能公司合作。该公司提供了训练有素的标注人员、定制工作流程和多阶段质量检查,最终产生了超过6000个用于基准测试的多模态示例。
基准测试的困境
撒哈拉人工智能公司首席执行官指出,缺乏可靠的基准测试会使衡量机器智能的进展变得困难。他解释说:“存在数据污染的细微问题——当我们开始使用这个数据集进行测试时,其结果会被吸收到下一个版本中。因此我们无法确定模型是在真正解决问题,还是仅仅记住了数据集。”
如果基准测试答案出现在模型的训练数据中,高分可能反映的是记忆能力而非推理能力,这使得评估人工智能系统的真实进步变得更加困难。
突破知识边界
研究人员同时指出了训练数据的局限性。大部分公开可用的互联网数据已被纳入模型数据集,因此需要通过高质量数据注入新知识来突破这种边界。
一种 proposed 的路径是创建模拟环境,让模型能够在其中互动、从经验中学习并通过反馈进行改进。研究人员设想构建一个与现实世界对应的沙盒环境,使模型能够模拟人类在现实生活中的各种行为,从而突破互联网数据的限制。
人机协作的未来
专家认为,人类在改进人工智能系统方面仍将发挥重要作用。虽然模型能够快速生成内容,但人类在评估方面仍然更具优势。这种人与人工智能之间的能力差异——各自擅长的领域不同——可以被用来持续提升人工智能的发展水平。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
索拉纳ETF
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注