暂忘AGI——顶尖AI模型数学能力尚待提升_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

暂忘AGI——顶尖AI模型数学能力尚待提升

2026-03-18 20:29:15

通用人工智能的现状与挑战

通用人工智能（AGI）常被描述为能在多个领域像人类一样执行任务的系统。本周公布的MATHVISTA基准测试结果显示，当前模型仍未能实现这一目标。来自微软研究院、撒哈拉人工智能公司和埃默里大学的研究人员测试了通用智能的核心能力——基于视觉信息（包括图表、图形和示意图）进行数学推理的能力。

在测试的12个基础模型中（包括ChatGPT、Gemini和Claude），GPT-4 Vision以49.9%的得分位居榜首。人类参与者的平均得分为60.3%，这凸显了当前人工智能系统与通常与AGI相关的广泛推理能力之间的差距。

微软研究院首席研究员表示：“我们希望机器能够完成普通人在日常任务中所做的事情，这基本上是所有人对AGI的追求。”

视觉推理的复杂性

该项目通过将问题转化为图像、图表和绘图，测试模型是否能准确解读视觉信息并解决多步骤的数学和逻辑问题——这些能力超越了单纯的文本模式匹配。然而，模型在这些任务上仍然存在困难，且这种局限性的衡量颇具挑战。

研究团队在评估现有数据集时发现，许多问题并不需要视觉推理，模型仅凭文本就能得出正确答案，这种情况并不理想。自2023年10月发布以来，该测试数据集已被下载超过27.5万次，其中过去一个月下载量超过1.3万次。

数据标注的深层要求

创建该数据集需要超越标准数据标注的工作。研究团队需要标注人员能够处理算术、代数、几何和统计等领域的问题，同时区分深层数学推理（如图表解读或方程求解）与简单任务（如物体计数或数字读取）。

经过试点阶段，微软选择与撒哈拉人工智能公司合作。该公司提供了训练有素的标注人员、定制工作流程和多阶段质量检查，最终产生了超过6000个用于基准测试的多模态示例。

基准测试的困境

撒哈拉人工智能公司首席执行官指出，缺乏可靠的基准测试会使衡量机器智能的进展变得困难。他解释说：“存在数据污染的细微问题——当我们开始使用这个数据集进行测试时，其结果会被吸收到下一个版本中。因此我们无法确定模型是在真正解决问题，还是仅仅记住了数据集。”

如果基准测试答案出现在模型的训练数据中，高分可能反映的是记忆能力而非推理能力，这使得评估人工智能系统的真实进步变得更加困难。

突破知识边界

研究人员同时指出了训练数据的局限性。大部分公开可用的互联网数据已被纳入模型数据集，因此需要通过高质量数据注入新知识来突破这种边界。

一种 proposed 的路径是创建模拟环境，让模型能够在其中互动、从经验中学习并通过反馈进行改进。研究人员设想构建一个与现实世界对应的沙盒环境，使模型能够模拟人类在现实生活中的各种行为，从而突破互联网数据的限制。

人机协作的未来

专家认为，人类在改进人工智能系统方面仍将发挥重要作用。虽然模型能够快速生成内容，但人类在评估方面仍然更具优势。这种人与人工智能之间的能力差异——各自擅长的领域不同——可以被用来持续提升人工智能的发展水平。

免责声明：

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证，网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用，不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责，与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容，并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文