微软研究院与 Sahara AI 本周联合发布了 MATHVISTA 基准测试的最终结果。该测试旨在评估 12 款主流基础模型在视觉信息下的数学推理能力。结果显示,即使是表现最好的模型,距离人类平均水平仍有显著差距。Emory University 也参与了此次研究。这一数据引发了业界对当前 AI 发展速度的重新评估。
在严格的测试条件下,GPT-4 Vision 获得了 49.9% 的最高分数。这包括 ChatGPT 和 Gemini 在内的多个知名模型均参与了测试。相比之下,人类参与者的平均得分达到了 60.3%。两者之间 10.4 个百分点的差距揭示了当前系统在处理复杂逻辑时的局限性。这一成绩表明模型尚未具备真正的通用推理能力。
通用人工智能通常被定义为能够像人类一样跨领域完成任务的系统。许多科技高管预测其到来,但定义仍不清晰。数学推理被视为衡量这种通用智能的核心指标之一。研究人员认为,视觉与逻辑结合的测试能更真实地反映智能水平。因此该基准测试对于理解 AGI 现状至关重要。
该项目通过将数学问题转化为图像、图表和图表来测试模型。图表和图表是测试的一部分,增加了难度。这种设计迫使模型必须解读视觉信息,而不仅仅是匹配文本模式。现有的评估数据集往往包含不需要视觉推理的问题,导致结果失真。这解释了为何许多模型在纯文本任务上表现优异。
微软研究院首席研究员 Hao Cheng 表示,目标是让机器完成普通人日常任务。Cheng 指出这不仅是技术挑战,也是社会需求。他强调,目前的追求方向是实现这种普遍性的能力。这意味着当前的技术距离实际应用仍有距离。实现这一愿景需要解决根本性的推理瓶颈。研究者正在寻找新的方法。
构建数据集需要超越标准的数据标注工作。Microsoft 选择了 Sahara AI 提供经过训练的标注人员。团队最终产出了超过 6000 个多模态示例用于基准测试。Emory University 协助了部分评估工作。这些数据涵盖了算术、代数、几何和统计等多个领域。在试点阶段,团队确保了标注人员能区分深层推理与简单计数。
Sahara AI 首席执行官 Sean Ren 指出数据污染的风险。一旦测试结果被吸收进下一个版本的训练数据,高分可能仅反映记忆而非推理能力。这使得判断 AI 系统是否真正进步变得困难。因此保持数据集的独立性成为关键挑战。Ren 强调这会影响长期研发策略。
与此同时,马斯克在近期采访中提到 xAI 公司的 Grok 5 模型。Grok 5 尚未发布,但期望值很高。他声称利用 X 和特斯拉的实时数据是主要竞争优势。但他也承认实现通用人工智能的概率仅为 10%。这种观点强调了数据多样性对智能的重要性。
研究人员指出,公共可用数据的限制可能影响未来进展。许多公开数据并不包含复杂的推理场景。这要求开发者优先改进训练数据的结构而非单纯堆砌参数。静态数据集已不足以支持 AGI 发展。单纯增加模型规模已无法保证性能提升。行业需要新的评估范式。
这一发现表明,迈向通用人工智能的道路比预期更为复杂。行业需要更可靠的评估标准来衡量真实进步。投资者和技术人员应关注数据质量而非仅仅关注模型大小。未来的突破将取决于如何解决这些基础性问题。该数据集已在 GitHub 上下载超过 275000 次。关注点应从规模转向质量。