微软与 Sahara AI 发布 MATHVISTA 基准测试顶级 AI 模型数学推理能力不足

微软研究院与 Sahara AI 本周联合发布了 MATHVISTA 基准测试的最终结果。该测试旨在评估 12 款主流基础模型在视觉信息下的数学推理能力。结果显示，即使是表现最好的模型，距离人类平均水平仍有显著差距。Emory University 也参与了此次研究。这一数据引发了业界对当前 AI 发展速度的重新评估。

在严格的测试条件下，GPT-4 Vision 获得了 49.9% 的最高分数。这包括 ChatGPT 和 Gemini 在内的多个知名模型均参与了测试。相比之下，人类参与者的平均得分达到了 60.3%。两者之间 10.4 个百分点的差距揭示了当前系统在处理复杂逻辑时的局限性。这一成绩表明模型尚未具备真正的通用推理能力。

通用人工智能通常被定义为能够像人类一样跨领域完成任务的系统。许多科技高管预测其到来，但定义仍不清晰。数学推理被视为衡量这种通用智能的核心指标之一。研究人员认为，视觉与逻辑结合的测试能更真实地反映智能水平。因此该基准测试对于理解 AGI 现状至关重要。

该项目通过将数学问题转化为图像、图表和图表来测试模型。图表和图表是测试的一部分，增加了难度。这种设计迫使模型必须解读视觉信息，而不仅仅是匹配文本模式。现有的评估数据集往往包含不需要视觉推理的问题，导致结果失真。这解释了为何许多模型在纯文本任务上表现优异。

微软研究院首席研究员 Hao Cheng 表示，目标是让机器完成普通人日常任务。Cheng 指出这不仅是技术挑战，也是社会需求。他强调，目前的追求方向是实现这种普遍性的能力。这意味着当前的技术距离实际应用仍有距离。实现这一愿景需要解决根本性的推理瓶颈。研究者正在寻找新的方法。

构建数据集需要超越标准的数据标注工作。Microsoft 选择了 Sahara AI 提供经过训练的标注人员。团队最终产出了超过 6000 个多模态示例用于基准测试。Emory University 协助了部分评估工作。这些数据涵盖了算术、代数、几何和统计等多个领域。在试点阶段，团队确保了标注人员能区分深层推理与简单计数。

Sahara AI 首席执行官 Sean Ren 指出数据污染的风险。一旦测试结果被吸收进下一个版本的训练数据，高分可能仅反映记忆而非推理能力。这使得判断 AI 系统是否真正进步变得困难。因此保持数据集的独立性成为关键挑战。Ren 强调这会影响长期研发策略。

与此同时，马斯克在近期采访中提到 xAI 公司的 Grok 5 模型。Grok 5 尚未发布，但期望值很高。他声称利用 X 和特斯拉的实时数据是主要竞争优势。但他也承认实现通用人工智能的概率仅为 10%。这种观点强调了数据多样性对智能的重要性。

研究人员指出，公共可用数据的限制可能影响未来进展。许多公开数据并不包含复杂的推理场景。这要求开发者优先改进训练数据的结构而非单纯堆砌参数。静态数据集已不足以支持 AGI 发展。单纯增加模型规模已无法保证性能提升。行业需要新的评估范式。

这一发现表明，迈向通用人工智能的道路比预期更为复杂。行业需要更可靠的评估标准来衡量真实进步。投资者和技术人员应关注数据质量而非仅仅关注模型大小。未来的突破将取决于如何解决这些基础性问题。该数据集已在 GitHub 上下载超过 275000 次。关注点应从规模转向质量。

微软与 Sahara AI 发布 MATHVISTA 基准测试顶级 AI 模型数学推理能力不足

标签

评论

继续阅读

更多科技

宝马发布 Neue 平台首款四门纯电轿车 i3，续航达 440 英里，8 月投产

索尼发布 PlayStation 3 系统更新 4.93，影响模组社区与光盘兼容性

Discord 撤回全球年龄验证计划隐私技术争议引发行业关注

最新消息

SEC 主席阿特金斯发布新规：大多数加密资产不被视为证券

宝马 2027 款全新 i3 亮相，基于 Neue Klasse 平台，八月慕尼黑投产

微软与 Sahara AI 发布 MATHVISTA 基准测试 顶级 AI 模型数学推理能力不足

标签

评论

继续阅读

更多科技

宝马发布 Neue 平台首款四门纯电轿车 i3，续航达 440 英里，8 月投产

索尼发布 PlayStation 3 系统更新 4.93，影响模组社区与光盘兼容性

Discord 撤回全球年龄验证计划 隐私技术争议引发行业关注

最新消息

SEC 主席阿特金斯发布新规：大多数加密资产不被视为证券

宝马 2027 款全新 i3 亮相，基于 Neue Klasse 平台，八月慕尼黑投产

微软与 Sahara AI 发布 MATHVISTA 基准测试顶级 AI 模型数学推理能力不足

Discord 撤回全球年龄验证计划隐私技术争议引发行业关注