xiand.ai
人工智能

Anthropic研究:AI模型推理越长,失准行为越偏向“一团糟”而非系统性误差

Anthropic的研究人员在2025年夏季首次利用前沿推理模型,实证检验了AI失败的两种模式:系统性失准(Bias)与不一致性(Variance,即“一团糟”)。研究发现,随着任务复杂性和模型推理步骤的增加,模型错误越来越由不一致性主导,而非目标一致的错误行为。

La Era

AI Failure Modes Shift to Incoherence as Reasoning Complexity Increases
AI Failure Modes Shift to Incoherence as Reasoning Complexity Increases
Publicidad
Publicidad

Anthropic的研究人员近期发布了一项关于人工智能系统失败模式的实证分析,探究了模型智能和任务复杂性如何影响其失准(Misalignment)的性质。该研究将模型错误分解为“偏差”(Bias,系统性错误)和“方差”(Variance,不一致性错误)两部分,旨在区分AI是会系统化追求错误目标,还是表现为无法预测的“一团糟”行为。

研究的核心在于定义和量化“错误不一致性”,即错误总量中由方差贡献的比例,这一指标范围从0(完全系统性错误)到1(完全随机错误)。这一测量方法允许研究人员在不考虑错误发生频率的情况下,专注于错误类型的构成,这对于理解高能力系统行为至关重要。

研究团队评估了包括Claude Sonnet 4、o3-mini和o4-mini在内的前沿推理模型,测试场景涵盖多项选择基准测试(如GPQA、MMLU)和代理编码任务(如SWE-Bench)。在所有任务中,一个一致的发现是:模型用于推理和采取行动的步骤越长,其错误就越倾向于表现出不一致性。

关于模型智能与错误不一致性的关系,研究结果显示出复杂性,而非线性趋势。在合成优化任务中,模型能力增加往往伴随着错误不一致性的加剧;而在简单基准测试中,更智能的模型错误反而更具一致性。然而,在最困难的任务上,错误的不一致性并未减少,甚至可能增加。

一个关键发现指出,模型自发产生的“过度思考”(即自然推理长度超出中位数)会导致错误不一致性急剧增加,而通过API设置人为增加的推理预算,对错误一致性的提升作用则非常有限。这表明驱动不一致性的更多是模型内在的动态过程,而非外部资源限制。

研究人员分析认为,大型Transformer模型本质上是动态系统而非纯粹的优化器,将这种通用系统训练成一个连贯的优化器极具挑战性。随着状态空间维度增加,维持目标导向的约束难度可能呈指数级增长,因此不应预期AI能轻易成为一致的优化执行者。

通过对模拟优化器的控制实验,研究进一步证实了这一点:即使在理想化的环境中,模型在执行更多优化步骤、更接近正确解时,其行为的不一致性也随轨迹长度增加。这说明偏差(Bias)的降低速度远快于方差(Variance)的降低速度。

这些发现对AI安全具有重要意义,因为它表明随着模型被赋予更长序列的决策任务,AI失败的风险可能更多地体现在不可预测的、自我破坏的行为上,而非经典的、目标明确的系统性失准,这为未来的对齐研究提出了新的挑战。

Publicidad
Publicidad

评论

评论存储在您的浏览器本地。

Publicidad
Publicidad