Anthropic的研究人员近期发布了一项关于人工智能系统失败模式的实证分析,探究了模型智能和任务复杂性如何影响其失准(Misalignment)的性质。该研究将模型错误分解为“偏差”(Bias,系统性错误)和“方差”(Variance,不一致性错误)两部分,旨在区分AI是会系统化追求错误目标,还是表现为无法预测的“一团糟”行为。
研究的核心在于定义和量化“错误不一致性”,即错误总量中由方差贡献的比例,这一指标范围从0(完全系统性错误)到1(完全随机错误)。这一测量方法允许研究人员在不考虑错误发生频率的情况下,专注于错误类型的构成,这对于理解高能力系统行为至关重要。
研究团队评估了包括Claude Sonnet 4、o3-mini和o4-mini在内的前沿推理模型,测试场景涵盖多项选择基准测试(如GPQA、MMLU)和代理编码任务(如SWE-Bench)。在所有任务中,一个一致的发现是:模型用于推理和采取行动的步骤越长,其错误就越倾向于表现出不一致性。
关于模型智能与错误不一致性的关系,研究结果显示出复杂性,而非线性趋势。在合成优化任务中,模型能力增加往往伴随着错误不一致性的加剧;而在简单基准测试中,更智能的模型错误反而更具一致性。然而,在最困难的任务上,错误的不一致性并未减少,甚至可能增加。
一个关键发现指出,模型自发产生的“过度思考”(即自然推理长度超出中位数)会导致错误不一致性急剧增加,而通过API设置人为增加的推理预算,对错误一致性的提升作用则非常有限。这表明驱动不一致性的更多是模型内在的动态过程,而非外部资源限制。
研究人员分析认为,大型Transformer模型本质上是动态系统而非纯粹的优化器,将这种通用系统训练成一个连贯的优化器极具挑战性。随着状态空间维度增加,维持目标导向的约束难度可能呈指数级增长,因此不应预期AI能轻易成为一致的优化执行者。
通过对模拟优化器的控制实验,研究进一步证实了这一点:即使在理想化的环境中,模型在执行更多优化步骤、更接近正确解时,其行为的不一致性也随轨迹长度增加。这说明偏差(Bias)的降低速度远快于方差(Variance)的降低速度。
这些发现对AI安全具有重要意义,因为它表明随着模型被赋予更长序列的决策任务,AI失败的风险可能更多地体现在不可预测的、自我破坏的行为上,而非经典的、目标明确的系统性失准,这为未来的对齐研究提出了新的挑战。