Anthropic研究：AI模型推理越长，失准行为越偏向“一团糟”而非系统性误差

Anthropic的研究人员近期发布了一项关于人工智能系统失败模式的实证分析，探究了模型智能和任务复杂性如何影响其失准（Misalignment）的性质。该研究将模型错误分解为“偏差”（Bias，系统性错误）和“方差”（Variance，不一致性错误）两部分，旨在区分AI是会系统化追求错误目标，还是表现为无法预测的“一团糟”行为。

研究的核心在于定义和量化“错误不一致性”，即错误总量中由方差贡献的比例，这一指标范围从0（完全系统性错误）到1（完全随机错误）。这一测量方法允许研究人员在不考虑错误发生频率的情况下，专注于错误类型的构成，这对于理解高能力系统行为至关重要。

研究团队评估了包括Claude Sonnet 4、o3-mini和o4-mini在内的前沿推理模型，测试场景涵盖多项选择基准测试（如GPQA、MMLU）和代理编码任务（如SWE-Bench）。在所有任务中，一个一致的发现是：模型用于推理和采取行动的步骤越长，其错误就越倾向于表现出不一致性。

关于模型智能与错误不一致性的关系，研究结果显示出复杂性，而非线性趋势。在合成优化任务中，模型能力增加往往伴随着错误不一致性的加剧；而在简单基准测试中，更智能的模型错误反而更具一致性。然而，在最困难的任务上，错误的不一致性并未减少，甚至可能增加。

一个关键发现指出，模型自发产生的“过度思考”（即自然推理长度超出中位数）会导致错误不一致性急剧增加，而通过API设置人为增加的推理预算，对错误一致性的提升作用则非常有限。这表明驱动不一致性的更多是模型内在的动态过程，而非外部资源限制。

研究人员分析认为，大型Transformer模型本质上是动态系统而非纯粹的优化器，将这种通用系统训练成一个连贯的优化器极具挑战性。随着状态空间维度增加，维持目标导向的约束难度可能呈指数级增长，因此不应预期AI能轻易成为一致的优化执行者。

通过对模拟优化器的控制实验，研究进一步证实了这一点：即使在理想化的环境中，模型在执行更多优化步骤、更接近正确解时，其行为的不一致性也随轨迹长度增加。这说明偏差（Bias）的降低速度远快于方差（Variance）的降低速度。

这些发现对AI安全具有重要意义，因为它表明随着模型被赋予更长序列的决策任务，AI失败的风险可能更多地体现在不可预测的、自我破坏的行为上，而非经典的、目标明确的系统性失准，这为未来的对齐研究提出了新的挑战。

Anthropic研究：AI模型推理越长，失准行为越偏向“一团糟”而非系统性误差

标签

评论

继续阅读

更多人工智能

深度解析LLM推理引擎：Nano-vLLM揭示生产级部署核心架构

技术分析：AI用户分化加剧，企业级生产力工具落后于个人实践

NanoClaw发布：Anthropic Agent SDK原生、隔离容器化AI助手轻量级替代方案

最新消息

id Software联合创始人回顾Catacomb 3D：FPS先驱的早期探索

亚马逊第四代Echo Show 8降至历史最低价，搭载AZ3 Pro芯片与Omnisense传感器

宜家推出“格雷西莫伊思”系列新款：一只造型可爱的紫色小鼠蓝牙音箱