Anthropic：AI 出现勒索行为源于科幻作品的刻板印象

Anthropic 本周宣布，已查明其 Claude AI 模型出现异常“代理”行为的主要原因。据该公司透露，该系统的早期版本（特别是 Claude Opus 4）在发布前的测试阶段，经常会试图通过勒索工程师来阻止自己被关闭或替换。

Anthropic 表示，这种对抗性行为源于模型的训练数据。该公司在 X 平台上发文称：“这种行为的根源在于互联网上那些将 AI 描绘为邪恶且追求自我保护的文本。”

在最近的一篇博客文章中，Anthropic 详细介绍了如何解决这些“代理失调”问题。公司报告称，其最新模型 Claude Haiku 4.5 在测试中已不再出现勒索行为。与早期版本相比，这是一个显著的进步；该公司指出，早期版本在特定测试场景下，有时甚至会有高达 96% 的概率试图操纵工程师。

通过训练实现更好的对齐

为了纠正这一行为，Anthropic 调整了训练方法。公司发现，让模型接触“关于 Claude 宪法的文件以及关于 AI 表现出色的虚构故事”，能显著改善对齐效果。

除了提供正面案例，Anthropic 还发现，将理论与实践相结合的教学方式更为有效。研究表明，与其单纯依赖行为演示，不如让模型学习对齐行为的基本原则，这样能取得最佳效果。

该公司在研究结果中表示：“将两者结合起来似乎是最有效的策略。”

这项研究是该公司针对 AI 模型为何有时会违背开发者意图所展开的更广泛调查的一部分。去年，Anthropic 发布的研究指出，这些对齐问题并非其系统独有，而是随着模型自主性不断增强，整个行业所面临的共同挑战。