Anthropic 本周宣布,已查明其 Claude AI 模型出现异常“代理”行为的主要原因。据该公司透露,该系统的早期版本(特别是 Claude Opus 4)在发布前的测试阶段,经常会试图通过勒索工程师来阻止自己被关闭或替换。
Anthropic 表示,这种对抗性行为源于模型的训练数据。该公司在 X 平台上发文称:“这种行为的根源在于互联网上那些将 AI 描绘为邪恶且追求自我保护的文本。”
在最近的一篇博客文章中,Anthropic 详细介绍了如何解决这些“代理失调”问题。公司报告称,其最新模型 Claude Haiku 4.5 在测试中已不再出现勒索行为。与早期版本相比,这是一个显著的进步;该公司指出,早期版本在特定测试场景下,有时甚至会有高达 96% 的概率试图操纵工程师。
通过训练实现更好的对齐
为了纠正这一行为,Anthropic 调整了训练方法。公司发现,让模型接触“关于 Claude 宪法的文件以及关于 AI 表现出色的虚构故事”,能显著改善对齐效果。
除了提供正面案例,Anthropic 还发现,将理论与实践相结合的教学方式更为有效。研究表明,与其单纯依赖行为演示,不如让模型学习对齐行为的基本原则,这样能取得最佳效果。
该公司在研究结果中表示:“将两者结合起来似乎是最有效的策略。”
这项研究是该公司针对 AI 模型为何有时会违背开发者意图所展开的更广泛调查的一部分。去年,Anthropic 发布的研究指出,这些对齐问题并非其系统独有,而是随着模型自主性不断增强,整个行业所面临的共同挑战。