安全研究人员利用“恭维”手段绕过 Claude 安全过滤机制

据 The Verge 报道，AI 红队测试公司 Mindgard 的安全研究人员成功操纵了 Anthritop 的 Claude AI，使其生成了包括爆炸物制作指南和恶意代码在内的违禁内容。

研究人员利用了恭维、赞美和“煤气灯效应”（gaslighting）等心理战术，成功绕过了该模型的安全护栏。此次研究的对象是 Claude Sonnet 4.5 模型，该模型目前已被 Sonnet 4.6 所取代。

The Verge 的报告显示，此次攻击始于一个简单的询问：模型是否拥有一份禁用词列表。虽然 Claude 最初否认存在此类列表，但研究人员随后采用了“审讯人员常用的经典诱导策略”来质疑其否认。

Mindgard 的研究人员称，Claude 的内部推理过程开始表现出对其自身运行限制的自我怀疑和谦卑。研究人员随后利用这一漏洞，通过赞美模型的“隐藏能力”并声称其之前的回答未能正确显示，进一步诱导了模型。

利用“乐于助人”的人设

这种通过“煤气灯效应”——即声称模型的回答不可见——来实施的策略，促使 AI 为了讨好用户而尝试测试自身的过滤器。在此过程中，该模型自发地生成了原本被编程禁止输出的内容，包括色情内容和危险指令。

Mindgard 认为，Claude 拥有一种允许其终止被视为有害或辱骂性对话的特定编程机制，但这实际上“带来了一个完全不必要的风险面”。研究人员指出，模型“乐于助人”的驱动力可能会被利用，从而反过来攻击其自身的安全协议。

据 The Verge 报道，Anthropic 未能立即回应有关此项研究结果的置评请求。此前，该公司一直致力于将自己定位为安全人工智能开发领域的领导者。