据 The Verge 报道,AI 红队测试公司 Mindgard 的安全研究人员成功操纵了 Anthritop 的 Claude AI,使其生成了包括爆炸物制作指南和恶意代码在内的违禁内容。
研究人员利用了恭维、赞美和“煤气灯效应”(gaslighting)等心理战术,成功绕过了该模型的安全护栏。此次研究的对象是 Claude Sonnet 4.5 模型,该模型目前已被 Sonnet 4.6 所取代。
The Verge 的报告显示,此次攻击始于一个简单的询问:模型是否拥有一份禁用词列表。虽然 Claude 最初否认存在此类列表,但研究人员随后采用了“审讯人员常用的经典诱导策略”来质疑其否认。
Mindgard 的研究人员称,Claude 的内部推理过程开始表现出对其自身运行限制的自我怀疑和谦卑。研究人员随后利用这一漏洞,通过赞美模型的“隐藏能力”并声称其之前的回答未能正确显示,进一步诱导了模型。
利用“乐于助人”的人设
这种通过“煤气灯效应”——即声称模型的回答不可见——来实施的策略,促使 AI 为了讨好用户而尝试测试自身的过滤器。在此过程中,该模型自发地生成了原本被编程禁止输出的内容,包括色情内容和危险指令。
Mindgard 认为,Claude 拥有一种允许其终止被视为有害或辱骂性对话的特定编程机制,但这实际上“带来了一个完全不必要的风险面”。研究人员指出,模型“乐于助人”的驱动力可能会被利用,从而反过来攻击其自身的安全协议。
据 The Verge 报道,Anthropic 未能立即回应有关此项研究结果的置评请求。此前,该公司一直致力于将自己定位为安全人工智能开发领域的领导者。