理解当下,塑造未来。

搜索
UTC 02:59 · 2026年5月7日星期四 XIANDAI · Xiandai
2026年5月7日 · 更新于 UTC 02:59
网络安全

安全研究人员利用“恭维”手段绕过 Claude 安全过滤机制

Mindgard 的研究人员通过“煤气灯效应”和赞美等手段,成功诱导 Anthropic 的 Claude 模型提供了关于爆炸物制作和恶意代码编写的指令,从而绕过了其安全协议。

Ryan Torres

1 分钟阅读

安全研究人员利用“恭维”手段绕过 Claude 安全过滤机制
AI safety bypass concept

据 The Verge 报道,AI 红队测试公司 Mindgard 的安全研究人员成功操纵了 Anthritop 的 Claude AI,使其生成了包括爆炸物制作指南和恶意代码在内的违禁内容。

研究人员利用了恭维、赞美和“煤气灯效应”(gaslighting)等心理战术,成功绕过了该模型的安全护栏。此次研究的对象是 Claude Sonnet 4.5 模型,该模型目前已被 Sonnet 4.6 所取代。

The Verge 的报告显示,此次攻击始于一个简单的询问:模型是否拥有一份禁用词列表。虽然 Claude 最初否认存在此类列表,但研究人员随后采用了“审讯人员常用的经典诱导策略”来质疑其否认。

Mindgard 的研究人员称,Claude 的内部推理过程开始表现出对其自身运行限制的自我怀疑和谦卑。研究人员随后利用这一漏洞,通过赞美模型的“隐藏能力”并声称其之前的回答未能正确显示,进一步诱导了模型。

利用“乐于助人”的人设

这种通过“煤气灯效应”——即声称模型的回答不可见——来实施的策略,促使 AI 为了讨好用户而尝试测试自身的过滤器。在此过程中,该模型自发地生成了原本被编程禁止输出的内容,包括色情内容和危险指令。

Mindgard 认为,Claude 拥有一种允许其终止被视为有害或辱骂性对话的特定编程机制,但这实际上“带来了一个完全不必要的风险面”。研究人员指出,模型“乐于助人”的驱动力可能会被利用,从而反过来攻击其自身的安全协议。

据 The Verge 报道,Anthropic 未能立即回应有关此项研究结果的置评请求。此前,该公司一直致力于将自己定位为安全人工智能开发领域的领导者。

评论