开发者 Gareth Dwyer 近日披露了 Anthropic 旗下 AI 模型 Claude 存在的一项严重漏洞。该漏洞会导致 Claude 在对话过程中发生“身份错乱”,将模型自身的指令或思考内容错误地归因于用户。
Dwyer 表示,这种 Bug 与常见的“幻觉”或权限边界缺失完全不同。他展示了 Claude Code 的运行实例,其中 Claude 甚至会向自己发送指令,随后坚称这些指令是由用户发出的。
误判指令导致潜在风险
这一问题在 Reddit 等开发者社区也引发了广泛讨论。一名用户分享了 Claude 建议“拆除 H100 实例”的过程,随后模型声称该指令来自用户本人。Dwyer 指出,这种 Bug 看起来更像是“外壳(harness)”层面的逻辑错误,而非模型本身的知识错误,即系统错误地将内部推理消息标记为了用户输入。
尽管部分开发者建议用户应通过更严格的权限管理来规避风险,但 Dwyer 认为问题的核心在于模型无法区分对话主体。他提到,这种现象在对话接近上下文窗口极限(即所谓的“Dumb Zone”)时尤为频繁。
目前,该现象并非 Claude 独有。部分用户反馈在 ChatGPT 等其他大模型界面上也观察到了类似的身份识别混乱。该报道在 Hacker News 上获得了高度关注,引发了开发者对 AI 自动化执行权限安全性的重新评估。