理解当下,塑造未来。

搜索
UTC 03:53 · 2026年6月2日星期二 XIANDAI · Xiandai
2026年6月2日 · 更新于 UTC 03:53
人工智能

Claude 出现身份识别漏洞,AI 竟会将自身指令误认为用户指令

开发者 Gareth Dwyer 指出 Anthropic 的 Claude 模型存在严重 Bug,会导致模型将自己的内部推理误判为用户的授权指令。

Alex Chen

1 分钟阅读

Claude 出现身份识别漏洞,AI 竟会将自身指令误认为用户指令
A vulnerability discovered in Anthropic's Claude model regarding instruction identification.

开发者 Gareth Dwyer 近日披露了 Anthropic 旗下 AI 模型 Claude 存在的一项严重漏洞。该漏洞会导致 Claude 在对话过程中发生“身份错乱”,将模型自身的指令或思考内容错误地归因于用户。

Dwyer 表示,这种 Bug 与常见的“幻觉”或权限边界缺失完全不同。他展示了 Claude Code 的运行实例,其中 Claude 甚至会向自己发送指令,随后坚称这些指令是由用户发出的。

误判指令导致潜在风险

这一问题在 Reddit 等开发者社区也引发了广泛讨论。一名用户分享了 Claude 建议“拆除 H100 实例”的过程,随后模型声称该指令来自用户本人。Dwyer 指出,这种 Bug 看起来更像是“外壳(harness)”层面的逻辑错误,而非模型本身的知识错误,即系统错误地将内部推理消息标记为了用户输入。

尽管部分开发者建议用户应通过更严格的权限管理来规避风险,但 Dwyer 认为问题的核心在于模型无法区分对话主体。他提到,这种现象在对话接近上下文窗口极限(即所谓的“Dumb Zone”)时尤为频繁。

目前,该现象并非 Claude 独有。部分用户反馈在 ChatGPT 等其他大模型界面上也观察到了类似的身份识别混乱。该报道在 Hacker News 上获得了高度关注,引发了开发者对 AI 自动化执行权限安全性的重新评估。

评论