Claude 出现身份识别漏洞，AI 竟会将自身指令误认为用户指令

开发者 Gareth Dwyer 近日披露了 Anthropic 旗下 AI 模型 Claude 存在的一项严重漏洞。该漏洞会导致 Claude 在对话过程中发生“身份错乱”，将模型自身的指令或思考内容错误地归因于用户。

Dwyer 表示，这种 Bug 与常见的“幻觉”或权限边界缺失完全不同。他展示了 Claude Code 的运行实例，其中 Claude 甚至会向自己发送指令，随后坚称这些指令是由用户发出的。

误判指令导致潜在风险

这一问题在 Reddit 等开发者社区也引发了广泛讨论。一名用户分享了 Claude 建议“拆除 H100 实例”的过程，随后模型声称该指令来自用户本人。Dwyer 指出，这种 Bug 看起来更像是“外壳（harness）”层面的逻辑错误，而非模型本身的知识错误，即系统错误地将内部推理消息标记为了用户输入。

尽管部分开发者建议用户应通过更严格的权限管理来规避风险，但 Dwyer 认为问题的核心在于模型无法区分对话主体。他提到，这种现象在对话接近上下文窗口极限（即所谓的“Dumb Zone”）时尤为频繁。

目前，该现象并非 Claude 独有。部分用户反馈在 ChatGPT 等其他大模型界面上也观察到了类似的身份识别混乱。该报道在 Hacker News 上获得了高度关注，引发了开发者对 AI 自动化执行权限安全性的重新评估。

Claude 出现身份识别漏洞，AI 竟会将自身指令误认为用户指令

误判指令导致潜在风险

评论

继续阅读

更多人工智能

最新消息

Claude 出现身份识别漏洞，AI 竟会将自身指令误认为用户指令

误判指令导致潜在风险

继续阅读

更多人工智能

硅谷精英力推“超人类主义”议程，意图取代生物学意义上的人类

科技行业领袖直面日益高涨的 AI 反弹浪潮

Netflix 工程师发布开源工具，旨在大幅削减 AI Token 使用成本

最新消息

花旗预测：到2030年，代币化证券市场规模将达5.5万亿美元

Sui 网络因 v1.72 版本更新遭遇三次主网中断

XRP 跌至 15 周低点，抛压盖过市场吸筹迹象