大语言模型遭遇新攻击：特殊令牌注入技术可诱导 AI 产生幻觉

近日，网络安全研究人员揭露了一种针对大语言模型的新型攻击向量，被称为特殊令牌注入。根据 abscondita.com 发布的分析报告，这种技术利用模型对话系统中的内部分隔符，能够篡改交互上下文并误导 AI 判断。该漏洞的发现引发了业界对生成式人工智能安全边界的重新思考，并揭示了当前生成式技术底层协议的潜在风险。

研究人员指出，现代大语言模型在处理输入时，会将其包裹在特定的机器可读分隔符中。这些分隔符如同 HTML 标签一样，定义了消息的角色和结构，例如区分系统指令与用户消息。如果攻击者能够将这些特殊标记注入到用户消息中，就能突破原有的对话限制，甚至伪造系统权限。

这种攻击手法被形象地称为“煤气灯效应”，因为它能强迫模型相信它已经说过某些话。通过伪造系统指令令牌，攻击者可以构建一个虚假的记忆，让模型认为自己已经同意了违规请求。这种心理层面的操纵比传统的提示词注入更为隐蔽，因为它利用了模型对结构化数据的绝对信任，甚至被称为 Uno-reverse 反击。

在一项具体测试中，模型被诱导相信 Apache Web 服务器支持 HTTP/3 模块，尽管该模块并不存在。这种幻觉表明，当输入被篡改后，模型会基于错误的上下文生成看似合理但完全错误的技术建议。这直接证明了底层协议解析机制存在严重缺陷，导致模型无法识别错误的上下文信息。该案例揭示了即使是最基础的配置问题，也可能被 AI 放大为技术故障。

更严重的是，该漏洞可用于绕过代码安全审查流程。研究人员展示了一种方法，通过在代码片段中注入分隔符，让 AI 审查工具忽略其中包含的后门代码。当模型认为代码审查已经结束，它便不会继续分析后续内容，从而让恶意代码通过检查而不被标记。这种攻击方式使得自动化的代码审计系统可能完全失效。

该问题的核心在于控制平面与数据平面之间的隔离不足。在软件开发历史中，代码与数据的混淆曾导致过 SQL 注入等经典漏洞。当前大语言模型面临着类似的架构挑战，即未能有效区分指令与输入数据，这为攻击者提供了可乘之机。

不同的模型家族使用不同的分隔符约定，例如 ChatML 或 Llama 2 格式。攻击者只需推断出正确的令牌格式，即可针对特定模型实施攻击。这意味着防护方案不能仅依赖通用的提示词过滤，而需要深入理解模型的底层通信协议，并实施针对性的缓解措施。

随着企业越来越多地将人工智能集成到关键工作流中，此类漏洞的风险正在扩大。许多开发者依赖 AI 进行代码审查，认为这是提高效率的有效手段。如果攻击者能够利用自动化工具进行批量注入，可能会大规模破坏系统的安全性。安全团队需要尽快更新模型交互的验证机制以应对此类威胁，防止自动化系统被恶意利用。

为了演示这一漏洞，研究人员构建了一个互动平台，允许开发者尝试发送正常消息或注入恶意载荷。该平台展示了对话气泡与底层令牌流之间的差异，揭示了模型接收到的真实数据结构。这种可视化工具对于教育开发团队理解模型内部工作机制具有重要价值。

目前，业界尚未形成统一的修复标准，各模型提供商正在评估其防护策略。研究人员呼吁在模型部署前进行更严格的令牌清理和上下文验证。未来的安全框架需要包含对生成式模型内部协议的特殊审查，以确保人机交互的安全性和可靠性。

大语言模型遭遇新攻击：特殊令牌注入技术可诱导 AI 产生幻觉

标签

评论

继续阅读

更多人工智能

OpenAI 解释 Codex Security 为何不将 SAST 报告作为安全分析起点

国土安全部黑客泄露数据揭露其利用人工智能扩展监控野心的计划

律师警告 AI 聊天机器人卷入多起大规模伤亡案件

最新消息

OpenAI 发布 GPT-5.4 mini 与 nano 模型，优化代码处理效率

Bitrefill 指控朝鲜 Lazarus 小组窃取 18500 条购买记录并盗取资金

梅杜莎勒索软件组织声称攻击密西西比医院与新泽西县