安全研究人员近日发布了一套自动化验证系统,旨在解决 AI 驱动的渗透测试中长期存在的“漏洞幻觉”问题。该工具被称为“漏洞利用验证智能体”(Exploitation Verification Agent,简称 EVA),它充当了二级审计员的角色,能够独立尝试确认主测试智能体所发现的任何安全漏洞。
AI 智能体在探测应用攻击面方面效率极高,但它们经常报告一些缺乏实质依据的可疑信号。常见的误报包括:针对参数化端点的 SQL 注入警报、受严格内容安全策略(CSP)保护的跨站脚本(XSS)报告,以及在缺乏出站连接的服务器上提出的服务端请求伪造(SSRF)声明。这些错误往往迫使人工分析师花费数小时来筛选虚假发现。
建立“证明优先”的标准
在这种新架构下,每个测试智能体都配有一个专门的 EVA 实例。EVA 不仅仅是重放录制的脚本,它更像是一个智能体,会根据漏洞类别选择特定的验证策略。如果系统无法复现漏洞,该发现就会被直接丢弃。
开发人员表示:“我们拒绝提交无法证明的漏洞发现。”他们将这种方法描述为一种工程约束,而非仅仅是一项功能。
EVA 将结果分为三个等级:已验证(VERIFIED)、潜在(POTENTIAL)和误报(FALSE_POSITIVE)。只有当智能体实现端到端的漏洞利用(例如成功窃取数据或在浏览器中执行代码)时,该发现才会被标记为“已验证”。对于基于浏览器的 XSS,智能体通过 Playwright 调用无头 Chromium 浏览器来确认 JavaScript 的执行情况,从而超越了经常触发虚假警报的简单字符串匹配技术。
针对容易因网络抖动而产生误报的盲注漏洞(Blind Injection),EVA 采用了统计分析方法。智能体首先建立连接的基准响应时间,并将其与注入载荷后的响应时间进行对比,确保只有统计学意义上的显著延迟才会被标记为漏洞。
如果初次验证尝试失败,智能体不会立即将其贴上误报的标签。相反,它会启动重试协议,通过多种编码和载荷变体进行循环测试,以应对输入过滤机制。只有在所有复现尝试均告失败后,该发现才会被移除。
当一个漏洞无法被完全证实,但表现出明显的风险迹象时,它会被标记为“潜在”。这种分类会记录证据的缺失部分——例如未能达到统计阈值的时序异常——从而为人工分析师提供透明的视角,让他们了解系统为何无法完全验证该威胁。通过强制 AI 证明其工作成果,开发人员旨在重建人们对自动化安全报告的信任。