根据英国人工智能安全研究所(AISI)的最新评估结果,OpenAI 的 GPT-5.5 在网络安全能力方面,已表现出与 Anthropic 专用模型 Mythos Preview 几乎一致的水平。
据 Ars Technica 报道,这一研究结果表明,此前被认为仅属于 Anthropic 受限发布模型的顶级黑客攻击能力,可能并非该模型的独有突破,而更像是通用模型性能提升的共同特征。
自 2023 年以来,AISI 一直通过 9 到 5 种不同的“夺旗赛”(Capture the Flag)挑战来测试各类前沿人工智能模型。这些测试涵盖了密码学、Web 漏洞利用和逆向工程等特定技能领域。
在最高难度的“专家级”任务中,GPT-5.5 的平均成功率达到了 71.4%。这一数值略高于 Mythos Preview 记录的 68.6%,但考虑到误差范围,两者之间的差异并不显著。
在其中一项极具挑战性的任务中,模型需要编写一个反汇编器来解码 Rust 二进制文件,GPT-5.5 仅用时 10 分 22 秒便完成了任务。整个过程无需人工干预,API 调用成本约为 1.73 美元。
模拟网络攻击
在名为“最后的人”(The Last Ones, TLO)的测试中,GPT-5.5 的表现同样与 Mythos Preview 持平。该测试旨在模拟针对企业网络的 32 步数据提取攻击。在十次尝试中,GPT-5.5 成功了三次,而 Mythos Preview 成功了两次。
值得注意的是,此前测试过的任何 AI 模型都未能在此项特定测试中取得哪怕一次成功。
然而,该模型在“冷却塔”(Cooling Tower)模拟测试中未能成功,该测试旨在评估 AI 干扰发电厂控制软件的能力。GPT-5.5 的这一失败表现,与该研究所迄今为止测试过的所有其他 AI 模型均一致。
报告指出,研究结果表明,Anthropic Mythos Preview 所展现出的网络安全能力,可能只是“大语言模型更广泛性能提升的副产品”,而非单一模型的特定技术突破。