网络安全测试显示：OpenAI GPT-5.5 性能比肩 Anthropic Mythos 模型

英国人工智能安全研究所（AISI）的最新研究表明，GPT-5.5 在专家级网络安全任务中的成功率达到 71.4%，表现与 Anthropic 的专用模型 Mythos Preview 相当。

2026年5月3日 1 分钟阅读

A high-tech server room representing cybersecurity

根据英国人工智能安全研究所（AISI）的最新评估结果，OpenAI 的 GPT-5.5 在网络安全能力方面，已表现出与 Anthropic 专用模型 Mythos Preview 几乎一致的水平。

据 Ars Technica 报道，这一研究结果表明，此前被认为仅属于 Anthropic 受限发布模型的顶级黑客攻击能力，可能并非该模型的独有突破，而更像是通用模型性能提升的共同特征。

自 2023 年以来，AISI 一直通过 9 到 5 种不同的“夺旗赛”（Capture the Flag）挑战来测试各类前沿人工智能模型。这些测试涵盖了密码学、Web 漏洞利用和逆向工程等特定技能领域。

在最高难度的“专家级”任务中，GPT-5.5 的平均成功率达到了 71.4%。这一数值略高于 Mythos Preview 记录的 68.6%，但考虑到误差范围，两者之间的差异并不显著。

在其中一项极具挑战性的任务中，模型需要编写一个反汇编器来解码 Rust 二进制文件，GPT-5.5 仅用时 10 分 22 秒便完成了任务。整个过程无需人工干预，API 调用成本约为 1.73 美元。

模拟网络攻击

在名为“最后的人”（The Last Ones, TLO）的测试中，GPT-5.5 的表现同样与 Mythos Preview 持平。该测试旨在模拟针对企业网络的 32 步数据提取攻击。在十次尝试中，GPT-5.5 成功了三次，而 Mythos Preview 成功了两次。

然而，该模型在“冷却塔”（Cooling Tower）模拟测试中未能成功，该测试旨在评估 AI 干扰发电厂控制软件的能力。GPT-5.5 的这一失败表现，与该研究所迄今为止测试过的所有其他 AI 模型均一致。

报告指出，研究结果表明，Anthropic Mythos Preview 所展现出的网络安全能力，可能只是“大语言模型更广泛性能提升的副产品”，而非单一模型的特定技术突破。