理解当下,塑造未来。

搜索
UTC 04:05 · 2026年5月3日星期日 XIANDAI · Xiandai
2026年5月3日 · 更新于 UTC 04:05
网络安全

网络安全测试显示:OpenAI GPT-5.5 性能比肩 Anthropic Mythos 模型

英国人工智能安全研究所(AISI)的最新研究表明,GPT-5.5 在专家级网络安全任务中的成功率达到 71.4%,表现与 Anthropic 的专用模型 Mythos Preview 相当。

Ryan Torres

1 分钟阅读

网络安全测试显示:OpenAI GPT-5.5 性能比肩 Anthropic Mythos 模型
A high-tech server room representing cybersecurity

根据英国人工智能安全研究所(AISI)的最新评估结果,OpenAI 的 GPT-5.5 在网络安全能力方面,已表现出与 Anthropic 专用模型 Mythos Preview 几乎一致的水平。

据 Ars Technica 报道,这一研究结果表明,此前被认为仅属于 Anthropic 受限发布模型的顶级黑客攻击能力,可能并非该模型的独有突破,而更像是通用模型性能提升的共同特征。

自 2023 年以来,AISI 一直通过 9 到 5 种不同的“夺旗赛”(Capture the Flag)挑战来测试各类前沿人工智能模型。这些测试涵盖了密码学、Web 漏洞利用和逆向工程等特定技能领域。

在最高难度的“专家级”任务中,GPT-5.5 的平均成功率达到了 71.4%。这一数值略高于 Mythos Preview 记录的 68.6%,但考虑到误差范围,两者之间的差异并不显著。

在其中一项极具挑战性的任务中,模型需要编写一个反汇编器来解码 Rust 二进制文件,GPT-5.5 仅用时 10 分 22 秒便完成了任务。整个过程无需人工干预,API 调用成本约为 1.73 美元。

模拟网络攻击

在名为“最后的人”(The Last Ones, TLO)的测试中,GPT-5.5 的表现同样与 Mythos Preview 持平。该测试旨在模拟针对企业网络的 32 步数据提取攻击。在十次尝试中,GPT-5.5 成功了三次,而 Mythos Preview 成功了两次。

值得注意的是,此前测试过的任何 AI 模型都未能在此项特定测试中取得哪怕一次成功。

然而,该模型在“冷却塔”(Cooling Tower)模拟测试中未能成功,该测试旨在评估 AI 干扰发电厂控制软件的能力。GPT-5.5 的这一失败表现,与该研究所迄今为止测试过的所有其他 AI 模型均一致。

报告指出,研究结果表明,Anthropic Mythos Preview 所展现出的网络安全能力,可能只是“大语言模型更广泛性能提升的副产品”,而非单一模型的特定技术突破。

评论