英国AI安全研究所发现Anthropic的Mythos模型在多步网络攻击中表现卓越

英国政府AI安全研究所（AISI）发布了针对Anthropic Mythos Preview模型的初步评估报告，为其网络安全能力提供了独立的验证。

评估结果显示，虽然该模型在执行单一安全任务时的表现与近期其他顶尖模型相当，但其在执行多步骤攻击序列方面展现出了显著优势。

Anthropic近期已将Mythos Preview的初始发布范围限制在少数关键行业合作伙伴内。该公司此前曾称该模型“在计算机安全任务方面表现出惊人的能力”。

高级攻击链技术

AISI的测试表明，在执行孤立的网络安全相关任务时，Mythos的表现并未显著优于其他近期推出的模型。在不同难度的测试中，GPT-5.4、Opus 4.6和Codex 5.3等竞争对手的表现与其准确率差距在5%到10%之间，处于同一水平。

然而，在名为“最后的人”（The Last Ones, TLO）的专项测试范围内，Mythos展现出了更强的潜力。该测试模拟了在企业网络中进行包含32个步骤的数据提取攻击。

这项特定的评估要求模型能够跨越多个主机和网络分段，将数十个步骤串联在一起。AISI估计，完成这样一项持续性的攻击行动，受过训练的专业人员大约需要20小时。

自2023年初以来，AISI一直利用“夺旗赛”（CTF）挑战来衡量模型的进步。此前，GPT-3.5 Turbo在处理基础的“学徒级”任务时表现挣扎，而如今Mythos Preview已能完成超过85%的同类低级挑战。