El Instituto de Seguridad de IA (AISI, por sus siglas en inglés) del gobierno del Reino Unido ha publicado una evaluación inicial del modelo Mythos Preview de Anthropic, aportando una verificación independiente de sus capacidades en materia de ciberseguridad.
Si bien el rendimiento del modelo en tareas de seguridad individuales es similar al de otros modelos de vanguardia recientes, los hallazgos destacan una fortaleza específica en la ejecución de secuencias de ataque de múltiples pasos.
Recientemente, Anthropic limitó el lanzamiento inicial de Mythos Preview a un grupo reducido de socios estratégicos de la industria. La compañía había descrito previamente al modelo como "sorprendentemente capaz en tareas de seguridad informática".
Encadenamiento de ataques avanzados
Las pruebas del AISI muestran que Mythos no supera significativamente a otros modelos recientes cuando se trata de realizar tareas de ciberseguridad aisladas. Competidores como GPT-5.4, Opus 4.6 y Codex 5.3 mostraron resultados comparables, con un margen de precisión de entre el 5 y el 10 por ciento en diversos niveles de dificultad.
Sin embargo, Mythos demostró un potencial superior en un rango de pruebas especializado conocido como "The Last Ones" (TLO). Esta prueba simula un ataque de extracción de datos de 32 pasos a través de una red corporativa.
Esta evaluación específica requiere que el modelo encadene decenas de pasos a través de múltiples hosts y segmentos de red. El AISI estima que una operación de esta magnitud y duración le tomaría a un profesional humano capacitado aproximadamente 20 horas de trabajo.
Desde principios de 2023, el AISI ha utilizado desafíos tipo "Capture the Flag" (CTF) para medir el progreso de los modelos. Mientras que GPT-3.5 Turbo presentaba dificultades con las tareas básicas de nivel "Apprentice", Mythos Preview es capaz de completar ahora más del 85 por ciento de esos mismos desafíos de bajo nivel.