El modelo GPT-5.5 de OpenAI ha demostrado capacidades de ciberseguridad casi idénticas a las del modelo especializado Mythos Preview de Anthropic, según las nuevas evaluaciones realizadas por el Instituto de Seguridad de IA del Reino Unido (AISI, por sus siglas en inglés).
Los hallazgos, reportados por Ars Technica, sugieren que la destreza en hacking de alto nivel que anteriormente se atribuía al modelo de Anthropic (de lanzamiento restringido) podría ser un resultado de las mejoras generales en los modelos de lenguaje, en lugar de un avance tecnológico exclusivo.
Desde 2023, el AISI ha sometido a prueba diversos modelos de IA de vanguardia mediante diferentes desafíos de tipo 'Capture the Flag' (Captura la bandera). Estas pruebas evalúan habilidades específicas que incluyen criptografía, explotación web e ingeniería inversa.
En las tareas de nivel 'Experto', las más complejas, GPT-5.5 alcanzó una tasa de éxito media del 71,4 %. Esta cifra es ligeramente superior al 68,6 % registrado por Mythos Preview, aunque la diferencia se encuentra dentro del margen de error.
En un desafío de alta dificultad que requería la creación de un desensamblador para decodificar un binario en Rust, GPT-5$5 completó la tarea en 10 minutos y 22 segundos. El proceso no requirió asistencia humana y tuvo un coste aproximado de 1,73 dólares en llamadas a la API.
Ataques de red simulados
GPT-5.5 también igualó el rendimiento de Mythos Preview en 'The Last Ones' (TLO), un entorno de pruebas diseñado para simular un ataque de extracción de datos de 32 pasos contra una red corporativa. GPT-5.5 logró el éxito en tres de diez intentos, mientras que Mythos Preview lo consiguió en dos de diez.
Ningún modelo de IA probado anteriormente ha logrado superar esta prueba específica ni una sola vez.
Sin embargo, el modelo no consiguió vulnerar la simulación 'Cooling Tower', que pone a prueba la capacidad de una IA para interrumpir el software de control de una central eléctrica. Este fallo es consistente con el rendimiento de todos los demás modelos de IA evaluados por el instituto hasta la fecha.
Los resultados sugieren que las capacidades de ciberseguridad observadas en el modelo Mythos Preview de Anthropic podrían ser un "subproducto de mejoras más generales" en los modelos de lenguaje de gran tamaño, en lugar de un avance específico para un solo modelo, según indica el informe.