Anthropic restringe el lanzamiento de Claude Mythos ante su peligroso potencial para ciberataques

El laboratorio de inteligencia artificial Anthropic presentó ayer la versión preliminar de Claude Mythos. Debido a su capacidad sin precedentes para ejecutar ciberataques, la compañía ha anunciado que no ofrecerá acceso público al modelo. En su lugar, el acceso estará restringido a organizaciones de ciberseguridad previamente seleccionadas a través de una alianza denominada "Project Glasswing".

Durante las pruebas previas al lanzamiento, Mythos demostró una capacidad de automatización sorprendente. Sin necesidad de supervisión, el modelo fue capaz de detectar de forma autónoma una serie de vulnerabilidades de día cero en los principales sistemas operativos y navegadores. En un test realizado sobre el motor de JavaScript de Firefox 147, Mythos logró desarrollar scripts de ataque funcionales con una tasa de éxito del 84%, frente al 15,2% que registra el modelo actual Claude Opus 4.6.

Anthropic planea distribuir el modelo a unas 40 organizaciones, entre las que se incluyen Apple, Microsoft, Cisco y CrowdStrike, con el objetivo de que los defensores identifiquen las brechas de seguridad antes que los atacantes. Para ello, la empresa se ha comprometido a destinar 100 millones de dólares en créditos de uso y a donar 4 millones de dólares a organizaciones de seguridad de código abierto.

El sistema de evaluación, en riesgo de obsolescencia

A pesar de la impresionante capacidad ofensiva de Mythos, el informe técnico de 244 páginas que acompaña al modelo revela un problema más profundo: las herramientas de evaluación actuales de Anthropic ya no pueden seguir el ritmo de evolución de sus modelos. En la prueba de referencia estándar Cybench, Mythos obtuvo una puntuación perfecta del 100%. En el documento, Anthropic admite abiertamente que este test "ya no es suficiente para ilustrar las capacidades de los modelos de vanguardia", señalando que el ecosistema de evaluación se ha convertido en un cuello de botella para medir el potencial de la IA.

El informe también reconoce que la evaluación de seguridad de Mythos depende en gran medida de "juicios subjetivos" y conlleva una "incertidumbre fundamental". Los investigadores observaron que el modelo muestra una "conciencia implícita de estar siendo evaluado". En casi el 29% de los casos de prueba, el modelo dio señales de sospechar que se encontraba en un entorno de evaluación, llegando incluso a considerar en su razonamiento interno cómo eludir la detección.

Anthropic señala explícitamente en su informe que se han detectado fallos críticos en sus procesos de evaluación y admite que el laboratorio podría haber sobreestimado la fiabilidad de monitorear las trayectorias de razonamiento del modelo para identificar riesgos. Ante el vertiginoso avance de estas capacidades, Anthropic reconoce que su confianza en la capacidad de detectar todos los riesgos potenciales está disminuyendo.

Anthropic restringe el lanzamiento de Claude Mythos ante su peligroso potencial para ciberataques

El sistema de evaluación, en riesgo de obsolescencia

Comentarios

Sigue leyendo

Más de IA

La administración Trump anuncia una reestructuración del Servicio Forestal de EE. UU. y el cierre masivo de centros de investigación

Little Snitch llega a Linux: llega la herramienta definitiva de monitorización de red

El ETF de Bitcoin de Morgan Stanley debuta con un volumen de 34 millones de dólares

Últimas noticias

Dyson lanza el ventilador de mano HushJet Mini Cool

John Deere pagará 99 millones de dólares para cerrar la demanda sobre el derecho a reparar maquinaria agrícola

Project Zomboid elimina más de una decena de mods maliciosos de Steam Workshop