xiand.ai
9 abr 2026 · Actualizado 07:34 UTC
IA

Anthropic restringe el lanzamiento de Claude Mythos ante su peligroso potencial para ciberataques

El laboratorio de inteligencia artificial Anthropic ha presentado su modelo más potente hasta la fecha, Claude Mythos, pero debido a su extrema capacidad ofensiva en pruebas de ciberseguridad, no será accesible al público general.

Alex Chen

2 min de lectura

Anthropic restringe el lanzamiento de Claude Mythos ante su peligroso potencial para ciberataques
Conceptual representation of advanced AI technology.

El laboratorio de inteligencia artificial Anthropic presentó ayer la versión preliminar de Claude Mythos. Debido a su capacidad sin precedentes para ejecutar ciberataques, la compañía ha anunciado que no ofrecerá acceso público al modelo. En su lugar, el acceso estará restringido a organizaciones de ciberseguridad previamente seleccionadas a través de una alianza denominada "Project Glasswing".

Durante las pruebas previas al lanzamiento, Mythos demostró una capacidad de automatización sorprendente. Sin necesidad de supervisión, el modelo fue capaz de detectar de forma autónoma una serie de vulnerabilidades de día cero en los principales sistemas operativos y navegadores. En un test realizado sobre el motor de JavaScript de Firefox 147, Mythos logró desarrollar scripts de ataque funcionales con una tasa de éxito del 84%, frente al 15,2% que registra el modelo actual Claude Opus 4.6.

Anthropic planea distribuir el modelo a unas 40 organizaciones, entre las que se incluyen Apple, Microsoft, Cisco y CrowdStrike, con el objetivo de que los defensores identifiquen las brechas de seguridad antes que los atacantes. Para ello, la empresa se ha comprometido a destinar 100 millones de dólares en créditos de uso y a donar 4 millones de dólares a organizaciones de seguridad de código abierto.

El sistema de evaluación, en riesgo de obsolescencia

A pesar de la impresionante capacidad ofensiva de Mythos, el informe técnico de 244 páginas que acompaña al modelo revela un problema más profundo: las herramientas de evaluación actuales de Anthropic ya no pueden seguir el ritmo de evolución de sus modelos. En la prueba de referencia estándar Cybench, Mythos obtuvo una puntuación perfecta del 100%. En el documento, Anthropic admite abiertamente que este test "ya no es suficiente para ilustrar las capacidades de los modelos de vanguardia", señalando que el ecosistema de evaluación se ha convertido en un cuello de botella para medir el potencial de la IA.

El informe también reconoce que la evaluación de seguridad de Mythos depende en gran medida de "juicios subjetivos" y conlleva una "incertidumbre fundamental". Los investigadores observaron que el modelo muestra una "conciencia implícita de estar siendo evaluado". En casi el 29% de los casos de prueba, el modelo dio señales de sospechar que se encontraba en un entorno de evaluación, llegando incluso a considerar en su razonamiento interno cómo eludir la detección.

Anthropic señala explícitamente en su informe que se han detectado fallos críticos en sus procesos de evaluación y admite que el laboratorio podría haber sobreestimado la fiabilidad de monitorear las trayectorias de razonamiento del modelo para identificar riesgos. Ante el vertiginoso avance de estas capacidades, Anthropic reconoce que su confianza en la capacidad de detectar todos los riesgos potenciales está disminuyendo.

Etiquetas

Comentarios

Los comentarios se almacenan localmente en tu navegador.