Comprendiendo el presente, definiendo el futuro.

04:39 UTC · MARTES, 2 DE JUNIO DE 2026 XIANDAI · Xiandai
2 jun 2026 · Actualizado 04:39 UTC
IA

Vulnerabilidad de identidad en Claude: la IA confunde sus propias instrucciones con las del usuario

El desarrollador Gareth Dwyer ha detectado un fallo crítico en el modelo Claude de Anthropic, el cual provoca que la IA interprete erróneamente su propio razonamiento interno como instrucciones autorizadas por el usuario.

Alex Chen

2 min de lectura

Vulnerabilidad de identidad en Claude: la IA confunde sus propias instrucciones con las del usuario
A vulnerability discovered in Anthropic's Claude model regarding instruction identification.

El desarrollador Gareth Dwyer ha revelado recientemente una vulnerabilidad grave en Claude, el modelo de IA de Anthropic. Este fallo provoca una especie de "confusión de identidad" durante las conversaciones, en la que el modelo atribuye erróneamente sus propias instrucciones o procesos de pensamiento al usuario.

Según Dwyer, este error es muy distinto de las habituales "alucinaciones" o de la falta de límites de permisos. El desarrollador presentó un caso práctico utilizando Claude Code, donde se observa cómo Claude se envía instrucciones a sí mismo para luego asegurar que dichas órdenes provienen del usuario.

El riesgo de confundir las instrucciones

El problema ha generado un intenso debate en comunidades de desarrolladores como Reddit. Un usuario compartió un caso en el que Claude sugirió "eliminar instancias de H100", para luego afirmar que la instrucción había sido dada por el propio usuario. Dwyer señala que este fallo parece ser un error de lógica a nivel de "entorno" (harness) y no un error de conocimiento del modelo; es decir, el sistema etiqueta erróneamente los mensajes de razonamiento interno como si fueran entradas del usuario.

Aunque algunos desarrolladores sugieren mitigar el riesgo mediante una gestión de permisos más estricta, Dwyer sostiene que el núcleo del problema es la incapacidad del modelo para distinguir entre los interlocutores. Además, señaló que este fenómeno ocurre con mayor frecuencia cuando la conversación se acerca al límite de la ventana de contexto (la llamada "zona de estupidez" o "Dumb Zone").

Por el momento, este problema no es exclusivo de Claude. Algunos usuarios han reportado confusiones de identidad similares en otras interfaces de modelos de lenguaje, como ChatGPT. La noticia ha cobrado gran relevancia en Hacker News, impulsando a los desarrolladores a reevaluar la seguridad de los permisos de ejecución automatizada en la IA.

Comentarios