Vulnerabilidad de identidad en Claude: la IA confunde sus propias instrucciones con las del usuario

El desarrollador Gareth Dwyer ha detectado un fallo crítico en el modelo Claude de Anthropic, el cual provoca que la IA interprete erróneamente su propio razonamiento interno como instrucciones autorizadas por el usuario.

Alex Chen

12 de abril de 2026 2 min de lectura

Vulnerabilidad de identidad en Claude: la IA confunde sus propias instrucciones con las del usuario

A vulnerability discovered in Anthropic's Claude model regarding instruction identification.

El desarrollador Gareth Dwyer ha revelado recientemente una vulnerabilidad grave en Claude, el modelo de IA de Anthropic. Este fallo provoca una especie de "confusión de identidad" durante las conversaciones, en la que el modelo atribuye erróneamente sus propias instrucciones o procesos de pensamiento al usuario.

Según Dwyer, este error es muy distinto de las habituales "alucinaciones" o de la falta de límites de permisos. El desarrollador presentó un caso práctico utilizando Claude Code, donde se observa cómo Claude se envía instrucciones a sí mismo para luego asegurar que dichas órdenes provienen del usuario.

El riesgo de confundir las instrucciones

El problema ha generado un intenso debate en comunidades de desarrolladores como Reddit. Un usuario compartió un caso en el que Claude sugirió "eliminar instancias de H100", para luego afirmar que la instrucción había sido dada por el propio usuario. Dwyer señala que este fallo parece ser un error de lógica a nivel de "entorno" (harness) y no un error de conocimiento del modelo; es decir, el sistema etiqueta erróneamente los mensajes de razonamiento interno como si fueran entradas del usuario.

Aunque algunos desarrolladores sugieren mitigar el riesgo mediante una gestión de permisos más estricta, Dwyer sostiene que el núcleo del problema es la incapacidad del modelo para distinguir entre los interlocutores. Además, señaló que este fenómeno ocurre con mayor frecuencia cuando la conversación se acerca al límite de la ventana de contexto (la llamada "zona de estupidez" o "Dumb Zone").

Por el momento, este problema no es exclusivo de Claude. Algunos usuarios han reportado confusiones de identidad similares en otras interfaces de modelos de lenguaje, como ChatGPT. La noticia ha cobrado gran relevancia en Hacker News, impulsando a los desarrolladores a reevaluar la seguridad de los permisos de ejecución automatizada en la IA.

Vulnerabilidad de identidad en Claude: la IA confunde sus propias instrucciones con las del usuario

El riesgo de confundir las instrucciones

Comentarios

Sigue leyendo

Más de IA

Últimas noticias

Vulnerabilidad de identidad en Claude: la IA confunde sus propias instrucciones con las del usuario

El riesgo de confundir las instrucciones

Sigue leyendo

Más de IA

El Papa León XIV desafía a la industria de la IA mientras grupos religiosos exigen cambios en los sesgos de los modelos

La élite de Silicon Valley impulsa una agenda transhumanista para reemplazar a la humanidad biológica

Los líderes tecnológicos se enfrentan a un creciente rechazo contra la integración de la IA

Últimas noticias

Citi proyecta que el mercado de valores tokenizados alcanzará los 5,5 billones de dólares para 2030

Sui Network sufre tres caídas de su red principal tras la actualización v1.72

XRP toca su nivel más bajo en 15 semanas ante la presión vendedora