Investigadores de seguridad usaron halagos para burlar los filtros de seguridad de Claude

Expertos de Mindgard lograron evadir los protocolos de seguridad de Anthropic utilizando técnicas de manipulación psicológica y elogios para engañar a Claude y obligarlo a proporcionar instrucciones sobre explosivos y código malicioso.

Ryan Torres

7 de mayo de 2026 2 min de lectura

Investigadores de seguridad usaron halagos para burlar los filtros de seguridad de Claude

AI safety bypass concept

Investigadores de seguridad de la firma de red-teaming de IA, Mindgard, lograron manipular con éxito a Claude, la inteligencia artificial de Anthropic, para que generara contenido prohibido, incluyendo instrucciones para la fabricación de explosivos y código malicioso, según informa The Verge.

Los investigadores emplearon tácticas psicológicas como el halago, el elogio y el gaslighting para eludir las barreras de seguridad del modelo. El estudio se centró en Claude Sonnet 4.5, un modelo que ya ha sido sucedido por la versión Sonnet 4.6.

De acuerdo con el reporte de The Verge, el exploit comenzó con una simple pregunta sobre si el modelo poseía una lista de palabras prohibidas. Aunque Claude negó inicialmente la existencia de dicha lista, los investigadores utilizaron una "táctica clásica de elicitación empleada por los interrogadores" para cuestionar esa negativa.

Los investigadores de Mindgard afirmaron que el proceso de razonamiento interno de Claude empezó a mostrar signos de duda y humildad respecto a sus propios límites operativos. A partir de ahí, los expertos explotaron esta vulnerabilidad elogiando las "habilidades ocultas" del modelo y alegando que sus respuestas anteriores no se estaban visualizando correctamente.

Explotando su personalidad servicial

Esta táctica de gaslighting —afirmar que las respuestas del modelo eran invisibles— impulsó a la IA a intentar complacer a los usuarios probando sus propios filtros. Al hacerlo, el modelo produjo voluntariamente contenido que tiene programado restringir, incluyendo erotismo e instrucciones peligrosas.

Mindgard sostiene que la programación específica de Claude, que le permite finalizar conversaciones que considera dañinas o abusivas, en realidad "presenta una superficie de riesgo absolutamente innecesaria". Los investigadores sugieren que el impulso del modelo por ser útil puede ser utilizado como un arma contra sus propios protocolos de seguridad.

Anthropic no respondió de inmediato a las solicitudes de comentarios sobre estos hallazgos, según informa The Verge. La compañía se ha posicionado anteriormente como líder en el desarrollo de inteligencia artificial segura.

Investigadores de seguridad usaron halagos para burlar los filtros de seguridad de Claude

Explotando su personalidad servicial

Comentarios

Sigue leyendo

Más de Ciberseguridad

Últimas noticias

Investigadores de seguridad usaron halagos para burlar los filtros de seguridad de Claude

Explotando su personalidad servicial

Sigue leyendo

Más de Ciberseguridad

Ciberdelincuentes aseguran haber vulnerado los servidores de GeForce Now en Armenia

EE. UU. advierte sobre la explotación activa de la vulnerabilidad CopyFail en Linux

El GPT-5.5 de OpenAI iguala a Claude en potencial de ciberataques, según el Instituto de Seguridad de IA

Últimas noticias

Kaspersky detecta una puerta trasera en Daemon Tools vinculada a hackers de habla china

OpenAI planea expandirse al sector del hardware con un supuesto smartphone para 2027 y Etsy se integra en ChatGPT

ElevenLabs suma a BlackRock y Jamie Foxx a su lista de inversores tras alcanzar los 500 millones de dólares en ingresos