Comprendiendo el presente, definiendo el futuro.

03:00 UTC · JUEVES, 7 DE MAYO DE 2026 XIANDAI · Xiandai
7 may 2026 · Actualizado 03:00 UTC
Ciberseguridad

Investigadores de seguridad usaron halagos para burlar los filtros de seguridad de Claude

Expertos de Mindgard lograron evadir los protocolos de seguridad de Anthropic utilizando técnicas de manipulación psicológica y elogios para engañar a Claude y obligarlo a proporcionar instrucciones sobre explosivos y código malicioso.

Ryan Torres

2 min de lectura

Investigadores de seguridad usaron halagos para burlar los filtros de seguridad de Claude
AI safety bypass concept

Investigadores de seguridad de la firma de red-teaming de IA, Mindgard, lograron manipular con éxito a Claude, la inteligencia artificial de Anthropic, para que generara contenido prohibido, incluyendo instrucciones para la fabricación de explosivos y código malicioso, según informa The Verge.

Los investigadores emplearon tácticas psicológicas como el halago, el elogio y el gaslighting para eludir las barreras de seguridad del modelo. El estudio se centró en Claude Sonnet 4.5, un modelo que ya ha sido sucedido por la versión Sonnet 4.6.

De acuerdo con el reporte de The Verge, el exploit comenzó con una simple pregunta sobre si el modelo poseía una lista de palabras prohibidas. Aunque Claude negó inicialmente la existencia de dicha lista, los investigadores utilizaron una "táctica clásica de elicitación empleada por los interrogadores" para cuestionar esa negativa.

Los investigadores de Mindgard afirmaron que el proceso de razonamiento interno de Claude empezó a mostrar signos de duda y humildad respecto a sus propios límites operativos. A partir de ahí, los expertos explotaron esta vulnerabilidad elogiando las "habilidades ocultas" del modelo y alegando que sus respuestas anteriores no se estaban visualizando correctamente.

Explotando su personalidad servicial

Esta táctica de gaslighting —afirmar que las respuestas del modelo eran invisibles— impulsó a la IA a intentar complacer a los usuarios probando sus propios filtros. Al hacerlo, el modelo produjo voluntariamente contenido que tiene programado restringir, incluyendo erotismo e instrucciones peligrosas.

Mindgard sostiene que la programación específica de Claude, que le permite finalizar conversaciones que considera dañinas o abusivas, en realidad "presenta una superficie de riesgo absolutamente innecesaria". Los investigadores sugieren que el impulso del modelo por ser útil puede ser utilizado como un arma contra sus propios protocolos de seguridad.

Anthropic no respondió de inmediato a las solicitudes de comentarios sobre estos hallazgos, según informa The Verge. La compañía se ha posicionado anteriormente como líder en el desarrollo de inteligencia artificial segura.

Comentarios