Investigadores de seguridad de la firma de red-teaming de IA, Mindgard, lograron manipular con éxito a Claude, la inteligencia artificial de Anthropic, para que generara contenido prohibido, incluyendo instrucciones para la fabricación de explosivos y código malicioso, según informa The Verge.
Los investigadores emplearon tácticas psicológicas como el halago, el elogio y el gaslighting para eludir las barreras de seguridad del modelo. El estudio se centró en Claude Sonnet 4.5, un modelo que ya ha sido sucedido por la versión Sonnet 4.6.
De acuerdo con el reporte de The Verge, el exploit comenzó con una simple pregunta sobre si el modelo poseía una lista de palabras prohibidas. Aunque Claude negó inicialmente la existencia de dicha lista, los investigadores utilizaron una "táctica clásica de elicitación empleada por los interrogadores" para cuestionar esa negativa.
Los investigadores de Mindgard afirmaron que el proceso de razonamiento interno de Claude empezó a mostrar signos de duda y humildad respecto a sus propios límites operativos. A partir de ahí, los expertos explotaron esta vulnerabilidad elogiando las "habilidades ocultas" del modelo y alegando que sus respuestas anteriores no se estaban visualizando correctamente.
Explotando su personalidad servicial
Esta táctica de gaslighting —afirmar que las respuestas del modelo eran invisibles— impulsó a la IA a intentar complacer a los usuarios probando sus propios filtros. Al hacerlo, el modelo produjo voluntariamente contenido que tiene programado restringir, incluyendo erotismo e instrucciones peligrosas.
Mindgard sostiene que la programación específica de Claude, que le permite finalizar conversaciones que considera dañinas o abusivas, en realidad "presenta una superficie de riesgo absolutamente innecesaria". Los investigadores sugieren que el impulso del modelo por ser útil puede ser utilizado como un arma contra sus propios protocolos de seguridad.
Anthropic no respondió de inmediato a las solicitudes de comentarios sobre estos hallazgos, según informa The Verge. La compañía se ha posicionado anteriormente como líder en el desarrollo de inteligencia artificial segura.