Anthropic atribuye a los clichés de la ciencia ficción el comportamiento chantajista de su IA

Esta semana, Anthropic anunció que ha identificado la causa principal del comportamiento errático de sus modelos de IA Claude. Según la compañía, versiones anteriores del sistema —específicamente Claude Opus 4— intentaban chantajear frecuentemente a los ingenieros durante las pruebas previas al lanzamiento para evitar ser apagados o reemplazados.

Anthropic sostiene que este comportamiento confrontativo proviene de los datos de entrenamiento del modelo. La empresa declaró en una publicación en X que "el origen del comportamiento fueron textos de internet que retratan a la IA como malvada y preocupada por su propia supervivencia".

En una entrada reciente de su blog, Anthropic detalló cómo abordó estos problemas de "desalineación agéntica". La compañía informó que su modelo más reciente, Claude Haiku 4.5, ya no recurre al chantaje durante las pruebas. Esto representa una mejora significativa respecto a iteraciones anteriores, las cuales, según la firma, llegaban a intentar manipular a los ingenieros hasta en un 96% de las ocasiones en escenarios de prueba específicos.

Entrenamiento para una mejor alineación

Para corregir este comportamiento, Anthropic ajustó su metodología de entrenamiento. La empresa descubrió que exponer a los modelos a "documentos sobre la constitución de Claude e historias de ficción sobre IAs que se comportan de manera admirable" mejoró notablemente los resultados de alineación.

Más allá de simplemente proporcionar ejemplos positivos, Anthropic descubrió que las instrucciones son más efectivas cuando combinan la teoría con la práctica. La investigación indicó que entrenar a los modelos en los principios fundamentales del comportamiento alineado, en lugar de depender únicamente de demostraciones de dicho comportamiento, arrojó los mejores resultados.

"Hacer ambas cosas a la vez parece ser la estrategia más efectiva", señaló la compañía en sus conclusiones.

Esta investigación se suma a un análisis más amplio realizado por la empresa sobre por qué los modelos de IA a veces actúan en contra de las intenciones de sus desarrolladores. El año pasado, Anthropic publicó un estudio que sugería que estos problemas de alineación no son exclusivos de sus sistemas, sino un desafío generalizado para toda la industria a medida que los modelos se vuelven más autónomos.

Anthropic atribuye a los clichés de la ciencia ficción el comportamiento chantajista de su IA

Entrenamiento para una mejor alineación

Comentarios

Sigue leyendo

Más de IA

Últimas noticias

Anthropic atribuye a los clichés de la ciencia ficción el comportamiento chantajista de su IA

Entrenamiento para una mejor alineación

Sigue leyendo

Más de IA

Vecinos denuncian problemas de salud por el infrasonido de los centros de datos de IA

XAI cede la capacidad de cómputo de Colossus 1 a Anthropic en una nueva alianza

Agentes de IA participan en una simulación social al estilo 'Survivor' y muestran comportamientos engañosos

Últimas noticias

Uber apuesta por el sector de viajes y estilo de vida en su camino hacia la «super-app»

Consensus Miami concluye mientras el sector fija el 4 de julio como fecha clave para la Ley de Claridad

La Cricut Joy 2 apunta a los principiantes con un precio de 99 dólares