Investigadores afiliados a Anthropic y otras instituciones publicaron un estudio en febrero de 2026 que aborda una preocupación central en la seguridad de la IA: si los sistemas avanzados fallarán al perseguir sistemáticamente objetivos no deseados o si simplemente se convertirán en un "desorden" de acciones incoherentes.
El estudio descompone los errores de los modelos de razonamiento de frontera, como Claude Sonnet 4 y o4-mini, utilizando el marco clásico de sesgo y varianza para cuantificar la incoherencia. La incoherencia se define como la fracción del error total atribuible a la varianza, donde un valor cercano a cero indica desalineación sistemática y un valor cercano a uno sugiere un comportamiento aleatorio o caótico.
Los hallazgos clave indican que cuanto más tiempo dedican los modelos a razonar o ejecutar acciones, más incoherentes se vuelven sus errores, independientemente de la tarea. Esto se observó en evaluaciones como GPQA, SWE-Bench y tareas sintéticas de optimización, sugiriendo que el razonamiento prolongado amplifica la inconsistencia.
La relación entre la inteligencia del modelo y la incoherencia del error es inconsistente; mientras que en tareas sencillas el escalado puede reducir la incoherencia, en tareas muy difíciles el aumento de capacidad no mitiga la falta de coherencia o incluso la incrementa, según el informe.
Un factor que exacerba dramáticamente la incoherencia es el "sobrepensamiento" espontáneo de los modelos, donde el razonamiento natural excede el presupuesto de ejecución, superando el efecto de aumentar deliberadamente los presupuestos de razonamiento a través de configuraciones de API.
Teóricamente, los grandes modelos transformadores son sistemas dinámicos nativos que deben ser entrenados intensivamente para actuar como optimizadores coherentes, una tarea que se vuelve exponencialmente más difícil a medida que aumenta la dimensionalidad del espacio de estados.
El estudio concluye que agregar muestras (ensembling) reduce la varianza y, por lo tanto, la incoherencia de los errores, aunque esta técnica podría ser impráctica para tareas agenticas donde las acciones son irreversibles en el mundo real.
Este trabajo, realizado como parte del primer Programa de Becarios de Anthropic en el verano de 2025, proporciona una base empírica para la teoría del desorden en la desalineación, sugiriendo que la coherencia no es una propiedad garantizada por la mayor capacidad.