Stella Laurenzo, directora del departamento de IA de AMD, presentó recientemente un informe de errores en GitHub donde denuncia un deterioro significativo en el rendimiento de Claude Code, la herramienta de programación de Anthropic. Según Laurenzo, desde febrero de este año, el modelo ha mostrado una marcada "pereza" y una falta de agudeza al manejar tareas complejas, lo que ha obligado a su equipo de ingeniería a dejar de utilizarlo.
El equipo de Laurenzo llegó a esta conclusión tras analizar 6,852 sesiones de Claude Code, que abarcaron más de 230,000 llamadas a herramientas. Los datos revelan que, tras el lanzamiento de la versión 2.1.69 de Claude Code el 8 de marzo, se disparó la frecuencia con la que el modelo deja de razonar, evita tareas y omite pasos críticos. Antes de dicha actualización, estos comportamientos "perezosos" eran prácticamente inexistentes, mientras que ahora ocurren una media de 10 veces al día.
La falta de profundidad en el razonamiento genera riesgos técnicos
El informe señala que el número de veces que el modelo lee archivos antes de modificar el código se ha desplomado de un promedio de 6.6 a solo 2. Laurenzo sostiene que esto está directamente relacionado con la "redacción del contenido de pensamiento" (thinking content redaction) introducida en la actualización. Este mecanismo oculta por defecto el proceso de razonamiento de la IA, impidiendo que el usuario conozca la lógica detrás de sus decisiones.
"Cuando el razonamiento se vuelve superficial, el modelo tiende a elegir el camino más fácil: modificar el código sin leerlo, terminar la tarea antes de completarla y optar por la solución más sencilla en lugar de la correcta", escribió Laurenzo en el informe. La directiva enfatizó que todos los ingenieros senior de su equipo han reportado experiencias negativas similares.
Para solucionar este problema, Laurenzo ha presentado dos peticiones concretas a Anthropic: primero, que la plataforma muestre el consumo de "tokens de razonamiento" en cada solicitud para que los usuarios puedan monitorear la profundidad del análisis; y segundo, que se cree una suscripción de nivel superior orientada a tareas de ingeniería avanzadas, que garantice mayores recursos computacionales para flujos de trabajo complejos.
Actualmente, el equipo de Laurenzo ha migrado a otras herramientas de IA que ofrecen un rendimiento más estable. La directiva advirtió a Anthropic que, aunque Claude ha liderado históricamente en capacidades de razonamiento, la creciente competencia en el mercado pone a la empresa en riesgo de perder a sus usuarios desarrolladores más críticos si no logra corregir estos problemas de rendimiento.
Hasta el momento de la publicación de este artículo, Anthropic no ha emitido comentarios al respecto.