AMD人工智能部门总监Stella Laurenzo近日在GitHub上提交了一份问题报告,直指Anthropic旗下的AI编程工具Claude Code性能显著恶化。Laurenzo表示,自今年2月以来,该模型在处理复杂任务时表现出明显的“懒惰”和“愚笨”,导致工程团队不得不将其弃用。
Laurenzo团队通过分析6,852次Claude Code会话,涵盖了超过23万次工具调用,得出了这一结论。数据显示,自3月8日Claude Code 2.1.69版本发布后,模型出现停止思考、规避任务和跳过关键步骤的频率激增。在更新前,此类“懒惰”行为几乎为零,而更新后平均每天发生10次。
思考深度不足引发工程隐患
该报告指出,模型在修改代码前读取文件的次数从平均6.6次锐减至2次。Laurenzo认为,这与版本更新中引入的“思考内容脱敏”(thinking content redaction)机制直接相关。该机制默认隐藏了AI的思考过程,导致用户无法获知模型的推理逻辑。
“当思考变得浅显,模型往往选择最廉价的路径:不阅读代码直接修改,任务未完成就提前终止,并倾向于选择最简单的修复方案而非正确的方案。”Laurenzo在报告中写道。她强调,团队内部的所有资深工程师都报告了类似的负面体验。
为了解决这一问题,Laurenzo向Anthropic提出了两项具体诉求:一是要求平台显示每次请求的“思考令牌”占用量,以方便用户监控推理深度;二是建议设立针对高阶工程任务的“最高思考层级”付费订阅,以确保复杂工作流的计算资源。
目前,Laurenzo的团队已更换至其他提供更稳定表现的AI工具。她对Anthropic发出警告称,尽管Claude此前在推理能力上占据领先地位,但随着市场竞争加剧,如果Anthropic无法修复这些性能问题,将面临失去核心开发者用户的风险。
截至发稿时,Anthropic官方尚未对此评论做出回应。