独立研究机构Marginlab.ai近日推出了Claude Code Opus 4.6的性能追踪器,旨在检测该模型在软件工程(SWE)任务上的性能是否出现统计学上显著的性能退化情况。
此举的背景是Anthropic在2025年9月发布了一份关于Claude模型性能退化的事后分析报告,Marginlab希望建立一个资源来主动监测未来可能出现的此类性能漂移。
该追踪器每日对Claude Code的最新CLI版本进行评估,测试集选用了SWE-Bench-Pro中经过筛选且抗污染的子集,确保评估的真实性。
评估过程直接在Claude Code环境中运行,不使用定制的测试框架,这意味着结果反映了实际用户的体验,可同时捕获模型和测试框架的变化影响。
每日评估基于N=50个测试实例,结果被建模为伯努利随机变量,系统随后计算每日、每周和每月的通过率及其95%的置信区间。
Marginlab强调其作为一个独立第三方机构运作,与前沿模型提供商Anthropic并无关联,致力于提供客观的性能监测数据。
通过聚合每周和每月的测试结果,该工具能够提供更可靠的性能估计,并将在任何时间范围内检测到统计学显著差异时发出警报。