xiand.ai
人工智能

Marginlab推出Claude Code Opus 4.6性能追踪器以监测模型退化

独立第三方机构Marginlab.ai已部署Claude Code Opus 4.6的性能追踪器,旨在实时监测其在软件工程(SWE)任务上的性能是否出现统计学上的显著退化。该工具每日运行评估,以期在Anthropic发布模型降级后事后分析的背景下,提供更前瞻性的性能透明度。 追踪器目前正在收集基线数据,一旦基线建立,将开始提供性能差异数据,并计划在检测到显著性能下降时通过电子邮件通知订阅用户。

La Era

Marginlab推出Claude Code Opus 4.6性能追踪器以监测模型退化
Marginlab推出Claude Code Opus 4.6性能追踪器以监测模型退化

独立研究机构Marginlab.ai近日推出了Claude Code Opus 4.6的性能追踪器,旨在检测该模型在软件工程(SWE)任务上的性能是否出现统计学上显著的性能退化情况。

此举的背景是Anthropic在2025年9月发布了一份关于Claude模型性能退化的事后分析报告,Marginlab希望建立一个资源来主动监测未来可能出现的此类性能漂移。

该追踪器每日对Claude Code的最新CLI版本进行评估,测试集选用了SWE-Bench-Pro中经过筛选且抗污染的子集,确保评估的真实性。

评估过程直接在Claude Code环境中运行,不使用定制的测试框架,这意味着结果反映了实际用户的体验,可同时捕获模型和测试框架的变化影响。

每日评估基于N=50个测试实例,结果被建模为伯努利随机变量,系统随后计算每日、每周和每月的通过率及其95%的置信区间。

Marginlab强调其作为一个独立第三方机构运作,与前沿模型提供商Anthropic并无关联,致力于提供客观的性能监测数据。

通过聚合每周和每月的测试结果,该工具能够提供更可靠的性能估计,并将在任何时间范围内检测到统计学显著差异时发出警报。

评论

评论存储在您的浏览器本地。