Z.ai于4月7日正式发布了其最新旗舰模型GLM-5.1。该模型专为代理工程(agentic engineering)设计,在编码能力上较前代GLM-5型号实现了大幅跨越,并在SWE-Bench Pro等多项基准测试中刷新了行业最高纪录。
在软件工程领域,GLM-5.1的表现尤为突出。根据Z.ai公布的数据,该模型在SWE-Bench Pro基准测试中获得了58.4分,不仅超越了GLM-5的55.1分,也领先于GPT-5.4与Gemini 3.1 Pro。与以往模型在任务初期往往迅速陷入性能平原不同,GLM-5.1展示了更强的长程任务处理能力。
解决长程优化难题
Z.ai研发团队指出,传统模型在处理复杂编码任务时,往往在初期应用熟悉技术后便不再提升。相比之下,GLM-5.1通过反复迭代推理与策略修正,能够在数百轮次和数千次工具调用中持续优化结果。
在向量数据库优化实验中,研究人员观察到GLM-5.1在超过600次迭代中持续改进。模型不仅完成了代码编写与测试,更自主识别了性能瓶颈,进行了包括从全表扫描到IVF聚类探测、以及引入双阶段流水线在内的多次结构性调整。最终,该模型将性能提升至21.5k QPS,达到了单次50轮次限制下最佳结果的6倍。
除了软件工程,GLM-5.1在机器学习领域的KernelBench测试中也表现出类似的持续进化能力。通过自主分析基准测试日志,模型能够识别并修复系统级瓶颈,实现了比传统编译优化工具更高的性能增益。
目前,GLM-5.1已在GitHub及HuggingFace平台同步上线。Z.ai表示,随着任务时间的延长,GLM-5.1的处理效果呈现出明显的递增趋势,这标志着人工智能在复杂、长周期工程化应用中迈出了关键一步。