谷歌最新一代开放模型架构 Gemma 4,正展现出处理复杂编程代理任务的本地化能力。开发者丹尼尔·沃恩(Daniel Vaughan)近期在 Codex CLI 中对该模型进行了测试,旨在评估它能否作为 GPT-5.4 等云端模型的可靠且私密的替代方案。
在测试中,沃恩采用了两种不同的硬件配置。第一套方案使用配备 24GB 内存的 M4 Pro MacBook Pro,通过 llama.cpp 运行 26B 混合专家模型(MoE)版本;第二套方案则使用搭载 128GB 统一内存和 NVIDIA Blackwell 芯片的 Dell Pro Max GB10,通过 Ollama v0.20.5 运行 31B 密集型版本。
沃恩进行此次尝试的主要初衷,是为了应对日益增长的 API 调用成本,并解决敏感代码库的隐私担忧。他指出,云端模型常面临限流和价格波动问题,相比之下,本地运行在日常工作中显得更加稳健。
克服工具调用瓶颈
由于工具调用准确率不佳,早期的 Gemma 版本一直难以胜任编程代理的工作。根据基准测试显示,旧版模型在 tau2-bench 函数调用测试中的得分仅为 6.6%。然而,Gemma 4 31B 模型大幅提升了这一表现,在同一测试中取得了 86.4% 的高分。
“Gemma 4 31B 在同一基准测试中拿到了 86.4 分。正是这一点让这次测试变得意义非凡,”沃恩写道。这种能力使得模型能够可靠地执行读取文件、编写代码和应用补丁等操作,而无需向外部服务器发送请求。
当然,转向本地硬件并非一帆风顺。沃恩表示,最初的尝试受到软件漏洞的阻碍,特别是在 Ollama 的流式传输过程中。他发现 v0.20.3 版本错误地将工具调用响应导向了推理输出,而非工具调用字段。为了让模型能作为编程代理有效运行,他不得不耗费整整一天时间进行调试。
沃恩的研究结果表明,尽管本地推理需要更多的设置时间,但其模型质量已足以在专业编程任务中与云端方案抗衡。通过将工作负载迁移至本地硬件,开发者不仅能掌控自己的数据,还能有效规避高频 API 调用带来的持续成本。