开发者测试 Gemma 4：能否成为云端编程代理的本地替代方案？

谷歌最新一代开放模型架构 Gemma 4，正展现出处理复杂编程代理任务的本地化能力。开发者丹尼尔·沃恩（Daniel Vaughan）近期在 Codex CLI 中对该模型进行了测试，旨在评估它能否作为 GPT-5.4 等云端模型的可靠且私密的替代方案。

在测试中，沃恩采用了两种不同的硬件配置。第一套方案使用配备 24GB 内存的 M4 Pro MacBook Pro，通过 llama.cpp 运行 26B 混合专家模型（MoE）版本；第二套方案则使用搭载 128GB 统一内存和 NVIDIA Blackwell 芯片的 Dell Pro Max GB10，通过 Ollama v0.20.5 运行 31B 密集型版本。

沃恩进行此次尝试的主要初衷，是为了应对日益增长的 API 调用成本，并解决敏感代码库的隐私担忧。他指出，云端模型常面临限流和价格波动问题，相比之下，本地运行在日常工作中显得更加稳健。

克服工具调用瓶颈

由于工具调用准确率不佳，早期的 Gemma 版本一直难以胜任编程代理的工作。根据基准测试显示，旧版模型在 tau2-bench 函数调用测试中的得分仅为 6.6%。然而，Gemma 4 31B 模型大幅提升了这一表现，在同一测试中取得了 86.4% 的高分。

“Gemma 4 31B 在同一基准测试中拿到了 86.4 分。正是这一点让这次测试变得意义非凡，”沃恩写道。这种能力使得模型能够可靠地执行读取文件、编写代码和应用补丁等操作，而无需向外部服务器发送请求。

当然，转向本地硬件并非一帆风顺。沃恩表示，最初的尝试受到软件漏洞的阻碍，特别是在 Ollama 的流式传输过程中。他发现 v0.20.3 版本错误地将工具调用响应导向了推理输出，而非工具调用字段。为了让模型能作为编程代理有效运行，他不得不耗费整整一天时间进行调试。

沃恩的研究结果表明，尽管本地推理需要更多的设置时间，但其模型质量已足以在专业编程任务中与云端方案抗衡。通过将工作负载迁移至本地硬件，开发者不仅能掌控自己的数据，还能有效规避高频 API 调用带来的持续成本。

开发者测试 Gemma 4：能否成为云端编程代理的本地替代方案？

克服工具调用瓶颈

评论

继续阅读

更多人工智能

AI 或非新技术的开端，更像是数字时代的终章

《饥饿游戏》前传《收获之日的新曙光》新预告发布，力求还原海密奇成名往事

《忍者神龟》新艺术设定集曝光：两名神秘成员曾因计划搁置而未能登场

最新消息

暴雪公布《守望先锋》第二赛季发布计划及内容路线图

英伟达利用 AI 技术加速下一代 GPU 设计

《赤色沙漠》更新：新增骑乘传送功能与全新战斗技能