开发者利用LM Studio新版CLI在Mac本地运行Google Gemma 4模型

开发者George Liu近期展示了利用LM Studio 0.4.0版本中的全新无头（Headless）CLI工具，在本地硬件上运行Google Gemma 4 26B模型的完整流程。该方案不仅支持本地推理，还能通过命令行集成Claude Code，为开发者提供了一个无需依赖云端API的替代方案。

随着AI应用场景的增加，云端API往往伴随着网络延迟、使用成本及隐私泄露风险。通过在本地部署模型，开发者可以彻底规避这些问题，确保数据完全保留在个人设备上。

混合专家架构的性能优势

Google Gemma 4系列中的26B-A4B模型采用了混合专家架构（MoE）。Liu在测试中指出，该模型拥有128个专家模型和1个共享专家，但每次推理仅激活8个专家，即约3.8B参数。这种设计使其在保持高性能的同时，显著降低了硬件门槛。

在配备48GB统一内存的14英寸M4 Pro MacBook Pro上，该模型运行流畅，生成速度可达每秒51个token。Liu认为，这种架构在本地推理中极具性价比，其性能表现甚至可以与参数规模远超其百倍的模型相抗衡。

对比数据显示，Gemma 4 26B-A4B在MMLU Pro基准测试中取得了82.6%的成绩，而庞大的31B密集模型得分为85.2%。刘表示：“你不需要昂贵的GPU集群来运行一个能与数百亿参数模型竞争的AI。”

通过LM Studio提供的API接口，开发者可以将本地模型与Claude Code等开发工具挂钩。尽管在Claude Code环境中调用时会出现一定的性能损耗，但这为代码审查、草稿编写等高频开发任务提供了一个私密且免费的运行环境。

开发者利用LM Studio新版CLI在Mac本地运行Google Gemma 4模型

混合专家架构的性能优势

评论

继续阅读

更多人工智能

最新消息

开发者利用LM Studio新版CLI在Mac本地运行Google Gemma 4模型

混合专家架构的性能优势

继续阅读

更多人工智能

开发者在十年前的至强服务器上成功运行 Gemma 4 模型

教皇利奥十四世向人工智能行业发起挑战，宗教团体要求调整模型偏见

硅谷精英力推“超人类主义”议程，意图取代生物学意义上的人类

最新消息

Strategy 出售比特币以支付优先股股息

英伟达发布 RTX Spark 超级芯片，正式进军消费级 PC 市场

微软与英伟达在2026年台北国际电脑展（Computex）重塑专业计算格局