开发者在十年前的至强服务器上成功运行 Gemma 4 模型

挑战硬件极限

point.free 的一名开发者通过实际行动证明，现代大语言模型完全可以在老旧的企业级硬件上运行。他成功在 2016 年产的英特尔至强（Xeon）E5-2620 v4 服务器上部署了 Gemma 4 模型。这项于 2026 年 6 月 1 日发布的实验报告，打破了“尖端人工智能必须依赖顶级 GPU”的固有认知。测试所用的服务器拥有 8 核 16 线程，主频为 2.10 GHz，配备 20 MiB 三级缓存。

尽管该服务器拥有 128 GB 的 DDR3 内存，但作者指出，其速度比当前高端笔记本电脑内存慢了 5 到 6 倍。此外，这款至强处理器的性能大约仅为作者笔记本 CPU 的五分之一，且缺乏 AVX-512、AVX-VNNI 和 BF16 等现代指令集。由于系统既没有集成显卡也没有独立显卡，开发者只能完全依赖 CPU 进行推理。

绕过“内存墙”

据 point.free 介绍，Ollama 或标准的 llama-cpp 等常规部署工具无法适配此类硬件。作者观察到，这些工具缺乏针对老旧架构进行性能优化所需的精细配置选项，并指出主流软件可能永远不会支持此类特定模型。该项目面临的主要技术障碍是“内存墙”问题，即每生成一个 token，模型权重从内存传输到 CPU 缓存的物理速度成为了性能瓶颈。

为了规避这些限制，开发者采用了一种定制化方案，将 Gemma 4 的 MTP（多 token 预测）草稿模型与验证器相结合。通过使用投机采样（speculative decoding），系统能够同时生成多个 token。作者称这是“业界为绕过内存带宽限制所发明的最天才的解决方案之一”。他强调，对于技术人员和 Linux 爱好者来说，这个项目证明了通过对指令集和内存分配进行精细化控制，老旧硬件在当前的 AI 浪潮中依然可以发挥余热。作者还提到，与以往侧重宏观层面的文章不同，这次的技术深度解析旨在让熟悉计算机组装和 LLM 使用的用户都能尽可能清晰地理解其中的奥秘。

开发者在十年前的至强服务器上成功运行 Gemma 4 模型

挑战硬件极限

绕过“内存墙”

评论

继续阅读

更多人工智能

最新消息

开发者在十年前的至强服务器上成功运行 Gemma 4 模型

挑战硬件极限

绕过“内存墙”

继续阅读

更多人工智能

教皇利奥十四世向人工智能行业发起挑战，宗教团体要求调整模型偏见

硅谷精英力推“超人类主义”议程，意图取代生物学意义上的人类

科技行业领袖直面日益高涨的 AI 反弹浪潮

最新消息

Strategy 出售比特币以支付优先股股息

英伟达发布 RTX Spark 超级芯片，正式进军消费级 PC 市场

微软与英伟达在2026年台北国际电脑展（Computex）重塑专业计算格局