挑战硬件极限
point.free 的一名开发者通过实际行动证明,现代大语言模型完全可以在老旧的企业级硬件上运行。他成功在 2016 年产的英特尔至强(Xeon)E5-2620 v4 服务器上部署了 Gemma 4 模型。这项于 2026 年 6 月 1 日发布的实验报告,打破了“尖端人工智能必须依赖顶级 GPU”的固有认知。测试所用的服务器拥有 8 核 16 线程,主频为 2.10 GHz,配备 20 MiB 三级缓存。
尽管该服务器拥有 128 GB 的 DDR3 内存,但作者指出,其速度比当前高端笔记本电脑内存慢了 5 到 6 倍。此外,这款至强处理器的性能大约仅为作者笔记本 CPU 的五分之一,且缺乏 AVX-512、AVX-VNNI 和 BF16 等现代指令集。由于系统既没有集成显卡也没有独立显卡,开发者只能完全依赖 CPU 进行推理。
绕过“内存墙”
据 point.free 介绍,Ollama 或标准的 llama-cpp 等常规部署工具无法适配此类硬件。作者观察到,这些工具缺乏针对老旧架构进行性能优化所需的精细配置选项,并指出主流软件可能永远不会支持此类特定模型。该项目面临的主要技术障碍是“内存墙”问题,即每生成一个 token,模型权重从内存传输到 CPU 缓存的物理速度成为了性能瓶颈。
为了规避这些限制,开发者采用了一种定制化方案,将 Gemma 4 的 MTP(多 token 预测)草稿模型与验证器相结合。通过使用投机采样(speculative decoding),系统能够同时生成多个 token。作者称这是“业界为绕过内存带宽限制所发明的最天才的解决方案之一”。他强调,对于技术人员和 Linux 爱好者来说,这个项目证明了通过对指令集和内存分配进行精细化控制,老旧硬件在当前的 AI 浪潮中依然可以发挥余热。作者还提到,与以往侧重宏观层面的文章不同,这次的技术深度解析旨在让熟悉计算机组装和 LLM 使用的用户都能尽可能清晰地理解其中的奥秘。