El desarrollador George Liu ha demostrado recientemente cómo ejecutar el modelo Google Gemma 4 26B en hardware local utilizando la nueva herramienta de línea de comandos (CLI) 'headless' de LM Studio 0.4.0. Esta solución no solo permite la inferencia local, sino que también facilita la integración con Claude Code a través de la terminal, ofreciendo a los desarrolladores una alternativa sólida que no depende de APIs en la nube.
A medida que se multiplican los casos de uso de la IA, las APIs en la nube suelen traer consigo problemas de latencia, costes operativos y riesgos de privacidad. Al desplegar modelos localmente, los desarrolladores pueden eliminar estos inconvenientes por completo, garantizando que sus datos permanezcan siempre en sus propios dispositivos.
Las ventajas de rendimiento de la arquitectura MoE
El modelo 26B-A4B de la serie Google Gemma 4 utiliza una arquitectura de mezcla de expertos (MoE, por sus siglas en inglés). En sus pruebas, Liu señaló que el modelo cuenta con 128 expertos y un experto compartido, pero solo activa 8 expertos por cada inferencia, lo que equivale a unos 3.8B de parámetros activos. Este diseño permite mantener un alto rendimiento reduciendo significativamente los requisitos de hardware.
En un MacBook Pro de 14 pulgadas con chip M4 Pro y 48 GB de memoria unificada, el modelo funciona con fluidez, alcanzando una velocidad de generación de 51 tokens por segundo. Liu sostiene que esta arquitectura ofrece una relación coste-rendimiento excepcional para la inferencia local, con capacidades que pueden rivalizar con modelos que tienen cientos de veces más parámetros.
Los datos comparativos muestran que Gemma 4 26B-A4B obtuvo un 82.6% en el benchmark MMLU Pro, frente al 85.2% de un modelo denso de 31B. Liu afirmó: "No necesitas un clúster de GPUs costoso para ejecutar una IA capaz de competir con modelos de decenas de miles de millones de parámetros".
Gracias a la interfaz API que proporciona LM Studio, los desarrolladores pueden conectar modelos locales con herramientas de desarrollo como Claude Code. Aunque el uso dentro del entorno de Claude Code conlleva una ligera pérdida de rendimiento, esto ofrece un entorno privado y gratuito para tareas de desarrollo frecuentes, como la revisión de código o la redacción de borradores.