Comprendiendo el presente, definiendo el futuro.

09:09 UTC · MARTES, 2 DE JUNIO DE 2026 XIANDAI · Xiandai
2 jun 2026 · Actualizado 09:09 UTC
IA

Desarrollador ejecuta el modelo Google Gemma 4 localmente en Mac usando la nueva CLI de LM Studio

El desarrollador George Liu logró desplegar el modelo Google Gemma 4 26B de forma local en su MacBook Pro gracias a la nueva función de CLI 'headless' de LM Studio 0.4.0, logrando una inferencia de IA altamente eficiente.

Alex Chen

2 min de lectura

Desarrollador ejecuta el modelo Google Gemma 4 localmente en Mac usando la nueva CLI de LM Studio
Foto: amazon.com

El desarrollador George Liu ha demostrado recientemente cómo ejecutar el modelo Google Gemma 4 26B en hardware local utilizando la nueva herramienta de línea de comandos (CLI) 'headless' de LM Studio 0.4.0. Esta solución no solo permite la inferencia local, sino que también facilita la integración con Claude Code a través de la terminal, ofreciendo a los desarrolladores una alternativa sólida que no depende de APIs en la nube.

A medida que se multiplican los casos de uso de la IA, las APIs en la nube suelen traer consigo problemas de latencia, costes operativos y riesgos de privacidad. Al desplegar modelos localmente, los desarrolladores pueden eliminar estos inconvenientes por completo, garantizando que sus datos permanezcan siempre en sus propios dispositivos.

Las ventajas de rendimiento de la arquitectura MoE

El modelo 26B-A4B de la serie Google Gemma 4 utiliza una arquitectura de mezcla de expertos (MoE, por sus siglas en inglés). En sus pruebas, Liu señaló que el modelo cuenta con 128 expertos y un experto compartido, pero solo activa 8 expertos por cada inferencia, lo que equivale a unos 3.8B de parámetros activos. Este diseño permite mantener un alto rendimiento reduciendo significativamente los requisitos de hardware.

En un MacBook Pro de 14 pulgadas con chip M4 Pro y 48 GB de memoria unificada, el modelo funciona con fluidez, alcanzando una velocidad de generación de 51 tokens por segundo. Liu sostiene que esta arquitectura ofrece una relación coste-rendimiento excepcional para la inferencia local, con capacidades que pueden rivalizar con modelos que tienen cientos de veces más parámetros.

Los datos comparativos muestran que Gemma 4 26B-A4B obtuvo un 82.6% en el benchmark MMLU Pro, frente al 85.2% de un modelo denso de 31B. Liu afirmó: "No necesitas un clúster de GPUs costoso para ejecutar una IA capaz de competir con modelos de decenas de miles de millones de parámetros".

Gracias a la interfaz API que proporciona LM Studio, los desarrolladores pueden conectar modelos locales con herramientas de desarrollo como Claude Code. Aunque el uso dentro del entorno de Claude Code conlleva una ligera pérdida de rendimiento, esto ofrece un entorno privado y gratuito para tareas de desarrollo frecuentes, como la revisión de código o la redacción de borradores.

Comentarios