Desarrollador ejecuta el modelo Google Gemma 4 localmente en Mac usando la nueva CLI de LM Studio

El desarrollador George Liu logró desplegar el modelo Google Gemma 4 26B de forma local en su MacBook Pro gracias a la nueva función de CLI 'headless' de LM Studio 0.4.0, logrando una inferencia de IA altamente eficiente.

Alex Chen

8 de abril de 2026 2 min de lectura

Desarrollador ejecuta el modelo Google Gemma 4 localmente en Mac usando la nueva CLI de LM Studio

Foto: amazon.com

El desarrollador George Liu ha demostrado recientemente cómo ejecutar el modelo Google Gemma 4 26B en hardware local utilizando la nueva herramienta de línea de comandos (CLI) 'headless' de LM Studio 0.4.0. Esta solución no solo permite la inferencia local, sino que también facilita la integración con Claude Code a través de la terminal, ofreciendo a los desarrolladores una alternativa sólida que no depende de APIs en la nube.

A medida que se multiplican los casos de uso de la IA, las APIs en la nube suelen traer consigo problemas de latencia, costes operativos y riesgos de privacidad. Al desplegar modelos localmente, los desarrolladores pueden eliminar estos inconvenientes por completo, garantizando que sus datos permanezcan siempre en sus propios dispositivos.

Las ventajas de rendimiento de la arquitectura MoE

El modelo 26B-A4B de la serie Google Gemma 4 utiliza una arquitectura de mezcla de expertos (MoE, por sus siglas en inglés). En sus pruebas, Liu señaló que el modelo cuenta con 128 expertos y un experto compartido, pero solo activa 8 expertos por cada inferencia, lo que equivale a unos 3.8B de parámetros activos. Este diseño permite mantener un alto rendimiento reduciendo significativamente los requisitos de hardware.

En un MacBook Pro de 14 pulgadas con chip M4 Pro y 48 GB de memoria unificada, el modelo funciona con fluidez, alcanzando una velocidad de generación de 51 tokens por segundo. Liu sostiene que esta arquitectura ofrece una relación coste-rendimiento excepcional para la inferencia local, con capacidades que pueden rivalizar con modelos que tienen cientos de veces más parámetros.

Los datos comparativos muestran que Gemma 4 26B-A4B obtuvo un 82.6% en el benchmark MMLU Pro, frente al 85.2% de un modelo denso de 31B. Liu afirmó: "No necesitas un clúster de GPUs costoso para ejecutar una IA capaz de competir con modelos de decenas de miles de millones de parámetros".

Gracias a la interfaz API que proporciona LM Studio, los desarrolladores pueden conectar modelos locales con herramientas de desarrollo como Claude Code. Aunque el uso dentro del entorno de Claude Code conlleva una ligera pérdida de rendimiento, esto ofrece un entorno privado y gratuito para tareas de desarrollo frecuentes, como la revisión de código o la redacción de borradores.

Desarrollador ejecuta el modelo Google Gemma 4 localmente en Mac usando la nueva CLI de LM Studio

Las ventajas de rendimiento de la arquitectura MoE

Comentarios

Sigue leyendo

Más de IA

Últimas noticias

Desarrollador ejecuta el modelo Google Gemma 4 localmente en Mac usando la nueva CLI de LM Studio

Las ventajas de rendimiento de la arquitectura MoE

Sigue leyendo

Más de IA

El Papa León XIV desafía a la industria de la IA mientras grupos religiosos exigen cambios en los sesgos de los modelos

La élite de Silicon Valley impulsa una agenda transhumanista para reemplazar a la humanidad biológica

Los líderes tecnológicos se enfrentan a un creciente rechazo contra la integración de la IA

Últimas noticias

Microsoft y Nvidia transforman la computación profesional en Computex 2026

La startup surcoreana de cohetes Unastella recauda 24 millones de dólares para sus planes de lanzamiento orbital

Asus presenta la ROG Xbox Ally X20 con pantalla OLED y mejoras de hardware