Los desarrolladores ya pueden realizar ajustes finos en los modelos Gemma 3n y Gemma 4 de Google utilizando modalidades de imagen, audio y texto directamente en equipos macOS. El nuevo kit de herramientas, gemma-tuner-multimodal, aprovecha Metal Performance Shaders (MPS) de Apple para ejecutar tareas de entrenamiento que antes requerían costosos clústeres de GPU NVIDIA H100 de alta gama.
Al utilizar PyTorch y PEFT LoRA (Low-Rank Adaptation), el framework ofrece una vía nativa para que los usuarios personalicen modelos para tareas específicas de un dominio. Esto incluye dictado médico, transcripción legal especializada o análisis visual de defectos de fabricación y gráficos. Dado que el entrenamiento se ejecuta localmente, los datos confidenciales nunca abandonan la máquina del usuario, lo que satisface los requisitos de privacidad tanto para uso empresarial como personal.
Optimización de flujos de trabajo complejos en hardware local
Uno de los principales desafíos al entrenar modelos multimodales es el enorme volumen de datos, que a menudo supera la capacidad del SSD de un portátil estándar. El kit de herramientas soluciona esto integrando la transmisión de datos nativa de la nube. Los desarrolladores pueden extraer conjuntos de datos directamente desde Google Cloud Storage o BigQuery, lo que permite entrenar modelos con terabytes de información sin necesidad de un almacenamiento local masivo.
"Si quieres ajustar Gemma con texto, imágenes o audio sin tener que alquilar una H100 ni copiar un terabyte de datos a tu portátil, este es el único kit de herramientas que gestiona las tres modalidades en Apple Silicon", señala la documentación del proyecto. El sistema está diseñado para ser altamente modular, con un sistema de configuración jerárquico que permite a los usuarios definir perfiles de modelo personalizados y divisiones de conjuntos de datos mediante sencillos archivos INI.
El proyecto es compatible con diversos puntos de control (checkpoints) de Gemma, incluidas las variantes de 2B y 4B de Gemma 4 y Gemma 3n. Aunque los modelos más grandes, como las versiones de 26B o 31B, aún no son compatibles debido a diferencias arquitectónicas, la implementación actual cubre los casos de uso más comunes para el ajuste de IA en el dispositivo.
Para empezar, los usuarios necesitan Python 3.10 o superior y un Mac con macOS 12.3 o posterior. El framework incluye una interfaz de línea de comandos y un asistente guiado para simplificar el proceso de configuración, asegurando que el entorno MPS se inicialice correctamente antes de comenzar el entrenamiento. Una vez finalizado, el kit de herramientas exporta los resultados como un árbol de Hugging Face o SafeTensors fusionado, dejando los adaptadores ajustados listos para su uso inmediato en procesos de inferencia.