Recientemente, varios desarrolladores han publicado en GitHub los proyectos de código abierto Parlor y Gemma Gem, lo que marca un avance significativo en la popularización de modelos de inteligencia artificial ligeros ejecutados directamente en el dispositivo. Estos proyectos aprovechan el modelo Gemma 4 de Google, permitiendo a los usuarios disfrutar de conversaciones con IA multimodal en sus propias máquinas, sin necesidad de conexión a internet ni de recurrir a APIs externas.
El proyecto Parlor, mantenido por el desarrollador fikrikarim, busca ofrecer una experiencia de interacción por voz y visión en tiempo real mediante el uso del modelo Gemma 4 E2B y la biblioteca de voz Kokoro. El proyecto hace hincapié en que todo el procesamiento ocurre estrictamente en el hardware local, garantizando que los datos del usuario nunca salgan de su equipo. Según el historial de commits en GitHub, el proyecto ha fijado sus dependencias de Python en la versión 3.12 para resolver problemas de compatibilidad con versiones más recientes.
Automatización web mediante extensiones de navegador
Por otro lado, el proyecto Gemma Gem, creado por el desarrollador kessler, integra el modelo Gemma 4 directamente en el navegador a través de una extensión para Chrome. Esta herramienta utiliza la tecnología WebGPU para realizar inferencias de forma local, permitiendo que los usuarios utilicen el modelo sin necesidad de una clave API. Es compatible con las versiones Gemma 4 E2B (de aproximadamente 500 MB) y E4B (de unos 1,5 GB), las cuales pueden alternarse desde la configuración según las necesidades del usuario.
Gemma Gem no es solo un asistente de chat, sino que también tiene la capacidad de realizar acciones dentro de las páginas web. Gracias a un bucle de agentes integrado, el complemento puede leer el contenido de una página, hacer clic en botones, rellenar formularios, desplazarse por el sitio y ejecutar código JavaScript. Su arquitectura se compone de tres elementos principales: un documento fuera de pantalla (Offscreen Document), un service worker y un script de contenido, utilizando la biblioteca @huggingface/transformers para gestionar la inferencia del modelo dentro del navegador.
Los usuarios pueden cargar la extensión a través de chrome://extensions y realizar pruebas mediante el modo de desarrollador. La herramienta también incluye opciones para desactivar su funcionamiento en sitios específicos y permite borrar el contexto de la conversación para restablecer el historial. Aunque ambos proyectos siguen caminos distintos, coinciden en reflejar una tendencia clara hacia el despliegue de modelos de IA avanzados en entornos locales, con el objetivo de mejorar tanto la privacidad como la velocidad de respuesta en las interacciones.