##
Un desarrollador de point.free ha demostrado que los grandes modelos de lenguaje actuales pueden ejecutarse en hardware empresarial antiguo, tras desplegar con éxito el modelo Gemma 4 en un servidor Intel Xeon E5-2620 v4 de 2016. El experimento, detallado en una entrada de blog publicada el 1 de junio de 2026, cuestiona la idea de que la IA de vanguardia requiere obligatoriamente las GPUs de gama alta más recientes. El servidor utilizado en la prueba contaba con 8 núcleos físicos y 16 hilos, una velocidad de reloj de 2,10 GHz y 20 MiB de caché L3.
A pesar de que el servidor disponía de 128 GB de memoria RAM DDR3, el autor señaló que esta memoria es entre 5 y 6 veces más lenta que la de los portátiles de gama alta actuales. Además, el procesador Xeon es aproximadamente 5 veces más lento que la CPU del portátil del autor y carece de conjuntos de instrucciones modernos como AVX-512, AVX-VNNI y BF16. Dado que el sistema no cuenta con una GPU integrada ni dedicada, el desarrollador se vio obligado a depender exclusivamente de la CPU para realizar la inferencia.
Según point.free, las herramientas de despliegue estándar como Ollama o llama-cpp resultaron insuficientes para este hardware. El autor observó que estas herramientas carecen de los ajustes granulares necesarios para optimizar el rendimiento en una arquitectura tan antigua, señalando que es posible que el soporte para los modelos específicos requeridos nunca llegue al software convencional. El principal obstáculo técnico identificado es el "muro de memoria", donde el rendimiento se ve limitado por la velocidad física a la que los pesos del modelo se transfieren desde la RAM a la caché de la CPU para cada token generado.
Para sortear estas limitaciones, el desarrollador utilizó un enfoque personalizado que combina los borradores MTP (predicción de múltiples tokens) de Gemma 4 con un verificador. Mediante el uso de decodificación especulativa, el sistema genera múltiples tokens simultáneamente, un método que el autor describe como "una de las soluciones más brillantes que la industria ha inventado para eludir las restricciones de ancho de banda de la memoria". El autor destacó que, para los profesionales de la tecnología y los entusiastas de Linux, este proyecto demuestra que un control preciso sobre los conjuntos de instrucciones y la asignación de memoria puede mantener el hardware antiguo vigente en el panorama actual de la IA. El desarrollador señaló que, aunque sus publicaciones anteriores habían sido de carácter general, este análisis técnico profundo buscaba ser lo más claro posible para aquellos familiarizados con el ensamblaje de ordenadores y el uso de LLMs.