Un nuevo estudio logra entrenar modelos de 100 mil millones de parámetros en una sola GPU

MegaTrain, el innovador sistema de entrenamiento desarrollado por Zhengqing Yuan y su equipo, ha sido presentado recientemente en un artículo publicado en arXiv, demostrando una capacidad revolucionaria para ejecutar modelos de lenguaje de gran escala en una sola unidad de procesamiento gráfico (GPU). Esta tecnología reduce drásticamente las barreras de hardware al desplazar la gestión de memoria desde la GPU hacia la memoria principal del sistema.

Un avance gracias a la arquitectura centrada en la memoria

Tradicionalmente, el entrenamiento de modelos de lenguaje de gran escala dependía de costosos clústeres de GPU, ya que los parámetros del modelo y los estados del optimizador debían residir permanentemente en la memoria de video (VRAM). MegaTrain adopta una estrategia radicalmente distinta: utiliza la GPU exclusivamente como un motor de cómputo instantáneo, mientras que los parámetros y los estados del optimizador se almacenan en la memoria del host (CPU). Durante el entrenamiento, el sistema transmite los parámetros capa por capa hacia la GPU para realizar los cálculos y, posteriormente, devuelve los gradientes a la memoria principal.

Para superar el cuello de botella que supone el ancho de banda de transferencia de datos entre la CPU y la GPU, el equipo de investigación introdujo un motor de ejecución con doble búfer. Este motor permite, mediante múltiples flujos CUDA, solapar de forma eficiente la carga previa de parámetros, el cálculo y la descarga de gradientes, garantizando que la GPU se mantenga trabajando a plena capacidad en todo momento. Además, el sistema prescinde de los grafos de diferenciación automática estáticos tradicionales y emplea plantillas de capas sin estado, lo que permite vincular dinámicamente las tareas de cálculo según los pesos transmitidos, eliminando así las restricciones de programación impuestas por los metadatos de grafos persistentes.

Los datos experimentales muestran que, en una sola GPU H200 equipada con 1.5 TB de memoria RAM, MegaTrain es capaz de entrenar de forma estable modelos de hasta 120 mil millones de parámetros. En comparación con la solución actual de descarga a CPU de DeepSpeed ZeRO-3, este sistema logra un rendimiento 1.84 veces superior al entrenar modelos de 14 mil millones de parámetros.

Asimismo, MegaTrain ha logrado entrenar un modelo de 7 mil millones de parámetros con una longitud de contexto de 512k en una sola GPU GH200. Este avance ofrece a los desarrolladores una ruta mucho más rentable para el entrenamiento de modelos masivos, eliminando la necesidad de depender de clústeres de computación paralela a gran escala para llevar a cabo desarrollos de alta precisión.

Un nuevo estudio logra entrenar modelos de 100 mil millones de parámetros en una sola GPU

Un avance gracias a la arquitectura centrada en la memoria

Comentarios

Sigue leyendo

Más de IA

Polygon Labs busca recaudar 100 millones de dólares para su división de pagos con stablecoins

ChainStaff: el shooter psicodélico que reinventa lo retro

La nueva entrega de Spider-Man realiza rodajes adicionales antes de su estreno; el protagonista asegura que es para añadir más humor

Últimas noticias

Chainalysis prevé que el volumen anual de transacciones con stablecoins superará los 1,5 billones de dólares para 2035

Microsoft admite que Excel tiene un error de cálculo con el año bisiesto de 1900 y se niega a corregirlo

OpenAI presenta una hoja de ruta para la protección infantil contra el contenido ilegal generado por IA