La nueva arquitectura I-DLM supera el cuello de botella en los modelos de lenguaje de difusión

Investigadores han presentado I-DLM, un nuevo Modelo de Lenguaje de Difusión Introspectivo que iguala el rendimiento de los modelos autorregresivos tradicionales, logrando al mismo tiempo un aumento significativo en la velocidad de generación.

Durante años, los modelos de lenguaje de difusión (DLM) han tenido dificultades para competir en calidad con los modelos autorregresivos (AR). Aunque los DLM prometen una generación de tokens en paralelo para evitar el cuello de botella secuencial de la decodificación estándar, se han quedado rezagados de forma constante en las pruebas de razonamiento y programación.

Los desarrolladores de I-DLM sostienen que esta brecha se debe a una falta de 'consistencia introspectiva', donde los DLM no logran ser coherentes con los tokens que generan. Para solucionar esto, el equipo introdujo la Decodificación con Saltos Introspectiva (ISD), un método que verifica los tokens generados previamente mientras avanza simultáneamente con los nuevos en una sola pasada hacia adelante.

Eficiencia y rendimiento

En las pruebas de referencia, el modelo I-DLM-8B se convirtió en el primer modelo basado en difusión en igualar la calidad de sus homólogos autorregresivos de la misma escala. En el benchmark matemático AIME-24, el modelo 8B obtuvo una puntuación de 69,6, superando significativamente al LLaDA-2.1-mini de 16B, que alcanzó los 43,3.

Las capacidades de programación también experimentaron un salto masivo. El modelo I-DLM-8B superó al LLaDA-2.1-mini por 15 puntos en LiveCodeBench-v6. A pesar de tener la mitad de parámetros, la arquitectura I-DLM mantiene una alta precisión en 15 benchmarks distintos, incluidos MMLU y GSM8K.

Más allá de la inteligencia pura, la arquitectura ofrece una ventaja masiva en la capacidad de procesamiento. Bajo condiciones de alta concurrencia, I-DLM ofrece un rendimiento entre 2,9 y 4,1 veces superior al de los modelos autorregresivos estándar. Los investigadores señalaron que, mientras que modelos de difusión anteriores como SDAR alcanzaron un techo de rendimiento debido a la ineficiencia computacional, la eficiencia de I-DLM aumenta, de hecho, en relación con los modelos AR a medida que aumenta la concurrencia.

El sistema está diseñado para una integración sencilla, utilizando atención causal para permitir su despliegue directo en frameworks existentes como SGLang. Los investigadores también implementaron el 'Gated LoRA', que permite una aceleración sin pérdida de precisión bit a bit, garantizando que la salida del modelo sea idéntica a la de los modelos autorregresivos de alta calidad.

La nueva arquitectura I-DLM supera el cuello de botella en los modelos de lenguaje de difusión

Eficiencia y rendimiento

Comentarios

Sigue leyendo

Más de IA

Últimas noticias

La nueva arquitectura I-DLM supera el cuello de botella en los modelos de lenguaje de difusión

Eficiencia y rendimiento

Sigue leyendo

Más de IA

El gobierno de Trump evalúa un proceso de revisión gubernamental previo al lanzamiento de nuevos modelos de IA

Google, Microsoft y xAI acuerdan someter sus nuevos modelos de IA a revisión del gobierno estadounidense

Krutrim, la startup india, pivota hacia los servicios en la nube tras el estancamiento de su modelo de IA

Últimas noticias

Nuro obtiene permiso en California para realizar pruebas con el Lucid Gravity sin conductor

SAP invertirá 1.160 millones de dólares en la startup alemana de IA Prior Labs

Kelp protocol planea migrar a Chainlink tras un exploit de 292 millones de dólares