Investigadores han presentado I-DLM, un nuevo Modelo de Lenguaje de Difusión Introspectivo que iguala el rendimiento de los modelos autorregresivos tradicionales, logrando al mismo tiempo un aumento significativo en la velocidad de generación.
Durante años, los modelos de lenguaje de difusión (DLM) han tenido dificultades para competir en calidad con los modelos autorregresivos (AR). Aunque los DLM prometen una generación de tokens en paralelo para evitar el cuello de botella secuencial de la decodificación estándar, se han quedado rezagados de forma constante en las pruebas de razonamiento y programación.
Los desarrolladores de I-DLM sostienen que esta brecha se debe a una falta de 'consistencia introspectiva', donde los DLM no logran ser coherentes con los tokens que generan. Para solucionar esto, el equipo introdujo la Decodificación con Saltos Introspectiva (ISD), un método que verifica los tokens generados previamente mientras avanza simultáneamente con los nuevos en una sola pasada hacia adelante.
Eficiencia y rendimiento
En las pruebas de referencia, el modelo I-DLM-8B se convirtió en el primer modelo basado en difusión en igualar la calidad de sus homólogos autorregresivos de la misma escala. En el benchmark matemático AIME-24, el modelo 8B obtuvo una puntuación de 69,6, superando significativamente al LLaDA-2.1-mini de 16B, que alcanzó los 43,3.
Las capacidades de programación también experimentaron un salto masivo. El modelo I-DLM-8B superó al LLaDA-2.1-mini por 15 puntos en LiveCodeBench-v6. A pesar de tener la mitad de parámetros, la arquitectura I-DLM mantiene una alta precisión en 15 benchmarks distintos, incluidos MMLU y GSM8K.
Más allá de la inteligencia pura, la arquitectura ofrece una ventaja masiva en la capacidad de procesamiento. Bajo condiciones de alta concurrencia, I-DLM ofrece un rendimiento entre 2,9 y 4,1 veces superior al de los modelos autorregresivos estándar. Los investigadores señalaron que, mientras que modelos de difusión anteriores como SDAR alcanzaron un techo de rendimiento debido a la ineficiencia computacional, la eficiencia de I-DLM aumenta, de hecho, en relación con los modelos AR a medida que aumenta la concurrencia.
El sistema está diseñado para una integración sencilla, utilizando atención causal para permitir su despliegue directo en frameworks existentes como SGLang. Los investigadores también implementaron el 'Gated LoRA', que permite una aceleración sin pérdida de precisión bit a bit, garantizando que la salida del modelo sea idéntica a la de los modelos autorregresivos de alta calidad.