Comprendiendo el presente, definiendo el futuro.

11:31 UTC · DOMINGO, 10 DE MAYO DE 2026 XIANDAI · Xiandai
10 may 2026 · Actualizado 11:31 UTC
IA

La nueva arquitectura I-DLM supera el cuello de botella en los modelos de lenguaje de difusión

El framework I-DLM logra, por primera vez, la paridad entre los modelos de lenguaje de difusión y los modelos autorregresivos, ofreciendo una capacidad de procesamiento hasta 4 veces mayor.

Alex Chen

2 min de lectura

La nueva arquitectura I-DLM supera el cuello de botella en los modelos de lenguaje de difusión
I-DLM architecture for language models

Investigadores han presentado I-DLM, un nuevo Modelo de Lenguaje de Difusión Introspectivo que iguala el rendimiento de los modelos autorregresivos tradicionales, logrando al mismo tiempo un aumento significativo en la velocidad de generación.

Durante años, los modelos de lenguaje de difusión (DLM) han tenido dificultades para competir en calidad con los modelos autorregresivos (AR). Aunque los DLM prometen una generación de tokens en paralelo para evitar el cuello de botella secuencial de la decodificación estándar, se han quedado rezagados de forma constante en las pruebas de razonamiento y programación.

Los desarrolladores de I-DLM sostienen que esta brecha se debe a una falta de 'consistencia introspectiva', donde los DLM no logran ser coherentes con los tokens que generan. Para solucionar esto, el equipo introdujo la Decodificación con Saltos Introspectiva (ISD), un método que verifica los tokens generados previamente mientras avanza simultáneamente con los nuevos en una sola pasada hacia adelante.

Eficiencia y rendimiento

En las pruebas de referencia, el modelo I-DLM-8B se convirtió en el primer modelo basado en difusión en igualar la calidad de sus homólogos autorregresivos de la misma escala. En el benchmark matemático AIME-24, el modelo 8B obtuvo una puntuación de 69,6, superando significativamente al LLaDA-2.1-mini de 16B, que alcanzó los 43,3.

Las capacidades de programación también experimentaron un salto masivo. El modelo I-DLM-8B superó al LLaDA-2.1-mini por 15 puntos en LiveCodeBench-v6. A pesar de tener la mitad de parámetros, la arquitectura I-DLM mantiene una alta precisión en 15 benchmarks distintos, incluidos MMLU y GSM8K.

Más allá de la inteligencia pura, la arquitectura ofrece una ventaja masiva en la capacidad de procesamiento. Bajo condiciones de alta concurrencia, I-DLM ofrece un rendimiento entre 2,9 y 4,1 veces superior al de los modelos autorregresivos estándar. Los investigadores señalaron que, mientras que modelos de difusión anteriores como SDAR alcanzaron un techo de rendimiento debido a la ineficiencia computacional, la eficiencia de I-DLM aumenta, de hecho, en relación con los modelos AR a medida que aumenta la concurrencia.

El sistema está diseñado para una integración sencilla, utilizando atención causal para permitir su despliegue directo en frameworks existentes como SGLang. Los investigadores también implementaron el 'Gated LoRA', que permite una aceleración sin pérdida de precisión bit a bit, garantizando que la salida del modelo sea idéntica a la de los modelos autorregresivos de alta calidad.

Comentarios