新型 I-DLM 架构突破扩散语言模型瓶颈

研究人员近日推出了 I-DLM（内省式扩散语言模型），该模型在大幅提升生成速度的同时，其性能已能与传统的自回归（AR）模型相媲美。

多年来，扩散语言模型（DLM）在生成质量上一直难以与自回归模型一较高下。尽管 DLM 具备并行生成 token 的潜力，有望绕过标准解码的序列化瓶颈，但在推理和编程基准测试中，其表现始终处于劣势。

I-DLM 的开发者认为，这种差距源于“内省一致性”（introspective consistency）的缺失，即 DLM 无法与其生成的 token 保持一致。为解决这一问题，研究团队引入了“内省步进解码”（Introspective Strided Decoding, ISD）技术，该方法能够在单次前向传播中，在推进新 token 生成的同时，对已生成的 token 进行校验。

效率与性能

在基准测试中，I-DLM-8B 模型成为首个在质量上与同规模自回归模型持平的扩散模型。在 AIME-24 数学基准测试中，该 8B 模型取得了 69.6 的高分，显著优于 16B 参数的 LLaDA-2.1-mini（得分为 43.3）。

编程能力方面也实现了巨大飞跃。在 LiveCodeBench-v6 测试中，I-DLM-8B 比 LLaDA-2.1-mini 高出 15 分。尽管参数量仅为后者的一半，但 I-DLM 架构在包括 MMLU 和 GSM8K 在内的 15 项不同基准测试中均保持了极高的准确率。

除了智能水平的提升，该架构在吞吐量方面也展现出巨大优势。在高并发场景下，I-DLM 的吞吐量是标准自回归模型的 2.9 倍至 4.1 倍。研究人员指出，以往的扩散模型（如 SDAR）由于计算效率低下，性能往往会遇到瓶颈；而 I-DLM 的效率反而会随着并发量的增加而相对于自回归模型进一步提升。

该系统设计便于集成，利用因果注意力机制（causal attention）使其能够直接部署在 SGLang 等现有框架中。此外，研究人员还实现了“门控 LoRA”（Gated LoRA）技术，实现了位对位的无损加速，确保模型输出与高质量自回归模型的输出完全一致。

新型 I-DLM 架构突破扩散语言模型瓶颈

效率与性能

评论

继续阅读

更多人工智能

最新消息

新型 I-DLM 架构突破扩散语言模型瓶颈

效率与性能

继续阅读

更多人工智能

美国委员会呼吁严厉打击中国AI“蒸馏攻击”

OpenAI 发布 GPT-5.5，主打智能体工作流并强化生物安全防护

谷歌声称凭借集成化云端技术栈，在 AI Agent 竞赛中拥有结构性优势

最新消息

Vast 宇宙公司为首个商业空间站推出定制飞行服与腕表

Xbox 管理层承认：PC 市场影响力仍显不足

美国陆军军士长因涉嫌在Polymarket进行40万美元内幕交易被起诉