
连续空间里做语言生成,这条过去被忽视的路现在走通了,关注AI技术演进的朋友可以一起看背后的思路转变。

何恺明首秀语言模型:连续扩散新路线 事件脉络与关键事实
清华大学与MIT联合研究团队,由何恺明领衔,提出一种全新的扩散语言模型ELF(Embedded Language Flows),突破了传统语言模型依赖自回归生成的范式。ELF采用连续扩散机制,将整个去噪过程保留在连续的embedding空间中,仅在最后一步将表示离散化为token。这一设计避免了传统方法中每一步都需对齐词表或额外训练decoder的复杂性,显著提升了训练和推理效率。
在实验中,ELF仅使用105M参数和45B训练token,通过32步采样,在OpenWebText数据集上实现了24的生成困惑度,优于需要1024步采样的主流离散扩散模型。即使在WMT14机器翻译和XSum文本摘要等条件生成任务中,ELF也表现稳定,部分指标超越自回归模型。该研究证明,连续扩散路线在语言生成中不仅可行,而且在效率和质量上具备显著优势。
论文第一作者为MIT博士生胡珂雅和Linlu Qiu,核心成员还包括MIT本科生赵瀚宏、清华姚班本科生陆伊炀及博后黎天鸿。团队背景深厚,多位成员曾在国际竞赛中获奖或发表顶会论文。这项工作为语言模型架构提供了新方向,可能影响未来轻量化、高效率生成模型的发展路径。
事实
- 何恺明团队发布新型扩散语言模型ELF,采用连续embedding空间全程去噪,最后一步才离散化为token。
- ELF模型仅用105M参数、45B训练token和32步采样,在OpenWebText上实现24的生成困惑度。
- 相比主流离散扩散模型需1024步采样和500B+训练token,ELF在训练成本和效率上优势明显。
- 论文第一作者为MIT博士生胡珂雅和Linlu Qiu,团队还包括清华姚班本科生陆伊炀、MIT本科生赵瀚宏及博后黎天鸿。
- ELF在WMT14机器翻译和XSum摘要任务中表现稳定,部分超越自回归模型。
Canto 的可视化新闻解读。制作过程可能有 AI 辅助。 编辑政策





