无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散

AI最新资讯1个月前发布 tree
14 0 0

今日应用


今日话题


无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散
无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散
 

重点标签 扩散模型语言模型序列生成机器学习人工智能

文章摘要


MIT CSAIL的研究团队在陈博远博士的带领下,提出了一种名为Diffusion Forcing(DF)的训练和采样范式,将全序列扩散模型与自回归大型语言模型的优势结合起来。该方法通过将每个token与随机独立的噪声水平关联,并利用共享的预测模型进行去噪,从而在一致性和稳定性方面超越了传统的全序列扩散和教师强制方法。DF框架的灵感来源于将加噪声视为部分掩码的过程,其中零噪声代表未掩码,而完整噪声则代表完全掩蔽。通过这种方式,DF能够强迫模型学习去除任何可变有噪声token集合的掩码。

DF的核心在于每个token的噪声水平随时间变化,通过因果架构实现,即未来的token依赖于过去的token。这种因果扩散强制(Causal Diffusion Forcing, CDF)允许模型一次性去噪序列的所有token,每个token都有独立的噪声水平。在采样期间,CDF能够将高斯噪声帧序列逐渐去噪成洁净样本,展现出与下一token预测模型相似的稳定性,无论是预测下一个token还是连续的数千token。

此外,CDF还能够接收引导,实现高奖励生成,通过蒙特卡洛树引导(MCTG)提升采样率。DF的训练流程是在期望对数似然上优化证据下限(ELBO),并在适当条件下,同时最大化所有噪声水平序列的似然下限。

DF的采样过程通过在二维网格上指定噪声调度来实现,能够生成长度可变的序列,并保持未来的不确定性。这种灵活性使得DF在自回归生成中变得稳定,并具备长期引导能力。DF的新能力还为序列决策(SDM)提供了新的可能性,尤其是在机器人和自主智能体领域。

在实验中,研究团队评估了DF在视频预测、规划和模仿学习等多种应用中的表现。视频预测结果显示,DF能够稳定地展开序列,甚至超过训练范围。在决策框架中,DF在所有测试环境中都优于Diffuser和其他基准。此外,DF还能够灵活地组合训练时间观察到的序列的子序列,实现可控的序列组合生成。

对于机器人学习,DF通过记忆整合提高了模仿学习的成功率,并在视觉运动控制中展现出稳健性。在时间序列预测任务中,DF也展现出与之前模型相媲美的性能。更多技术细节和实验结果可以在原论文中找到。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...