标签:扩散模型

别只盯着DiT,国产模型也在暗自发力!U-ViT:ViT 架构实现 Diffusion 的开山之作!

本文介绍了一种基于Vision Transformer (ViT) 的扩散模型U-ViT,该模型由清华大学、中国人民大学和北京智源的研究团队开发。U-ViT使用ViT替换了传统扩散模型...

预训练无条件扩散生成模型的 training-free 条件生成食谱(二)

极市导读本文深入探讨了无需额外训练的条件生成方法,这些方法主要利用预训练的无条件扩散模型,并通过调整采样策略来生成与给定条件相符的图像。文章重点讨...

统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者

本文介绍了一种名为Transfusion的新型多模态生成模型,该模型能够同时处理离散数据(如文本或代码)和连续数据(如图像、音频和视频)。Transfusion模型通过...

MAR(Masked AutoRegressive): 破除封建迷信——谁说自回归图像生成一定需要 VQ的!

MAR模型的核心思想是利用扩散模型来建模每个像素的分布,而不是依赖于VQ技术。在扩散模型中,像素被视为连续值的token,通过自回归网络辅助生成条件变量,进...

深度解读何恺明团队新作:不用向量离散化的自回归图像生成

在本文中,作者提出了一种新的自回归图像生成模型,该模型通过使用扩散模型来建模图像词元的分布,从而提高了生成能力。自回归模型在自然语言处理(NLP)中取...

阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律

Tora是一种基于扩散模型的视频生成技术,由阿里的研究者开发。它采用Diffusion Transformer(DiT)架构,能够生成10到60秒的高质量视频,支持不同分辨率和纵...

Diffusion反馈强势助力CLIP秒变火眼金睛:北京智源研究院、中科院自动化所联合推出DIVA

本文介绍了一篇名为`Diffusion Feedback Helps CLIP See Better`的论文,该论文提出了一种通过自监督学习来提升CLIP(对比语言-图像预训练)模型视觉感知能力...

无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散

MIT CSAIL的研究团队在陈博远博士的带领下,提出了一种名为Diffusion Forcing(DF)的训练和采样范式,将全序列扩散模型与自回归大型语言模型的优势结合起来...

何恺明新工作!加入MIT的首篇论文!打破自回归图像生成瓶颈,奥赛金牌得主参与!

摘要:近日,深度学习领域的杰出研究者何恺明及其团队推出了一项突破性研究,成功地将自回归模型从矢量量化的束缚中解放出来,实现了连续值生成图像的创新。...

DiG:使用门控线性注意力机制的高效可扩展 Diffusion Transformer

本文介绍了一种新型的扩散模型——DiG(Diffusion Gated Linear Attention Transformers),由华中科技大学和字节跳动的研究团队共同开发。DiG模型通过引入门控...
123