标签：扩散模型

别只盯着DiT，国产模型也在暗自发力！U-ViT：ViT 架构实现 Diffusion 的开山之作！

本文介绍了一种基于Vision Transformer (ViT) 的扩散模型U-ViT，该模型由清华大学、中国人民大学和北京智源的研究团队开发。U-ViT使用ViT替换了传统扩散模型...

3天前

极市导读本文深入探讨了无需额外训练的条件生成方法，这些方法主要利用预训练的无条件扩散模型，并通过调整采样策略来生成与给定条件相符的图像。文章重点讨...

4天前

本文介绍了一种名为Transfusion的新型多模态生成模型，该模型能够同时处理离散数据（如文本或代码）和连续数据（如图像、音频和视频）。Transfusion模型通过...

2周前

MAR模型的核心思想是利用扩散模型来建模每个像素的分布，而不是依赖于VQ技术。在扩散模型中，像素被视为连续值的token，通过自回归网络辅助生成条件变量，进...

4周前

在本文中，作者提出了一种新的自回归图像生成模型，该模型通过使用扩散模型来建模图像词元的分布，从而提高了生成能力。自回归模型在自然语言处理（NLP）中取...

1个月前

Tora是一种基于扩散模型的视频生成技术，由阿里的研究者开发。它采用Diffusion Transformer（DiT）架构，能够生成10到60秒的高质量视频，支持不同分辨率和纵...

1个月前

本文介绍了一篇名为`Diffusion Feedback Helps CLIP See Better`的论文，该论文提出了一种通过自监督学习来提升CLIP（对比语言-图像预训练）模型视觉感知能力...

1个月前

MIT CSAIL的研究团队在陈博远博士的带领下，提出了一种名为Diffusion Forcing（DF）的训练和采样范式，将全序列扩散模型与自回归大型语言模型的优势结合起来...

1个月前

摘要：近日，深度学习领域的杰出研究者何恺明及其团队推出了一项突破性研究，成功地将自回归模型从矢量量化的束缚中解放出来，实现了连续值生成图像的创新。...

2个月前

本文介绍了一种新型的扩散模型——DiG（Diffusion Gated Linear Attention Transformers），由华中科技大学和字节跳动的研究团队共同开发。DiG模型通过引入门控...

3个月前

12 3