别只盯着DiT，国产模型也在暗自发力！U-ViT：ViT 架构实现 Diffusion 的开山之作！

AI最新资讯2周前发布 tree

7 0 0

今日应用

腾讯云AI数字人

腾讯云(tencent cloud)为数百万的企业和开发者提供安全稳定的云计算服务，涵盖云服务器、云数据库、云存储、视频与CDN、域名注册等全方位云服务和各行业解决方案。

今日话题

别只盯着DiT，国产模型也在暗自发力！U-ViT：ViT 架构实现 Diffusion 的开山之作！

重点标签 ViT、U-Net、扩散模型、图像生成、Transformer

文章摘要

本文介绍了一种基于Vision Transformer (ViT) 的扩散模型U-ViT，该模型由清华大学、中国人民大学和北京智源的研究团队开发。U-ViT使用ViT替换了传统扩散模型中基于卷积的U-Net架构，同时保持了U形的宏观结构。在U-ViT中，所有输入，包括时间、条件和噪声图像块，都被视为tokens，并且在模型的浅层和深层之间使用了long skip connections。这种设计使得U-ViT在处理图像生成任务时表现出色，特别是在无条件或条件图像生成以及文生图任务中。

U-ViT的实验结果显示，在ImageNet 256×256的类条件图像生成任务中，它的FID达到了2.29，在MS-COCO上的文生图任务中达到了5.48的FID，且未使用大型外部数据集。此外，文章还探讨了long skip connection在基于扩散模型的图像建模中的重要性，以及上下采样对模型性能的影响。

文章还详细讨论了U-ViT的实现细节，包括对关键设计进行的系统性实证研究，如long skip connections的结合方式、时间信息的融入方式、额外卷积的使用、Patch Embedding的变体以及位置编码的变体。这些研究为U-ViT的性能优化提供了有价值的见解。

最后，文章还探讨了U-ViT在不同深度、宽度和Patch Size下的缩放性能，以及在无条件图像生成、类条件图像生成和文生图任务中的实验结果。这些实验结果进一步证明了U-ViT在图像生成领域的潜力和有效性。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

别只盯着DiT，国产模型也在暗自发力！U-ViT：ViT 架构实现 Diffusion 的开山之作！

今日应用

今日话题

文章摘要

文章来源

自动接人，手机开车，特斯拉纯视觉无人召唤终于来了

ICML 2024｜英特尔开源轻量级涨点神器：KernelWarehouse

相关文章

暂无评论

热门网址

热门标签