ECCV’24｜直接生成 4K图像！ PixArt-Σ：Weak-to-Strong 训练的 4K 高清文生图模型

AI最新资讯1周前发布 tree

5 0 0

今日应用

茅茅虫 – 论文写作

茅茅虫论文写作 - 写作助手、论文查重、论文降重、论文答辩，让天下没有难写的论文！

今日话题

ECCV’24｜直接生成 4K图像！ PixArt-Σ：Weak-to-Strong 训练的 4K 高清文生图模型

重点标签 PixArt-Σ、4K图像、文生图、Diffusion Transformer、Weak-to-Strong训练

文章摘要

PixArt-Σ是PixArt系列的最新力作，由华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学共同研发。该模型是一种Diffusion Transformer（DiT），能够直接生成4K分辨率的图像。与前身PixArt-α相比，PixArt-Σ在图像保真度和文本提示对齐质量上都有显著提升，同时训练效率更高。PixArt-Σ的关键特性包括高质量的训练数据、高效的token压缩模块和”weak-to-strong training”策略。

PixArt-Σ使用了一个新的高质量数据集，包含33M高分辨率图像和2.3M张4K图像，以及更精确和详细的图像标题。此外，模型采用了Key Value token压缩技术，通过Group Convolution在局部集成Key和Value，显著提高了生成超高分辨率图像的效率。

在训练策略上，PixArt-Σ采用了”weak-to-strong training”，通过替换VAE、扩展分辨率和应用KV Token压缩等技术，快速从弱模型演化为强模型。实验结果显示，PixArt-Σ在图像质量和用户指令遵从性能上都优于现有的文生图扩散模型，如SDXL和SD Cascade，且模型参数更低。

PixArt-Σ的生成能力支持创建高分辨率海报和墙纸，有效支持了电影和游戏等需要高质量视觉内容的行业。通过Human/AI偏好研究，PixArt-Σ在图像质量和文本对齐方面的表现也得到了验证。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ECCV’24｜直接生成 4K图像！ PixArt-Σ：Weak-to-Strong 训练的 4K 高清文生图模型

今日应用

今日话题

文章摘要

文章来源

表格增强生成TAG登场：解锁AI自然语言与数据库的完美结合

ACM MM 2024｜基于二维先验学习的三维人物交互重建

相关文章

暂无评论

热门网址

热门标签