视觉全能！自回归要反超扩散？Lumina-mGPT:任意分辨率丝滑逼真图像生成（上海AI Lab）

AI最新资讯1个月前发布 tree

14 0 0

今日应用

Ai一键生成PPT

AiPPT结合最新AI技术，为用户提供一键生成高质量PPT的解决方案。无论是职场展示、教育课件还是销售报告，AiPPT均能快速生成符合需求的专业PPT，简化设计流程，提升工作效率。

今日话题

视觉全能！自回归要反超扩散？Lumina-mGPT:任意分辨率丝滑逼真图像生成（上海AI Lab）

重点标签 Lumina-mGPT、多模态自回归模型、文本到图像生成、微调策略、全能任务统一

文章摘要

本文介绍了Lumina-mGPT，一个多模态自回归模型家族，它能够执行各种视觉和语言任务，特别是在从文本描述生成逼真图像方面表现出色。Lumina-mGPT模型基于大规模交织的文本-图像序列进行多模态生成预训练（mGPT），通过简单的decoder-only Transformer学习广泛的多模态能力。文章还提出了两种新的微调策略，FP-SFT和Omni-SFT，以充分发挥模型在不同范式中的潜力。

Lumina-mGPT模型采用了仅包含解码器的Transformer架构，通过多模态生成预训练（mGPT）进行初始化，并在来自各种任务的高质量多模态token上进行微调。模型在逼真图像生成和全能任务统一方面表现出色，具有高灵活性，能够处理不同的图像分辨率和长宽比。在文本到图像生成方面，Lumina-mGPT能够生成高分辨率、逼真的图像，并且支持任意长宽比的生成。

文章还对Lumina-mGPT与现有自回归图像生成方法和扩散基础方法进行了比较。结果显示，Lumina-mGPT在视觉质量和美学方面与现有方法相当，甚至在某些方面更优。此外，Lumina-mGPT还支持多种视觉和语言任务，包括视觉识别任务和视觉语言任务。

在实验部分，作者展示了Lumina-mGPT在基础文本到图像生成、全能任务统一以及与扩散方法的比较等方面的能力。实验结果表明，Lumina-mGPT在各种任务中都展现出了强大的多模态能力。然而，模型在生成速度、VQ-VAE重建质量以及某些情况下的提示跟随能力等方面还存在一些限制。

总的来说，Lumina-mGPT是一个强大的多模态自回归模型，能够在多种视觉和语言任务中实现高质量的输出。通过进一步的优化和扩展，该模型有望在未来的图像生成和视觉通用模型领域发挥更大的作用。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

视觉全能！自回归要反超扩散？Lumina-mGPT:任意分辨率丝滑逼真图像生成（上海AI Lab）

今日应用

今日话题

文章摘要

文章来源

Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

ECCV 2024｜GKGNet：多标签分类遇上图卷积网络ViG

相关文章

暂无评论

热门网址

热门标签