视觉全能!自回归要反超扩散?Lumina-mGPT:任意分辨率丝滑逼真图像生成(上海AI Lab)

AI最新资讯1个月前发布 tree
14 0 0

今日应用


今日话题


视觉全能!自回归要反超扩散?Lumina-mGPT:任意分辨率丝滑逼真图像生成(上海AI Lab)
视觉全能!自回归要反超扩散?Lumina-mGPT:任意分辨率丝滑逼真图像生成(上海AI Lab)
 

重点标签 Lumina-mGPT多模态自回归模型文本到图像生成微调策略全能任务统一

文章摘要


本文介绍了Lumina-mGPT,一个多模态自回归模型家族,它能够执行各种视觉和语言任务,特别是在从文本描述生成逼真图像方面表现出色。Lumina-mGPT模型基于大规模交织的文本-图像序列进行多模态生成预训练(mGPT),通过简单的decoder-only Transformer学习广泛的多模态能力。文章还提出了两种新的微调策略,FP-SFT和Omni-SFT,以充分发挥模型在不同范式中的潜力。

Lumina-mGPT模型采用了仅包含解码器的Transformer架构,通过多模态生成预训练(mGPT)进行初始化,并在来自各种任务的高质量多模态token上进行微调。模型在逼真图像生成和全能任务统一方面表现出色,具有高灵活性,能够处理不同的图像分辨率和长宽比。在文本到图像生成方面,Lumina-mGPT能够生成高分辨率、逼真的图像,并且支持任意长宽比的生成。

文章还对Lumina-mGPT与现有自回归图像生成方法和扩散基础方法进行了比较。结果显示,Lumina-mGPT在视觉质量和美学方面与现有方法相当,甚至在某些方面更优。此外,Lumina-mGPT还支持多种视觉和语言任务,包括视觉识别任务和视觉语言任务。

在实验部分,作者展示了Lumina-mGPT在基础文本到图像生成全能任务统一以及与扩散方法的比较等方面的能力。实验结果表明,Lumina-mGPT在各种任务中都展现出了强大的多模态能力。然而,模型在生成速度、VQ-VAE重建质量以及某些情况下的提示跟随能力等方面还存在一些限制。

总的来说,Lumina-mGPT是一个强大的多模态自回归模型,能够在多种视觉和语言任务中实现高质量的输出。通过进一步的优化和扩展,该模型有望在未来的图像生成和视觉通用模型领域发挥更大的作用。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...