速览多模态模型 Transfusion 和 Show-o:用 Transformer + 扩散模型同时处理文本和图像

今日应用


今日话题


速览多模态模型 TransfusionShow-o:用 Transformer + 扩散模型同时处理文本和图像
速览多模态模型 Transfusion 和 Show-o:用 Transformer + 扩散模型同时处理文本和图像
 

重点标签 tag1多模态模型tag2Transfusiontag3Show-otag4图像生成tag5Transformer

文章摘要


极市导读:本文介绍了两个大型多模态模型Transfusion和Show-o,它们结合了Transformer和扩散模型来处理文本和图像。Transfusion在图像生成上表现更佳,而Show-o在资源需求上更为高效。

读前准备:在阅读这两篇新工作时,建议读者先熟悉以Transformer为代表的自回归生成、以DDPM、LDM、DiT为代表的扩散模型、以MaskGIT、MAR为代表的掩码自回归图像生成这三类生成模型,并简单了解此前较为先进的Chameleon多模态模型。

自回归模型:自回归模型用于生成有序序列,如文本生成。训练时,需要假设每个元素的取值是有限的,并通过神经网络模型预测下一个元素的分布。

掩码自回归模型:为了提升自回归模型的速度和表现,研究者提出了掩码自回归模型,它在每轮生成时可以生成多个像素,并且像素的先后顺序完全随机。

扩散模型:扩散模型将图像生成表示成一个噪声图像从时刻t开始随时间变化,最后得到目标图像的过程。为了减少计算量,一般会先用一个自编码器压缩图像,再用扩散模型生成压缩过的小图像。

Chameleon:Chameleon是此前较为先进的多模态模型,它在语言模型的基础上,并没有对图像的处理多加设计,只是以离散自编码器的编码器为图像词元化工具,以其解码器为图像词元化还原工具。

功能与效果:Transfusion是一个标准多模态模型,输入输出可以有图像词元的语言模型。它输入已知文本和图像,输出后续文本和图像。Show-o可以在序列前多输入一个区分任务的特殊词元,因此可以完成多模态理解、图像生成、多模态生成等丰富的任务。

方法:Transfusion和Show-o的设计初衷都是引入更先进的图像生成技术来改进图像词元生成。Transfusion引入了完整的图像扩散模型,并把文本生成和图像生成当成两个相对独立的任务。Show-o将标准自回归改成了更强大的掩码自回归。

定量评测结果:Transfusion在图像生成上表现优于Chameleon,而Show-o在图像指标上超越了此前多数多模态模型,但比Transfusion差了不少。Show-o的最大优点是需要的图像训练数据远远少于其他模型。

总结与讨论:Transfusion和Show-o都用到了更先进的图像生成技术,Transfusion使用标准扩散模型实现图像生成,而Show-o使用掩码自回归实现图像生成。二者在文本、图像指标上都超越了之前的多模态模型,但Transfusion的表现更好,而Show-o需要的训练资源少得多。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...