速览多模态模型 Transfusion 和 Show-o：用 Transformer + 扩散模型同时处理文本和图像

今日应用

释放每一帧的创造力和创新，免费AI视频生成平台，专业创建文生视频和AI动态短视频。将文本转换为高质量AI视频，适用于多种场景，如抖音短视频、小说推文、AI短片、AI电影等制作。

今日话题

速览多模态模型 Transfusion 和 Show-o：用 Transformer + 扩散模型同时处理文本和图像
速览多模态模型 Transfusion 和 Show-o：用 Transformer + 扩散模型同时处理文本和图像

重点标签 tag1、多模态模型、tag2、Transfusion、tag3、Show-o、tag4、图像生成、tag5、Transformer

文章摘要

极市导读：本文介绍了两个大型多模态模型：Transfusion和Show-o，它们结合了Transformer和扩散模型来处理文本和图像。Transfusion在图像生成上表现更佳，而Show-o在资源需求上更为高效。

读前准备：在阅读这两篇新工作时，建议读者先熟悉以Transformer为代表的自回归生成、以DDPM、LDM、DiT为代表的扩散模型、以MaskGIT、MAR为代表的掩码自回归图像生成这三类生成模型，并简单了解此前较为先进的Chameleon多模态模型。

自回归模型：自回归模型用于生成有序序列，如文本生成。训练时，需要假设每个元素的取值是有限的，并通过神经网络模型预测下一个元素的分布。

掩码自回归模型：为了提升自回归模型的速度和表现，研究者提出了掩码自回归模型，它在每轮生成时可以生成多个像素，并且像素的先后顺序完全随机。

扩散模型：扩散模型将图像生成表示成一个噪声图像从时刻t开始随时间变化，最后得到目标图像的过程。为了减少计算量，一般会先用一个自编码器压缩图像，再用扩散模型生成压缩过的小图像。

Chameleon：Chameleon是此前较为先进的多模态模型，它在语言模型的基础上，并没有对图像的处理多加设计，只是以离散自编码器的编码器为图像词元化工具，以其解码器为图像词元化还原工具。

功能与效果：Transfusion是一个标准多模态模型，输入输出可以有图像词元的语言模型。它输入已知文本和图像，输出后续文本和图像。Show-o可以在序列前多输入一个区分任务的特殊词元，因此可以完成多模态理解、图像生成、多模态生成等丰富的任务。

方法：Transfusion和Show-o的设计初衷都是引入更先进的图像生成技术来改进图像词元生成。Transfusion引入了完整的图像扩散模型，并把文本生成和图像生成当成两个相对独立的任务。Show-o将标准自回归改成了更强大的掩码自回归。

定量评测结果：Transfusion在图像生成上表现优于Chameleon，而Show-o在图像指标上超越了此前多数多模态模型，但比Transfusion差了不少。Show-o的最大优点是需要的图像训练数据远远少于其他模型。

总结与讨论：Transfusion和Show-o都用到了更先进的图像生成技术，Transfusion使用标准扩散模型实现图像生成，而Show-o使用掩码自回归实现图像生成。二者在文本、图像指标上都超越了之前的多模态模型，但Transfusion的表现更好，而Show-o需要的训练资源少得多。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

速览多模态模型 Transfusion 和 Show-o：用 Transformer + 扩散模型同时处理文本和图像

今日应用

今日话题

文章摘要

文章来源

电力、芯片制造、数据和延迟成四大限制因素，Scaling Law能续到2030年吗？

3D点云学习新架构！PointRWKV：刷新点云表征学习性能及FLOPs！

相关文章

暂无评论

热门网址

热门标签