统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者

AI最新资讯3周前发布 tree
11 0 0

今日应用


今日话题


统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
 

重点标签 Transfusion多模态模型语言模型扩散模型图像生成

文章摘要


本文介绍了一种名为Transfusion的新型多模态生成模型,该模型能够同时处理离散数据(如文本或代码)和连续数据(如图像、音频和视频)。Transfusion模型通过结合语言模型损失函数与扩散模型,在单个transformer上训练混合模态序列,实现了两种模态的完全集成,且不丢失任何信息。研究者还展示了在文本和图像数据混合基础上预训练的Transfusion模型,参数量可达7B,并在多种单模态和跨模态基准测试中取得了优异的表现。

Transfusion模型的主要创新在于,它证明了可以在共享数据和参数的基础上,对不同模态使用单独的损失函数,即对文本使用语言建模损失,对图像使用扩散损失。模型架构中大部分参数来自单个transformer,用于处理各种模态的序列。对于文本,使用嵌入矩阵将输入整数转换为向量空间;对于图像,则尝试了两种方法压缩局部窗口的k×k patch向量到单一transformer向量。此外,Transfusion还结合了因果注意力和双向注意力,允许图像内部高效信息交流,同时限制与序列前面内容的交互。

实验结果表明,Transfusion模型在扩展能力上显著优于传统方法,如将图像量化并在离散图像token上训练语言模型。通过引入特定于模态的编码和解码层,Transfusion的性能得到了进一步提升。在GenEval基准测试中,7B参数的Transfusion模型在图像生成方面优于DALL-E 2和SDXL等流行模型,同时在文本生成方面达到了与Llama 1相同的性能水平。此外,Transfusion模型还能按照指示执行图像编辑任务,如将纸杯蛋糕从盘子中移除。

总的来说,Transfusion是一种有前途的多模态模型训练方法,能够有效地结合图像和文本生成的优点,达到领先水平。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...