统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

AI最新资讯3周前发布 tree

11 0 0

今日应用

酷音

酷音网AI配音是一款可以在线将文字转成语音的智能配音工具网站.适用场景包括:短视频解说配音,步骤提示配音,课件朗读配音,有声书小说配音,AI虚拟客服配音等.更有各类方言以及外语配音资源,争做功能更强大好用真实的AI语音合成配音神器。

今日话题

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

重点标签 Transfusion、多模态模型、语言模型、扩散模型、图像生成

文章摘要

本文介绍了一种名为Transfusion的新型多模态生成模型，该模型能够同时处理离散数据（如文本或代码）和连续数据（如图像、音频和视频）。Transfusion模型通过结合语言模型损失函数与扩散模型，在单个transformer上训练混合模态序列，实现了两种模态的完全集成，且不丢失任何信息。研究者还展示了在文本和图像数据混合基础上预训练的Transfusion模型，参数量可达7B，并在多种单模态和跨模态基准测试中取得了优异的表现。

Transfusion模型的主要创新在于，它证明了可以在共享数据和参数的基础上，对不同模态使用单独的损失函数，即对文本使用语言建模损失，对图像使用扩散损失。模型架构中大部分参数来自单个transformer，用于处理各种模态的序列。对于文本，使用嵌入矩阵将输入整数转换为向量空间；对于图像，则尝试了两种方法压缩局部窗口的k×k patch向量到单一transformer向量。此外，Transfusion还结合了因果注意力和双向注意力，允许图像内部高效信息交流，同时限制与序列前面内容的交互。

实验结果表明，Transfusion模型在扩展能力上显著优于传统方法，如将图像量化并在离散图像token上训练语言模型。通过引入特定于模态的编码和解码层，Transfusion的性能得到了进一步提升。在GenEval基准测试中，7B参数的Transfusion模型在图像生成方面优于DALL-E 2和SDXL等流行模型，同时在文本生成方面达到了与Llama 1相同的性能水平。此外，Transfusion模型还能按照指示执行图像编辑任务，如将纸杯蛋糕从盘子中移除。

总的来说，Transfusion是一种有前途的多模态模型训练方法，能够有效地结合图像和文本生成的优点，达到领先水平。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

今日应用

今日话题

文章摘要

文章来源

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

实践教程｜旋转目标检测模型-TensorRT 部署(C++)

相关文章

暂无评论

热门网址

热门标签