混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合

AI最新资讯1个月前发布 tree
16 0 0

今日应用


今日话题


混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
 

重点标签 混合模态模型Transformer架构模态感知型专家稀疏性技术MoMa架构

文章摘要


Meta FAIR 的 Chameleon 团队在混合模态基础模型领域取得了重要进展,提出了一种新型的单一 Transformer 架构,名为 Chameleon。这种架构通过预测下一个 token 的目标,对混合模态序列进行建模,实现不同模态间的无缝推理和生成。Chameleon 在约 10 万亿混合模态 token 上完成预训练后,展现出强大的视觉和语言处理能力,尤其在生成混合模态长回答任务上表现突出。

然而,Chameleon 模型在扩展能力时面临算力需求的挑战。为了解决这一问题,Meta FAIR 团队进一步探索了 路由式稀疏架构,并提出了 MoMa(模态感知型专家混合架构)。MoMa 通过模态感知型稀疏性(modality-aware sparsity,简称 MaS)技术,优化模型以更好地捕获每个模态的特征,同时保持跨模态整合性能。

MoMa 模型基于 Chameleon 的早期融合架构,将图像和文本表示为离散 token 并应用自注意力机制,以捕获模态内和模态间的复杂关联。此外,MoMa 采用了 模态感知型混合专家 的宽度扩展方法,通过为不同模态构建专家分组,开发专门的处理路径,同时维持跨模态的信息整合能力。

MoMa 还整合了 混合深度(MoD) 技术,在模态分离前应用 MoD,以提升训练效率。在推理阶段,MoMa 使用辅助路由器来预测 token 被专家或层选中的可能性,保证因果关系。此外,MoMa 采用 升级改造(Upcycling) 方法,通过训练一个每个模态都有一个 FFN 专家的架构,然后将其转换为专家选择式 MoE 模块,以优化表征空间和路由机制。

为了促进 MoMa 的分布式训练,团队采用了 完全分片式数据并行(FSDP) 技术,并开发了平衡的数据混合方法以及针对不同模态专家的执行效率提升策略。此外,团队还采用了降低梯度通信量、自动化 GPU 核融合等优化技术,并通过 torch.compile 实现了图优化。

在实验中,MoMa 在不同计算层级上展现出了优异的扩展性能,特别是在引入特定模态的专家分组后,预训练效率得到了显著提升。实验结果还表明,MoMa 在混合文本和图像数据上的表现优于其他模型,证明了其在混合模态基础模型领域的潜力和优势。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...