Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

AI最新资讯2个月前发布 tree
20 0 0

今日应用


今日话题


Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解
Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解
 

重点标签 Mamba模型Transformer实证研究混合架构上下文学习

文章摘要


近期,英伟达、CMU、普林斯顿等机构联合发表了一篇实证研究论文,对比了Mamba模型Transformer架构在大规模预训练场景下的性能。Mamba模型自推出以来,因其匹敌Transformer的潜力而备受关注。然而,在长上下文任务上,Mamba架构的语言模型不敌Transformer。值得注意的是,Mamba的创造者Tri Dao和Albert Gu也参与了这篇论文的撰写,展现了他们实事求是的科研精神。

研究团队训练了Mamba、Mamba-2、Mamba-2-Hybrid和Transformer四种架构的8B参数模型,并在35个NLP下游任务中进行了性能对比。实验结果显示,尽管Mamba和Mamba-2在语言建模方面表现出色,但在上下文学习和信息回忆方面落后于Transformer。特别是在MMLU基准测试中,Mamba模型与Transformer存在显著差距。

为了解决这一问题,研究团队提出了SSM-Transformer混合架构,即Mamba-2-Hybrid。这种混合模型在Mamba架构中加入了自注意力和MLP层,以期克服Mamba在上下文学习和信息检索方面的不足。消融实验结果表明,通过优化架构设计和参数选择,Mamba-2-Hybrid在多个基准测试中取得了优于Transformer的性能,同时在效率上也有所提升。

具体来说,Mamba-2-Hybrid在5-shot MMLU测评中取得了最高准确度,并在RULER基准和「电话簿」任务上展现了显著的长上下文能力。此外,当预训练长度扩展到128k并在自注意力层中使用全局注意力时,Mamba-2-Hybrid在「电话簿」任务上的100%准确率可以延伸到将近150k token。

这项研究结果表明,Mamba和Transformer各有优势,结合两者的混合架构Mamba-2-Hybrid能够在提高效率的同时,展现出更强大的性能,为未来AI模型的发展提供了新的可能性。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...