Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

AI最新资讯2个月前发布 tree

20 0 0

今日应用

[搬书匠]

搬书匠是一款可免费下载书籍的应用，提供丰富的电子书资源，涵盖多个领域，方便用户随时阅读，享受阅读的乐趣。

今日话题

Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

重点标签 Mamba模型、Transformer、实证研究、混合架构、上下文学习

文章摘要

近期，英伟达、CMU、普林斯顿等机构联合发表了一篇实证研究论文，对比了Mamba模型与Transformer架构在大规模预训练场景下的性能。Mamba模型自推出以来，因其匹敌Transformer的潜力而备受关注。然而，在长上下文任务上，Mamba架构的语言模型不敌Transformer。值得注意的是，Mamba的创造者Tri Dao和Albert Gu也参与了这篇论文的撰写，展现了他们实事求是的科研精神。

研究团队训练了Mamba、Mamba-2、Mamba-2-Hybrid和Transformer四种架构的8B参数模型，并在35个NLP下游任务中进行了性能对比。实验结果显示，尽管Mamba和Mamba-2在语言建模方面表现出色，但在上下文学习和信息回忆方面落后于Transformer。特别是在MMLU基准测试中，Mamba模型与Transformer存在显著差距。

为了解决这一问题，研究团队提出了SSM-Transformer混合架构，即Mamba-2-Hybrid。这种混合模型在Mamba架构中加入了自注意力和MLP层，以期克服Mamba在上下文学习和信息检索方面的不足。消融实验结果表明，通过优化架构设计和参数选择，Mamba-2-Hybrid在多个基准测试中取得了优于Transformer的性能，同时在效率上也有所提升。

具体来说，Mamba-2-Hybrid在5-shot MMLU测评中取得了最高准确度，并在RULER基准和「电话簿」任务上展现了显著的长上下文能力。此外，当预训练长度扩展到128k并在自注意力层中使用全局注意力时，Mamba-2-Hybrid在「电话簿」任务上的100%准确率可以延伸到将近150k token。

这项研究结果表明，Mamba和Transformer各有优势，结合两者的混合架构Mamba-2-Hybrid能够在提高效率的同时，展现出更强大的性能，为未来AI模型的发展提供了新的可能性。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

今日应用

今日话题

文章摘要

文章来源

用ViT取代Encoder！VIM：使用 ViT 改进的 VQGAN 进行矢量量化图像生成（ICLR 2022）

实践教程｜无需nms，onnxruntime20行代码玩转RT-DETR

相关文章

暂无评论

热门网址

热门标签