其实Mamba是一种线性注意力?清华大学黄高团队揭秘开视觉Mamba的真实面目!

AI最新资讯3个月前发布 tree
45 0 0

今日应用


今日话题


其实Mamba是一种线性注意力?清华大学黄高团队揭秘开视觉Mamba的真实面目!
其实Mamba是一种线性注意力?清华大学黄高团队揭秘开视觉Mamba的真实面目!
 

重点标签 MLLALinear AttentionSelective State Space ModelMambaTransformer

文章摘要


本文深入探讨了Mamba模型与Linear Attention Transformer之间的相似性和差异,揭示了Mamba成功的关键因素,并提出了一种新的线性注意力模型MLLA。Mamba是一种具有线性计算复杂度的状态空间模型,在处理高分辨率视觉任务中表现出色。研究发现,Mamba与Linear Attention Transformer在公式上存在紧密联系,但主要有六点区别:输入门、遗忘门、快捷连接、无注意力归一化、single-head和修改后的Block Design。

文章通过理论分析和实验验证,发现遗忘门和Block Design是Mamba性能优越的核心贡献。遗忘门虽然提供了局部偏差和位置信息,但其循环计算可能不适合非自回归的视觉模型。作者提出,适当的位置编码可以替代遗忘门,保持并行化计算和快速推理。基于这些发现,作者开发了MLLA架构,继承了Mamba的核心优点,并在视觉任务上表现更佳。

MLLA模型在图像分类、目标检测和语义分割等多个视觉任务上进行了实验,结果表明其性能优于视觉Mamba模型,同时享受并行化计算和快速推理的优势。此外,MLLA模型还具有更高的可扩展性,如MLLA-B在ImageNet-1K分类任务上达到了85.3%的精度。

文章还详细分析了每种设计的影响,如输入门可以略微提升模型精度,但会导致吞吐量降低;遗忘门可以提高性能,但降低吞吐量;Shortcut提供精度增益,但影响吞吐量;归一化对稳定训练和提高模型容量至关重要;而多头设计虽然提高性能,但增加计算成本。最终,MLLA模型通过集成有用的设计,实现了性能和效率的平衡。

总的来说,本文不仅揭示了Mamba与Linear Attention Transformer之间的关系,还提出了一种新的线性注意力模型MLLA,通过实验验证了其在视觉任务上的有效性,为未来视觉模型的研究提供了有价值的参考。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...