其实Mamba是一种线性注意力？清华大学黄高团队揭秘开视觉Mamba的真实面目！

AI最新资讯3个月前发布 tree

45 0 0

今日应用

华为AI数字人

华为云提供稳定可靠、安全可信、可持续发展的云服务，致力于让云无处不在，让智能无所不及，共建智能世界云底座。助力企业降本增效，全球300万客户的共同选择。7x24小时专业服务支持，5天内无理由退订，免费快速备案。

今日话题

其实Mamba是一种线性注意力？清华大学黄高团队揭秘开视觉Mamba的真实面目！

重点标签 MLLA、Linear Attention、Selective State Space Model、Mamba、Transformer

文章摘要

本文深入探讨了Mamba模型与Linear Attention Transformer之间的相似性和差异，揭示了Mamba成功的关键因素，并提出了一种新的线性注意力模型MLLA。Mamba是一种具有线性计算复杂度的状态空间模型，在处理高分辨率视觉任务中表现出色。研究发现，Mamba与Linear Attention Transformer在公式上存在紧密联系，但主要有六点区别：输入门、遗忘门、快捷连接、无注意力归一化、single-head和修改后的Block Design。

文章通过理论分析和实验验证，发现遗忘门和Block Design是Mamba性能优越的核心贡献。遗忘门虽然提供了局部偏差和位置信息，但其循环计算可能不适合非自回归的视觉模型。作者提出，适当的位置编码可以替代遗忘门，保持并行化计算和快速推理。基于这些发现，作者开发了MLLA架构，继承了Mamba的核心优点，并在视觉任务上表现更佳。

MLLA模型在图像分类、目标检测和语义分割等多个视觉任务上进行了实验，结果表明其性能优于视觉Mamba模型，同时享受并行化计算和快速推理的优势。此外，MLLA模型还具有更高的可扩展性，如MLLA-B在ImageNet-1K分类任务上达到了85.3%的精度。

文章还详细分析了每种设计的影响，如输入门可以略微提升模型精度，但会导致吞吐量降低；遗忘门可以提高性能，但降低吞吐量；Shortcut提供精度增益，但影响吞吐量；归一化对稳定训练和提高模型容量至关重要；而多头设计虽然提高性能，但增加计算成本。最终，MLLA模型通过集成有用的设计，实现了性能和效率的平衡。

总的来说，本文不仅揭示了Mamba与Linear Attention Transformer之间的关系，还提出了一种新的线性注意力模型MLLA，通过实验验证了其在视觉任务上的有效性，为未来视觉模型的研究提供了有价值的参考。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

其实Mamba是一种线性注意力？清华大学黄高团队揭秘开视觉Mamba的真实面目！

今日应用

今日话题

文章摘要

文章来源

1.8B参数，阿里云首个联合DNA、RNA、蛋白质的生物大模型，涵盖16.9W物种

启动招募 | 英特尔大湾区科技创新中心2024企业成长加速计划，培育「人工智能⁺」创新领袖！

相关文章

暂无评论

热门网址

热门标签