Mamba该如何解决「伪影」问题?Mamba®:只需几个寄存器即可成为MVP!

今日应用


今日话题


Mamba该如何解决「伪影」问题?Mamba®:只需几个寄存器即可成为MVP!
Mamba该如何解决「伪影」问题?Mamba®:只需几个寄存器即可成为MVP!
 

重点标签 Mamba®模型视觉Mamba伪影问题性能提升ImageNet精度

文章摘要


本文介绍了一种新型的视觉模型——Mamba®,它在处理图像分类和语义分割任务上展现出了卓越的性能。Mamba®模型基于视觉Mamba架构,通过引入寄存器(register tokens)来解决特征中的“伪影”问题,从而提高了模型的准确性和效率。

Mamba®模型的改进

Mamba®模型的核心改进在于对视觉Mamba架构的优化。在原始的视觉Mamba中,存在一种被称为“伪影”的现象,即在信息量较低的背景区域中出现了高范数的异常tokens。这些伪影影响了模型对图像中语义内容的关注。为了解决这一问题,Mamba®模型引入了寄存器,将与输入无关的register tokens均匀地插入到输入序列中,并在模型的最后将这些tokens的输出连接起来,形成最终预测的全局表征。

性能提升

Mamba®模型在ImageNet数据集上达到了82.9%的精度,优于Vim-B模型的81.8%。此外,在ADE20k数据集上进行的语义分割实验中,Mamba®模型同样展现出了优异的性能,其中Mamba®-B模型的mIoU达到了47.7%,比DeiT-B模型高出2.2%。

实验结果分析

实验结果显示,Mamba®模型在图像分类和语义分割任务上的性能均有显著提升。特别是在ImageNet数据集上,即使是较小的Mamba®-Tiny模型也比Vim模型有1.3%的精度提升。此外,通过增加模型参数和输入分辨率,Mamba®模型的精度可以进一步提升至84.5%。

消融实验

消融实验表明,register tokens的数量和分布对模型性能有显著影响。当register tokens数量为12时,模型性能达到最佳。同时,实验还发现,将register tokens均匀分布在输入序列中,并在最终预测中使用这些tokens,可以显著提高模型的精度。

结论

Mamba®模型通过引入寄存器tokens解决了视觉Mamba中的“伪影”问题,提高了模型对图像中语义内容的关注,从而在图像分类和语义分割任务上取得了显著的性能提升。这一改进不仅提高了模型的准确性,也为视觉模型的设计提供了新的思路。

作者信息:科技猛兽,清华大学自动化系硕士,专注于AI边缘计算领域的研究,包括模型压缩、搜索、量化、加速等技术,致力于在端侧设备上实现高效的AI应用。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...