Mamba该如何解决「伪影」问题？Mamba®：只需几个寄存器即可成为MVP！

AI最新资讯4周前发布 tree

7 0 0

今日应用

艺映AI

释放每一帧的创造力和创新，免费AI视频生成平台，专业创建文生视频和AI动态短视频。将文本转换为高质量AI视频，适用于多种场景，如抖音短视频、小说推文、AI短片、AI电影等制作。

今日话题

Mamba该如何解决「伪影」问题？Mamba®：只需几个寄存器即可成为MVP！

重点标签 Mamba®模型、视觉Mamba、伪影问题、性能提升、ImageNet精度

文章摘要

本文介绍了一种新型的视觉模型——Mamba®，它在处理图像分类和语义分割任务上展现出了卓越的性能。Mamba®模型基于视觉Mamba架构，通过引入寄存器（register tokens）来解决特征中的“伪影”问题，从而提高了模型的准确性和效率。

Mamba®模型的改进

Mamba®模型的核心改进在于对视觉Mamba架构的优化。在原始的视觉Mamba中，存在一种被称为“伪影”的现象，即在信息量较低的背景区域中出现了高范数的异常tokens。这些伪影影响了模型对图像中语义内容的关注。为了解决这一问题，Mamba®模型引入了寄存器，将与输入无关的register tokens均匀地插入到输入序列中，并在模型的最后将这些tokens的输出连接起来，形成最终预测的全局表征。

性能提升

Mamba®模型在ImageNet数据集上达到了82.9%的精度，优于Vim-B模型的81.8%。此外，在ADE20k数据集上进行的语义分割实验中，Mamba®模型同样展现出了优异的性能，其中Mamba®-B模型的mIoU达到了47.7%，比DeiT-B模型高出2.2%。

实验结果分析

实验结果显示，Mamba®模型在图像分类和语义分割任务上的性能均有显著提升。特别是在ImageNet数据集上，即使是较小的Mamba®-Tiny模型也比Vim模型有1.3%的精度提升。此外，通过增加模型参数和输入分辨率，Mamba®模型的精度可以进一步提升至84.5%。

消融实验

消融实验表明，register tokens的数量和分布对模型性能有显著影响。当register tokens数量为12时，模型性能达到最佳。同时，实验还发现，将register tokens均匀分布在输入序列中，并在最终预测中使用这些tokens，可以显著提高模型的精度。

结论

Mamba®模型通过引入寄存器tokens解决了视觉Mamba中的“伪影”问题，提高了模型对图像中语义内容的关注，从而在图像分类和语义分割任务上取得了显著的性能提升。这一改进不仅提高了模型的准确性，也为视觉模型的设计提供了新的思路。

作者信息：科技猛兽，清华大学自动化系硕士，专注于AI边缘计算领域的研究，包括模型压缩、搜索、量化、加速等技术，致力于在端侧设备上实现高效的AI应用。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Mamba该如何解决「伪影」问题？Mamba®：只需几个寄存器即可成为MVP！

今日应用

今日话题

文章摘要

Mamba®模型的改进

性能提升

实验结果分析

消融实验

结论

文章来源

每年能省200万美元，没有爱思唯尔，MIT过得还不错

ECCV 2024｜LiSe：已开源，澳门大学提出使用2D场景扩展无监督3D目标检测

相关文章

暂无评论

热门网址

热门标签