参数量减少40倍，推理速度提高6倍！UV-Mamba：结合变形卷积的网络如何克服SSM的内存问题？

AI最新资讯1周前发布 tree

7 0 0

今日应用

Text To Speech

Text To Speech，文本转语音，文本朗读，让机器能够说话。构建自然说话的应用和服务，从 147 种语言和变体中选择 456 种语音。借助高表现力和类似人类的神经语音，让你的方案生动起来。

今日话题

参数量减少40倍，推理速度提高6倍！UV-Mamba：结合变形卷积的网络如何克服SSM的内存问题？

重点标签 tag1、UV-Mamba、神经网络、遥感图像、城市村庄边界

文章摘要

摘要：
本文介绍了一种名为UV-Mamba的新型神经网络模型，该模型结合了变形卷积和状态空间模型，用于高分辨率遥感图像中精确检测城市村庄边界。UV-Mamba模型通过结合变形卷积（DCN）来抑制状态空间模型（SSM）中图像大小增加而带来的内存损失问题。其结构采用了一个编码器-解码器框架，包括一个拥有四个可变形状态空间扩展（DSSA）块的编码器用于高效的 multi-level语义提取，以及一个解码器用于集成提取的语义信息。作者在北京和西安数据集上进行了实验，结果显示UV-Mamba达到了最先进的表现，具体而言，作者的模型在北京和西安数据集上的 IoU 分别达到了73.3%和78.1%，分别比现有最佳模型提高了1.2%和3.4%的 IoU，同时在推理速度上快6倍，参数数量上小40倍。

详细内容：
城市村庄作为城市化过程中的历史遗留物，其问题不仅关系到城市的形象美感和清洁，而且直接影响着居民的生活方式，公共安全和社会稳定。传统收集城市村庄信息的方法主要依赖于人工实地调查，这既耗时又费力。为了实现城市村庄边界的自动识别，利用卫星影像进行图像分割技术的探索已引起了广泛关注。UV-Mamba模型利用SSM的全局建模能力和线性复杂度的变形卷积的 spatial几何变形能力，通过使用DCN来为感兴趣的区域分配更大的权重，从而改善SSM在长时间序列建模中的内存损失问题，提高SSM在不同序列上保留信息的能力。

UV-Mamba模型的主要贡献包括：
1. 引入了UV-Mamba，这是一种基于SSM的新颖而高效的建筑，它既保留了线性计算复杂性，又具有加强的全局建模能力。
2. 设计了一种DSSA模块，它通过使用变形卷积为感兴趣的区域分配更大的权重，以减轻SSM在长距离建模过程中的记忆损失，从而提高SSM在扩大序列后保留信息的能力。
3. 在中国两个城市北京和西安进行了广泛的实验，结果表明作者的方法取得了优越的性能，超过了基于CNN的现有方法和基于Transformer的方法。

在实验部分，作者使用来自北京和西安的两个具有独特建筑风格的中国城市的数据集，这两个城市由于其显著的地理位置差异而具有不同的建筑方式。北京数据集包含531张图像，西安数据集包括205张图像。作者将这些数据集划分为训练、验证和测试集，比例为6:2:2。每张图像的分辨率均为1024X1024，以确保包含主要的城市信息。实验结果表明，UV-Mamba模型在两个数据集上都达到了最新的性能，可视化的分割结果见图4。关于分割精度，与先前最佳的城市村边界识别模型UV-SAM相比，作者的模型在两个数据集上的IoU提高了1%-3%，而参数大小只有UV-SAM的1/40。此外，在ACC和OA的准确性指标中也观察到了类似的性能提升。

结论：
UV-Mamba模型通过减小长序列SSM建模中的内存损失，在稠密环境中保持全局建模能力，且线性复杂度的高精度分割和定位城市村建筑。这项研究将为城市村现代化提供重要的技术支持，推动城市发展朝着更高的宜居性、和谐性和可持续性方向迈进。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

参数量减少40倍，推理速度提高6倍！UV-Mamba：结合变形卷积的网络如何克服SSM的内存问题？

今日应用

今日话题

文章摘要

文章来源

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

OCR研究不曾结束，它才刚刚开始——GOT-OCR-2.0模型开源！

相关文章

暂无评论

热门网址

热门标签