CVPR 2024 Highlight|一举实现多个CV任务SOTA!DCNv4: 动态与稀疏操作的高效融合

AI最新资讯3个月前发布 tree
38 0 0

今日应用


今日话题


CVPR 2024 Highlight|一举实现多个CV任务SOTA!DCNv4: 动态与稀疏操作的高效融合
CVPR 2024 Highlight|一举实现多个CV任务SOTA!DCNv4: 动态与稀疏操作的高效融合
 

重点标签 DCNv4稀疏算子内存访问优化动态特性计算机视觉

文章摘要


摘要:
计算机视觉领域,卷积神经网络(ConvNets)的性能很大程度上取决于其感受野的大小和形状。然而,传统卷积操作是固定的,无法适应图像内容的变化。为了解决这一问题,可变形卷积(Deformable Convolution,简称DCN)通过引入额外的可学习偏移量来调整卷积核的形状,允许网络自适应地关注输入特征图的特定区域。尽管DCN在目标检测和图像分割等感知任务上得到了广泛应用,但其运行速度偏慢,收敛速度弱于Depth-wise Conv和注意力机制,限制了其作为首要选择的可能性。

针对这些问题,研究团队进行了细致的分析,并提出了改进措施,推出了DCNv4算子。DCNv4在实现速度和性能上都有显著提升,具体改进包括:

1. 去除softmax归一化:在空间聚合中,去除了DCNv3中的softmax归一化,增强了网络的动态特性和表达能力。这一改进使得DCNv4在没有标准注意力机制“key”概念的情况下,不再需要softmax归一化,从而提高了性能。

2. 优化内存访问:通过对现有实现的指令级内核分析,发现内存访问占据了大部分的计算成本。因此,研究团队优化了内存访问模式,减少了冗余操作,显著提高了运行速度。

理论上,DCN作为具有3×3窗口的稀疏算子,应该比采用更大窗口尺寸的其他常见算子更快。然而,实际情况并非如此。研究团队进行了GPU效率的理论分析,发现内存访问成本根据读取内存的方式有很大的差异。通过节省额外的内存指令显著提高了DCN的速度,使稀疏算子的速度优势成为现实。

最终,DCNv4算子在实际运行速度上取得了最优,三倍于DCNv3的效果。此外,DCNv4在多个视觉任务上展现了卓越的性能,如图像分类、实例分割、语义分割等任务中,收敛速度更快,最终性能也更优。当DCNv4集成到生成模型中,如潜在扩散模型的U-Net,它在图像生成任务中也展现了出色的性能。

研究团队还对DCNv4在基于扩散的生成模型的生成任务中的表现进行了验证。在Stable Diffusion中使用的U-Net作为基线,并替换了U-Net中的注意力模块和常规的3×3卷积,DCNv4在生成建模中也表现良好,与U-Net中常规卷积相比,在FID/吞吐量方面取得了更好的结果,且参数更少。

这项研究不仅推动了DCN算子的发展,也为计算机视觉领域的研究提供了新的思路和工具。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...