CVPR 2024|LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重

今日应用


今日话题


CVPR 2024|LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重
CVPR 2024|LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重
 

重点标签 Less-Attention Vision Transformer多头自注意力计算复杂度残差连接对角性保持损失

文章摘要


摘要与引言
近年来,深度学习技术在计算机视觉领域取得了显著进展,尤其是卷积神经网络(CNNs)在图像分类、目标检测和语义分割等任务中表现出色。然而,Transformer架构在自然语言处理领域的成功也启发了研究者将其应用于计算机视觉任务,即Vision Transformers(ViTs)。ViTs通过将图像划分为多个标记并利用自注意力机制来捕捉图像特征,但自注意力的计算复杂度随着标记数量的增加而呈平方增长,导致计算负担加重。为了解决这一问题,本文提出了一种新型的ViT架构——Less-Attention Vision Transformer(Less-Attention ViT),通过优化自注意力机制来降低计算复杂度,并引入对角性保持损失来提高模型性能。

方法论
Less-Attention ViT的核心思想是在每个阶段仅使用少量的原始注意力(Vanilla Attention, VA)层来计算自注意力,然后在后续的少注意力(Less Attention, LA)层中重复使用这些计算结果,以减少计算量。此外,作者还提出了一种新颖的损失函数——对角性保持损失,以确保注意力矩阵在变换过程中保持对角性,从而维护注意力的语义完整性。

在Less-Attention框架中,作者首先通过VA层进行标准的多头自注意力操作,然后通过线性变换模拟注意力矩阵,以减少平方计算并解决注意力饱和问题。在跨阶段的降采样过程中,作者引入了残差连接,以保留早期阶段学习到的重要语义信息,并允许全局上下文信息的传递。

实验
为了验证Less-Attention ViT的有效性,作者在多个基准数据集上进行了实验,并与现有的ViT变种进行了比较。实验结果表明,Less-Attention ViT在分类、检测和分割等多个视觉任务中均表现出优异的性能,同时在计算复杂度和内存消耗方面具有更低的特点。

主要贡献
1. 提出了一种新颖的ViT架构,通过重新参数化前面层计算的注意力矩阵生成注意力分数,解决了注意力饱和和计算负担问题。
2. 提出了一种新颖的损失函数——对角性保持损失,以保持注意力矩阵的对角性,确保注意力矩阵准确反映输入标记之间的相对重要性。
3. 在多个视觉任务中,Less-Attention ViT架构表现优异,同时在计算复杂度和内存消耗方面具有更低的特点。

复杂度分析
Less-Attention ViT通过在变换层内利用线性变换,避免了计算内积的需要,从而将注意力机制的计算复杂度从传统的O(N^2)降低到O(N),实现了显著的计算复杂度降低。

结论
Less-Attention ViT通过优化自注意力机制和引入对角性保持损失,成功解决了ViTs在计算复杂度和注意力饱和方面的问题,同时在多个视觉任务中展现出优异的性能。这一研究成果为计算机视觉领域提供了一种高效且性能强大的模型架构。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...