ICML’24|LayerNorm OUT!华为诺亚提出SLAB:渐进重参数化 BN 的视觉Transformer

AI最新资讯3个月前发布 tree
43 0 0

今日应用


今日话题


ICML’24|LayerNorm OUT!华为诺亚提出SLAB:渐进重参数化 BN 的视觉Transformer
ICML’24|LayerNorm OUT!华为诺亚提出SLAB:渐进重参数化 BN 的视觉Transformer
 

重点标签 SLAB-Swin性能提升Transformer计算瓶颈渐进重参数化BatchNorm简化线性注意力机制ImageNet1k数据集

文章摘要


摘要:
华为诺亚方舟实验室提出一种新型视觉Transformer模型SLAB,该模型在ImageNet1k数据集上实现了83.6%的分类精度,相比Flatten-Swin-S模型精度提升了0.1%,同时时延减少了2.4ms。SLAB模型通过引入简化线性注意力机制渐进重参数化BatchNorm技术,有效提升了Transformer架构的效率,降低了计算成本,使得模型在资源受限的设备上部署更为容易。

1. SLAB模型介绍:
SLAB模型主要包含两大创新点:简化线性注意力机制(Simplified Linear Attention, SLA)和渐进重参数化BatchNorm(Progressive Re-parameterized Batch Normalization, PRepBN)。SLA模块利用ReLU作为核函数,结合深度卷积进行局部特征增强,简化了注意力机制的计算过程。而PRepBN技术则是在训练过程中逐步将LayerNorm替换为BatchNorm,通过重参数化方法提高训练稳定性和整体性能。

2. 背景与挑战:
Transformer架构虽然在自然语言处理和计算机视觉任务中表现出色,但其高计算成本限制了在资源受限设备上的部署。现有研究主要集中在降低Self-Attention机制的计算复杂度和优化Normolization层。然而,如何在效率和准确性之间取得平衡仍是一个挑战。

3. 渐进重参数化BatchNorm(PRepBN):
PRepBN技术通过在训练过程中逐步将LayerNorm替换为BatchNorm,解决了直接使用BatchNorm可能导致的训练性能下降问题。PRepBN采用重参数化方法,使得训练后的模型可以转换为纯BatchNorm,从而在推理过程中与线性层合并,降低计算成本。

4. 简化线性注意力机制(SLA):
SLA模块通过使用ReLU函数和深度卷积简化了注意力机制的计算过程。与传统的基于Softmax的注意力相比,SLA在保持性能的同时,显著降低了计算复杂度。

5. 实验结果:
在ImageNet-1K图像分类实验中,SLAB模型在不同Backbone上均展现出了优越的性能。例如,SLAB-SwinT模型在ImageNet-1K上达到了83.6%的top-1精度,延时为16.2ms,比Flatten-Swin模型低2.4ms,精度提高了0.1%。此外,在目标检测和语言建模任务中,SLAB模型同样取得了良好的性能。

6. 消融实验:
消融实验结果表明,SLA和PRepBN技术对于提高模型效率和稳定性具有重要作用。结合这两种技术,可以在保持精度的同时,显著降低模型的延时。

7. 作者信息:
本文作者为科技猛兽,清华大学自动化系硕士,专注于AI边缘计算领域的研究,包括模型压缩、搜索、量化、加速等技术。

8. 总结:
SLAB模型通过引入简化线性注意力机制和渐进重参数化BatchNorm技术,有效提升了Transformer架构的效率,降低了计算成本,为在资源受限设备上部署高效视觉模型提供了新的思路。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...