ICML’24｜LayerNorm OUT！华为诺亚提出SLAB：渐进重参数化 BN 的视觉Transformer

AI最新资讯3个月前发布 tree

43 0 0

今日应用

PlaiDay

与PlaiDay一起探索无限创意的世界!潜入我们独特的社交平台，人工智能驱动的想象力满足个人表达。

今日话题

ICML’24｜LayerNorm OUT！华为诺亚提出SLAB：渐进重参数化 BN 的视觉Transformer

重点标签 SLAB-Swin性能提升、Transformer计算瓶颈、渐进重参数化BatchNorm、简化线性注意力机制、ImageNet1k数据集

文章摘要

摘要：
华为诺亚方舟实验室提出一种新型视觉Transformer模型SLAB，该模型在ImageNet1k数据集上实现了83.6%的分类精度，相比Flatten-Swin-S模型精度提升了0.1%，同时时延减少了2.4ms。SLAB模型通过引入简化线性注意力机制和渐进重参数化BatchNorm技术，有效提升了Transformer架构的效率，降低了计算成本，使得模型在资源受限的设备上部署更为容易。

1. SLAB模型介绍：
SLAB模型主要包含两大创新点：简化线性注意力机制（Simplified Linear Attention, SLA）和渐进重参数化BatchNorm（Progressive Re-parameterized Batch Normalization, PRepBN）。SLA模块利用ReLU作为核函数，结合深度卷积进行局部特征增强，简化了注意力机制的计算过程。而PRepBN技术则是在训练过程中逐步将LayerNorm替换为BatchNorm，通过重参数化方法提高训练稳定性和整体性能。

2. 背景与挑战：
Transformer架构虽然在自然语言处理和计算机视觉任务中表现出色，但其高计算成本限制了在资源受限设备上的部署。现有研究主要集中在降低Self-Attention机制的计算复杂度和优化Normolization层。然而，如何在效率和准确性之间取得平衡仍是一个挑战。

3. 渐进重参数化BatchNorm（PRepBN）：
PRepBN技术通过在训练过程中逐步将LayerNorm替换为BatchNorm，解决了直接使用BatchNorm可能导致的训练性能下降问题。PRepBN采用重参数化方法，使得训练后的模型可以转换为纯BatchNorm，从而在推理过程中与线性层合并，降低计算成本。

4. 简化线性注意力机制（SLA）：
SLA模块通过使用ReLU函数和深度卷积简化了注意力机制的计算过程。与传统的基于Softmax的注意力相比，SLA在保持性能的同时，显著降低了计算复杂度。

5. 实验结果：
在ImageNet-1K图像分类实验中，SLAB模型在不同Backbone上均展现出了优越的性能。例如，SLAB-SwinT模型在ImageNet-1K上达到了83.6%的top-1精度，延时为16.2ms，比Flatten-Swin模型低2.4ms，精度提高了0.1%。此外，在目标检测和语言建模任务中，SLAB模型同样取得了良好的性能。

6. 消融实验：
消融实验结果表明，SLA和PRepBN技术对于提高模型效率和稳定性具有重要作用。结合这两种技术，可以在保持精度的同时，显著降低模型的延时。

7. 作者信息：
本文作者为科技猛兽，清华大学自动化系硕士，专注于AI边缘计算领域的研究，包括模型压缩、搜索、量化、加速等技术。

8. 总结：
SLAB模型通过引入简化线性注意力机制和渐进重参数化BatchNorm技术，有效提升了Transformer架构的效率，降低了计算成本，为在资源受限设备上部署高效视觉模型提供了新的思路。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ICML’24｜LayerNorm OUT！华为诺亚提出SLAB：渐进重参数化 BN 的视觉Transformer

今日应用

今日话题

文章摘要

文章来源

又一Sora级选手来炸街！我们拿它和Sora、可灵PK了下

CVPR 2024｜如何给 NeRF 开透视眼？

相关文章

暂无评论

热门网址

热门标签