TPAMI’24|清华EfficientTrain++:视觉基础网络最高3倍无损训练加速

AI最新资讯4个月前发布 tree
52 0 0

今日应用


今日话题


TPAMI’24|清华EfficientTrain++:视觉基础网络最高3倍无损训练加速
TPAMI’24|清华EfficientTrain++:视觉基础网络最高3倍无损训练加速
 

重点标签 深度学习计算机视觉EfficientTrain++广义课程学习清华大学

文章摘要


摘要:
本文介绍了一种名为EfficientTrain++广义课程学习算法,由清华大学研究团队提出,旨在解决计算机视觉领域中视觉基础模型因模型尺寸和训练数据规模增大而带来的高昂训练开销问题。该算法的核心思想是,在训练过程中逐步揭示每个数据样本的由易到难的特征或模式,而不进行数据维度的筛选。EfficientTrain++算法具有即插即用的特点,能够在不损失性能的前提下实现1.5−3.0倍的无损训练加速,并且适用于不同的训练数据规模、监督学习、自监督学习以及多种网络结构。

研究动机:
大型基础模型的发展推动了人工智能和深度学习的进步,但高昂的训练成本成为限制其发展的瓶颈。课程学习作为一种提高训练效率的经典思路,因设计训练课程困难和建模不合理性而未被广泛应用。

方法简介:
EfficientTrain++算法基于模型在自然训练过程中先学习简单判别特征后学习复杂特征的现象,提出了在训练过程中逐步揭示数据样本特征的广义课程学习范式。通过频域和空域的分析,发现模型倾向于先学习低频特征和未经数据增强的自然图像信息。

实验结果:
EfficientTrain++在ImageNet-1K和ImageNet-22K数据集上表现出显著的加速效果,同时保持或提升了模型性能。此外,该算法还适用于自监督学习算法如MAE,并且在目标检测、实例分割、语义分割等下游任务上不损失性能。

详细内容:
1. 研究动机:大型基础模型训练成本高昂,需要有效提升训练效率。
2. 方法简介
– 提出广义课程学习范式,逐步揭示数据样本特征。
– 基于模型自然训练过程中先学习简单特征的现象。
– 通过频域和空域分析,发现模型倾向于先学习低频特征和自然图像信息。
3. 实验结果
– 在ImageNet-1K和ImageNet-22K数据集上实现显著加速,保持或提升性能。
– 适用于自监督学习算法MAE。
– 在下游任务上不损失性能。
4. EfficientTrain++方案:动态调整频域低频裁切带宽和空域数据增强强度,无需额外超参数调整。

结论:
EfficientTrain++算法为计算机视觉领域提供了一种有效的训练效率提升方法,具有广泛的适用性和稳定性。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...