ACM MM’24|CPRFL:基于CLIP的新方案,破解长尾多标签分类难题

今日应用


今日话题


ACM MM’24|CPRFL:基于CLIP的新方案,破解长尾多标签分类难题
ACM MM’24|CPRFL:基于CLIP的新方案,破解长尾多标签分类难题
 

重点标签 类别提示精炼特征学习长尾多标签图像分类CLIPTransformer非对称损失

文章摘要


极市导读
本文提出了一种新颖的提示学习方法,类别提示精炼特征学习(CPRFL),用于长尾多标签图像分类(LTMLC)。这是首次利用类别语义关联来缓解LTMLC中的头尾不平衡问题,提供了一种针对数据特征量身定制的开创性解决方案。>>[][加入极市CV技术交流群,走在计算机视觉的最前沿]

> 现实世界的数据通常表现为长尾分布,常跨越多个类别。这种复杂性突显了内容理解的挑战,特别是在需要长尾多标签图像分类(LTMLC)的场景中。在这些情况下,不平衡的数据分布和多物体识别构成了重大障碍。为了解决这个问题,论文提出了一种新颖且有效的LTMLC方法,称为类别提示精炼特征学习(CPRFL)。该方法从预训练的CLIP嵌入初始化类别提示,通过与视觉特征的交互解耦类别特定的视觉表示,从而促进了头部类和尾部类之间的语义关联建立。为了减轻视觉-语义领域的偏差,论文设计了一种渐进式双路径反向传播机制,通过逐步将上下文相关的视觉信息纳入提示来精炼提示。同时,精炼过程在精炼提示的指导下促进了类别特定视觉表示的渐进纯化。此外,考虑到负样本与正样本的不平衡,采用了非对称损失作为优化目标,以抑制所有类别中的负样本,并可能提升头部到尾部的识别性能。

论文地址:https://arxiv.org/abs/2408.08125
论文代码:https://github.com/jiexuanyan/CPRFL

# Introduction
随着深度网络的快速发展,近年来计算机视觉领域取得了显著的进展,尤其是在图像分类任务中。这一进展在很大程度上依赖于许多主流的平衡基准(例如CIFAR、ImageNet ILSVRC、MS COCO),这些基准具有两个关键特征:1)它们提供了在所有类别之间相对平衡且数量充足的样本,2)每个样本仅属于一个类别。然而,在实际应用中,不同类别的分布往往呈现长尾分布模式,深度网络往往在尾部类别上表现不佳。同时,与经典的单标签分类不同,实际场景中图像通常与多个标签相关联,这增加了任务的复杂性和挑战。为了应对这些问题,越来越多的研究集中在长尾多标签图像分类(LTMLC)问题上。

由于尾部类别的样本相对稀少,解决长尾多标签图像分类(LTMLC)问题的主流方法主要集中在通过采用各种策略来解决头部与尾部的不平衡问题,例如对每个类别的样本数量进行重采样、为不同类别重新加权损失、以及解耦表示学习和分类头的学习。尽管这些方法做出了重要贡献,但它们通常忽略了两个关键方面。首先,在长尾学习中,考虑头部和尾部类别之间的语义相关性至关重要。利用这种相关性可以在头部类别的支持下显著提高尾部类别的性能。其次,实际世界中的图像通常包含多种对象、场景或属性,这增加了分类任务的复杂性。上述方法通常从全局角度考虑提取图像的视觉表示。然而,这种全局视觉表示包含了来自多个对象的混合特征,这阻碍了对每个类别的有效特征分类。因此,如何在长尾数据分布中探索类别之间的语义相关性,并提取局部类别特定特征,仍然是一个重要的研究领域。

最近,视觉-语言预训练(VLP)模型已成功适应于各种下游视觉任务。例如,CLIP在数十亿对图像-文本样本上进行预训练,其文本编码器包含了来自自然语言处理(NLP)语料库的丰富语言知识。文本编码器在编码文本模态中的语义上下文表示方面展示了巨大的潜力。因此,可以利用CLIP的文本嵌入表示来编码头部和尾部类别之间的语义相关性。此外,在许多研究中,CLIP的文本嵌入已成功作为语义提示,用于将局部类别特定的视觉表示与全局混合特征解耦。

为了应对长尾多标签分类(LTMLC)固有的挑战,论文提出了一种新颖且有效的方法,称为类别提示精炼特征学习(Category-Prompt Refined Feature Learning,CPRFL)CPRFL利用CLIP的文本编码器的强大的语义表示能力提取类别语义,从而建立头部和尾部类别之间的语义相关性。随后,提取的类别语义用于初始化所有类别的提示[类别提示精炼特征学习/长尾分布/多标签图像分类/CLIP模型/渐进式双路径反向传播]

摘要:
本文介绍了一种创新的学习方法,名为类别提示精炼特征学习(CPRFL),专门针对长尾多标签图像分类(LTMLC)问题。该方法首次尝试利用类别间的语义关联来解决长尾分布中的不平衡问题,为特征学习提供了一种新的解决方案。文章指出,现实世界的数据往往呈现长尾分布,这在多标签图像分类任务中尤为突出,因为数据分布的不平衡和多物体识别的挑战。CPRFL方法通过从预训练的CLIP模型中初始化类别提示,并与视觉特征交互,来解耦类别特定的视觉表示,从而促进头部和尾部类别间的语义关联。此外,文章还提出了一种渐进式双路径反向传播机制,以逐步精炼提示并纯化类别特定视觉表示。为了解决负样本与正样本之间的不平衡,文章采用了非对称损失作为优化目标。

详细介绍:
背景与挑战: 深度网络在图像分类任务中取得了显著进展,但实际应用中的数据往往呈现长尾分布,且图像通常与多个标签相关联,增加了任务的复杂性。
方法论: CPRFL方法使用预训练的CLIP模型的文本编码器来提取类别语义,并初始化类别提示,这些提示与视觉特征交互以辨别每个类别的上下文视觉信息。文章还设计了一种渐进式双路径反向传播机制,通过逐步将上下文相关的视觉信息纳入提示来精炼提示,同时促进类别特定视觉表示的纯化。
技术创新点: 利用CLIP模型的文本编码器提取类别语义,建立头部和尾部类别间的语义关联;引入渐进式双路径反向传播机制,迭代精炼提示;采用非对称损失作为优化目标,抑制负样本,提升识别性能。
实验验证: 文章在两个LTMLC基准测试上进行了实验,验证了方法的有效性,并显示了相较于先进方法的优越性。

结论:
CPRFL方法为长尾多标签图像分类问题提供了一种有效的解决方案,通过利用类别间的语义关联和渐进式双路径反向传播机制,显著提高了尾部类别的识别性能,为计算机视觉领域中的不平衡问题提供了新的视角和方法。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...