CVPR 2024 视频场景解析挑战赛第一名方案详解

AI最新资讯3个月前发布 tree
31 0 0

今日应用


今日话题


CVPR 2024 视频场景解析挑战赛第一名方案详解
CVPR 2024 视频场景解析挑战赛第一名方案详解
 

重点标签 视频场景解析计算机视觉半监督学习模型集成CVPR 2024

文章摘要


本文介绍了一种基于不可靠伪标签的半监督视频语义分割方法,该方法在CVPR 2024的野外挑战赛中获得了视频场景解析的第一名。该方法首先在有标签数据上训练教师网络和学生网络,然后使用教师网络生成伪标签,并将这些伪标签与原始数据集组合形成新的数据集,对学生网络进行再训练。通过半监督训练,提高了模型在未标注数据集上的性能。本文还探讨了Transformer技术在分割领域的应用,并选择了One piece算法作为教师网络,ViT Adapter算法作为学生网络。此外,本文还介绍了基于像素级熵的伪标签策略,以及如何通过多尺度和水平翻转增强测试、半监督训练和模型集成来提高分割性能。最终,在VSPW测试集上取得了63.71%和67.83%的mIoU分数,证明了该方法在解决多任务语义分割问题方面的有效性和通用性。

极市导读
本方法在开发测试和最终测试中分别获得了63.71%和67.83%的mIoU分数。在CVPR 2024的野外挑战赛中获得了视频场景解析的第一名。

像素级场景理解是计算机视觉的基础问题之一,旨在识别给定图像中每个像素的对象类、mask和语义。与图像场景解析相比,视频场景解析引入了时间信息,可以有效提高预测的一致性和准确性,因为现实世界实际上是基于视频的,而不是静态的。

本文采用基于不可靠伪标签的半监督视频语义分割方法。然后,将教师网络模型与学生网络模型集成,生成伪标签并对学生网络进行再训练。本方法在开发测试和最终测试中分别获得了63.71%和67.83%的mIoU分数在CVPR 2024的野外挑战赛中获得了视频场景解析的第一名

简介
Video Scene Parsing in the Wild(VSPW)是一个视频语义分割数据集,包含3536个视频和124个类别的标注。由于各种语义分割数据集的可用性,图像语义分割取得了重大进展。该挑战旨在为VSPW中测试集视频的每个视频帧分配逐像素语义标签。挑战的突出评估指标是mIoU。随着深度神经网络的发展和大规模标注数据的可用性,视频语义分割(VSS)的能力得到了显著扩展。

VSS是视频图像分割的时空变化,旨在预测连续视频帧中的像素标签。与图像语义分割相比,现有的大多数VSS方法都强调对局部信息的利用。这几种方法利用光流预测对帧之间的时间信息进行建模。然而,光流可能会导致不平衡的张力。ETC在每帧分段预测中使用了时间损失和新的速度一致性知识提取,作为光流的有效替代。MRCFA挖掘跨帧仿射关系,以实现更好的时间信息聚合。TMANet是第一个使用时间记忆注意力模块来捕捉VSS中帧之间的时间关系的工作。

LLVSS设计了一种高效的帧工作,包括自适应特征传播和自适应关键帧调度。DVIS通过将VSS框定为初始分割任务,然后进行跟踪,随后使用综合视频数据细化分割结果,从而简化了分割过程。CVPR 2023 PVUW VSS Track的第一位解决方案专注于增强具有对比损失的时空相关性,并利用具有标签映射的多数据集训练来提高模型性能。

方法
本节描述了网络的总体架构。然后介绍了一种基于不可靠伪标签的半监督视频语义分割方法。首先在有标签数据上训练教师网络和学生网络,然后使用教师网络生成伪标签,将它们与原始数据集组合形成新的数据集,然后对学生网络进行再训练。通过半监督训练,提高了模型在未标注数据集上的性能。

概述
Transformer是一种基于保持机制的神经网络模型,在自然语言处理和其他序列数据处理任务中取得了显著成功。近年来,随着Transformer技术的发展,它在分割领域也取得了显著进展。鉴于One piece算法在ADE2K数据集的语义分割领域取得了最先进的性能,选择它作为教师网络。同时选择ViT Adapter算法作为学生网络。

半监督方法
随着深度学习方法的发展,分割性能有了质的提高。然而,高性能的深度学习模型需要大量的数据和标注,尤其是像素级的标签,这需要巨大的人力和时间成本投资。因此,基于半监督学习的方法受到研究者的青睐。半[视频场景解析/计算机视觉/半监督学习/模型集成/CVPR 2024] 一种基于不可靠伪标签的半监督视频语义分割方法在CVPR 2024的野外挑战赛中荣获视频场景解析第一名。该方法首先在有标签数据上训练教师网络和学生网络,然后利用教师网络生成伪标签,并将这些伪标签与原始数据集结合,形成新的数据集,用于学生网络的再训练。通过半监督训练,显著提升了模型在未标注数据集上的性能。

视频场景解析的重要性:
像素级场景理解是计算机视觉领域的基础问题,其目标是识别图像中每个像素的对象类别、掩码和语义。视频场景解析相较于图像场景解析,通过引入时间信息,有效提升了预测的一致性和准确性,更贴近现实世界的动态特性。

VSPW数据集与挑战:
Video Scene Parsing in the Wild(VSPW)是一个包含3536个视频和124个类别标注的视频语义分割数据集。该挑战的核心是为测试集视频中的每一帧视频分配逐像素的语义标签,主要评估指标为mIoU(mean Intersection over Union)。

方法介绍:
本文提出的半监督视频语义分割方法,通过在有标签数据上训练教师网络和学生网络,然后利用教师网络生成伪标签,并将这些伪标签与原始数据集结合,形成新的数据集,用于学生网络的再训练。这一过程通过半监督训练,有效提升了模型在未标注数据集上的性能。

Transformer技术的应用:
Transformer作为一种基于自注意力机制的神经网络模型,在自然语言处理等领域取得了显著成功。随着其在分割领域的应用,One piece算法因其在ADE2K数据集上的优秀表现被选为教师网络,而ViT Adapter算法则作为学生网络。

半监督学习方法的优势:
深度学习方法在分割性能上取得了质的飞跃,但同时也需要大量的数据和标注,尤其是像素级的标签,这涉及到巨大的人力和时间成本。半监督学习通过有效利用未标注样本,作为标注样本的补充,从而提高模型性能,尤其适用于难以获得大量标注数据的实际应用场景。

伪标签策略:
为了避免过拟合错误的伪标签,本文采用了基于像素级熵的策略来过滤高质量的伪标签,区分可靠和不可靠的像素,确保训练过程中可以有效地利用整个伪标签。

实验与结果:
实验部分详细描述了方法的实现细节,并在PVUW2024挑战测试集上报告了结果。通过多尺度和水平翻转增强测试、半监督训练和模型集成,最终在VSPW测试集上取得了63.71%和67.83%的mIoU分数,证明了该方法在解决多任务语义分割问题方面的有效性和通用性。

结论:
本文提出的基于不可靠伪标签的半监督视频语义分割方法,在CVPR 2024大会上获得了PVUW挑战VSS赛道的第一名,展示了其在多任务语义分割问题解决上的有效性和通用性。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...