挑战当前最难、规模最大多模态评测基准MME-RealWorld，QwenVL-2位列第一但并未及格

AI最新资讯6天前发布 tree

4 0 0

今日应用

呵呵动漫

免费高质量在线动漫网站！为动漫爱好者提供无与伦比的追番体验!

今日话题

挑战当前最难、规模最大多模态评测基准MME-RealWorld，QwenVL-2位列第一但并未及格

重点标签 标注数据、图像感知、多模态、MLLMs、自动驾驶

文章摘要

极市导读：
最近，一个名为 MME-RealWorld 的新基准测试引起了计算机视觉领域的广泛关注。这个基准测试由32位标注者共同完成，包含29,429条标注数据，图像的平均分辨率高达2000×1500像素，是当前难度最大的纯手工标注图像感知基准之一。值得注意的是，现有的模型在该基准测试上的总分准确率均未超过60%。

主要发现：
1. 在真实世界任务中，Qwen2-vl 和 InternVL2 在中文感知和推理任务上的表现明显优于闭源模型，如 Claude 3.5。
2. 在英文版任务中，感知能力排名为 Qwen2-vl > InternVL2 > 其他模型，但在推理任务上，Claude 3.5 表现更优。
3. 闭源模型如 Gpt-4o 在处理高分辨率图像方面的能力被高估，其排名通常不在前三。
4. 所有多模态大语言模型（MLLMs）在自动驾驶、遥感数据和视频监控等复杂场景下的表现都不理想，例如在某些领域，Qwen2-vl 的准确率仅为三十多（五分类）。

真实场景部分任务展示：
– 真实世界OCR：在分辨率超过1024×1024的图像上识别细粒度的文字/数字。
– 金融财报图表分析：超大图表的具体元素的定位、识别、比较与计算。
– 监控数据分析：对视频监控数据的具体目标的计数/分析与识别。
– 真实遥感数据物体识别：在高清遥感数据上对小物体的统计与属性识别。
– 自动驾驶：对自动驾驶场景下，自车或其他车辆拍摄图像中的各种元素的行为理解与预测。

为什么需要MME-RealWorld/现有benchmark的不足：
– MME-RealWorld 是规模最大的完全由人类标注的数据集，具有最高的平均分辨率和最具挑战性的任务。
– 近年来，MLLMs得到了显著的发展，但现有评估基准存在数据规模小、注释质量差和任务难度低的问题。

MME-RealWorld的数据来源与主要特征：
– 基于超过30万个公共和互联网来源，收集了13,366张高分辨率图像，平均分辨率为2000×1500像素。
– 邀请了25位专业标注员和7位MLLMs领域的专家参与数据标注和质量检查。
– 最终包含29,429个注释，涵盖43个子类任务，每个任务至少有100个问题。

模型效果与分析：
– Qwen2-VL 与 InternVL-2 在感知能力方面表现出最强的能力，优于其他闭源模型。
– 在推理能力方面，Claude 3.5 Sonnet 在大多数领域中表现最为出色。

目前MLLM的缺陷以及值得注意的点：
– 现有模型在图像细节感知方面的不足，多数模型选择答案 “E” 的频率远高于实际数据中的比例。
– MLLMs在理解和推理动态信息方面表现出明显的不足。
– 处理高分辨率图像时，各模型的计算效率差异显著。

总结与未来工作：
本文提出的 MME-RealWorld 基准测试旨在解决现有MLLM评估中的关键局限性，如数据规模、标注质量和任务难度。作为迄今为止最大、分辨率最高的纯人工标注数据集，MME-RealWorld 得益于32名标注者的参与，确保了高质量数据和最小的个人偏差。此外，MME-RealWorld-CN 作为一个专注于中文场景的基准测试，基本上能够确保所有图像和问题都与中文环境相关，且全中文为母语的人工标注，不存在机器翻译引发的一系列问题。本文还对广泛的模型进行的评估揭示了显著的性能差距，突出了当前模型在复杂图像感知方面的缺陷，并强调了进一步提高的需求。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

挑战当前最难、规模最大多模态评测基准MME-RealWorld，QwenVL-2位列第一但并未及格

今日应用

今日话题

文章摘要

文章来源

详聊LLaMa技术细节：LLaMA大模型是如何炼成的？

人人都能看懂的DPO数学原理

相关文章

暂无评论

热门网址

热门标签