这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

今日应用

电子课本-电子课本网

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

重点标签 视觉语言模型、人工智能、图像识别、测试评估、模型能力

研究背景与目的
视觉语言模型（VLMs）近年来取得了显著进展，能够理解图像内容并用语言描述，甚至执行复杂任务。然而，现有基准测试集并不能完全评估VLMs的视觉能力。研究者从验光师的视力测试中获得灵感，对四款顶级VLM进行了测试，以评估它们的视觉能力。

测试设计与方法
研究者设计了七项任务来测试VLMs的视觉能力，包括数线条交点、判断圆的位置关系、识别被红圈标记的字母、计算重叠图形数量、数表格行列数、计算嵌套正方形数量以及识别地铁直达线路。这些任务旨在避免VLMs从互联网数据集中直接获取答案，更多地依赖于模型对图像的视觉理解。

测试结果分析
测试结果显示，即使是在简单任务上，如数线条交点，VLMs的表现也不尽人意。在更复杂的任务中，如判断圆的位置关系和识别被红圈标记的字母，VLMs的准确率更是大幅下降。此外，VLMs在计算重叠图形、表格行列数和地铁线路时也存在困难。

VLMs的局限性
研究指出，VLMs在视觉能力上的不足可能与其依赖于大规模互联网数据的“背记”能力有关。尽管在ChartQA等测试中得分高，但这并不代表VLMs能够像人类一样感知图像。此外，VLMs在图像细节识别上的困难，表明它们在视觉理解和推理方面存在局限。

社会反响与讨论
这项研究结果引发了社会广泛关注和讨论。有网友认为，这些糟糕的测试结果可以通过训练和微调来解决，而另一些网友则对VLMs的实用性表示怀疑。论文作者也收到了关于测试科学性的质疑，有人认为测试并不能准确反映VLMs的视觉能力。

结论
尽管VLMs在某些方面取得了显著进展，但这项研究表明它们在视觉识别和理解方面仍存在明显不足。未来研究需要更深入地探讨VLMs的视觉理解和推理能力，以推动人工智能技术的发展。

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论...