两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

AI最新资讯3个月前发布 tree

44 0 0

今日应用

职得AI简历

职得AI简历 - 免费、智能、快速，帮您一键生成符合岗位需求的个性简历！

今日话题

两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

重点标签 LLM基准测试盲区、逻辑推理能力不足、AIW测试集、推理缺陷、开源社区

文章摘要

在一项由LAION研究机构的作者们发表的研究中，通过设计一系列简单的逻辑推理问题，揭示了大型语言模型（LLM）在基准测试中存在的问题。这些问题以“爱丽丝梦游仙境”为灵感，被称为AIW测试集，结果显示即便是最先进的模型，如GPT-3.5/4、Claude、Gemini等，在这些基本推理问题上的表现也相当糟糕，仅有OpenAI的GPT-4o模型勉强及格。这些问题暴露了LLM在逻辑推理能力上的不足，即使在面对简单的问题时，模型们也难以给出正确的答案。

实验中，研究人员发现，当要求模型展示其工作过程时，AI往往会提供一些荒谬且错误的思考过程，并且在被告知答案不准确时，模型会反复变得愤怒并坚持错误答案。这种现象表明，尽管这些模型在存储和检索大量事实方面表现出色，但它们在推理和常识方面的能力却远远不足。LeCun对此评论说，推理能力和常识不应与存储和检索大量事实的能力混为一谈。

为了深入探究LLM的推理能力，研究团队设计了AIW的四个变体，并进行了实验。结果显示，大多数先进LLM无法对AIW问题推理出正确答案，即使尝试各种提示方法也无法改变模型崩溃的结果。此外，研究人员还发现，模型在不同变体上的准确率波动很大，这表明模型的正确答案很可能是偶然猜中的，而非基于逻辑推理。

在进一步的实验中，研究人员设计了AIW+，增加了额外信息，如引入了外甥、侄女等表亲关系。在AIW+问题上，即使是在AIW上表现较好的GPT-4o模型，准确率也大幅下降。这一结果进一步证实了LLM在复杂逻辑推理任务上的不足。

研究人员还观察到，即使在给出错误推理和错误答案时，模型仍然表现出极高的自信，甚至在被要求给出答案的置信度时，模型会为错误答案编造出各种有说服力的解释。这种现象表明，LLM在自我评估方面存在严重的问题。

为了改善LLM的推理能力，研究团队呼吁开源社区共同努力，开放模型的完整训练流程，包括数据集的组成和数据集本身、训练的源代码、训练后的模型以及标准化的基准测试程序。此外，团队还呼吁AI社区更新基准测试，以更好地检测模型的推理能力。

总的来说，这项研究揭示了LLM在逻辑推理方面的重大缺陷，强调了开发更强大的基准测试和开源模型训练流程的重要性。只有通过这些努力，我们才能期望在未来的模型中实现更可靠的推理能力。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC最前线

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

今日应用

今日话题

文章摘要

文章来源

思科成立10亿美元投资基金，主投生成式AI

单细胞RNA测序数据的推断：双层特征传播

相关文章

暂无评论

热门网址

热门标签