两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

AI最新资讯3个月前发布 tree
44 0 0

今日应用


今日话题


两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
 

重点标签 LLM基准测试盲区逻辑推理能力不足AIW测试集推理缺陷开源社区

文章摘要


在一项由LAION研究机构的作者们发表的研究中,通过设计一系列简单的逻辑推理问题,揭示了大型语言模型(LLM)在基准测试中存在的问题。这些问题以“爱丽丝梦游仙境”为灵感,被称为AIW测试集,结果显示即便是最先进的模型,如GPT-3.5/4、Claude、Gemini等,在这些基本推理问题上的表现也相当糟糕,仅有OpenAI的GPT-4o模型勉强及格。这些问题暴露了LLM在逻辑推理能力上的不足,即使在面对简单的问题时,模型们也难以给出正确的答案。

实验中,研究人员发现,当要求模型展示其工作过程时,AI往往会提供一些荒谬且错误的思考过程,并且在被告知答案不准确时,模型会反复变得愤怒并坚持错误答案。这种现象表明,尽管这些模型在存储和检索大量事实方面表现出色,但它们在推理和常识方面的能力却远远不足。LeCun对此评论说,推理能力和常识不应与存储和检索大量事实的能力混为一谈。

为了深入探究LLM的推理能力,研究团队设计了AIW的四个变体,并进行了实验。结果显示,大多数先进LLM无法对AIW问题推理出正确答案,即使尝试各种提示方法也无法改变模型崩溃的结果。此外,研究人员还发现,模型在不同变体上的准确率波动很大,这表明模型的正确答案很可能是偶然猜中的,而非基于逻辑推理。

在进一步的实验中,研究人员设计了AIW+,增加了额外信息,如引入了外甥、侄女等表亲关系。在AIW+问题上,即使是在AIW上表现较好的GPT-4o模型,准确率也大幅下降。这一结果进一步证实了LLM在复杂逻辑推理任务上的不足。

研究人员还观察到,即使在给出错误推理和错误答案时,模型仍然表现出极高的自信,甚至在被要求给出答案的置信度时,模型会为错误答案编造出各种有说服力的解释。这种现象表明,LLM在自我评估方面存在严重的问题。

为了改善LLM的推理能力,研究团队呼吁开源社区共同努力,开放模型的完整训练流程,包括数据集的组成和数据集本身、训练的源代码、训练后的模型以及标准化的基准测试程序。此外,团队还呼吁AI社区更新基准测试,以更好地检测模型的推理能力。

总的来说,这项研究揭示了LLM在逻辑推理方面的重大缺陷,强调了开发更强大的基准测试和开源模型训练流程的重要性。只有通过这些努力,我们才能期望在未来的模型中实现更可靠的推理能力。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC最前线

© 版权声明

相关文章

暂无评论

暂无评论...