菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

AI最新资讯2个月前发布 tree
23 0 0

今日应用


今日话题


菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
 

重点标签 LLM数学推理过河问题基准测试模型训练

文章摘要


在探讨大型语言模型(LLM)的数学推理能力时,菲尔兹奖得主Timothy Gowers对GPT-4o进行了一项测试,以解决经典的“狼-山羊-卷心菜”过河问题。结果显示,即使是在最简单的变种问题上,GPT-4o也给出了错误答案。Gowers提出了一个新的评估标准——废话比率(crapness ratio),即模型给出的答案与正确答案之间的比率。在测试中,他发现大模型的废话比率可达到5倍。

Gowers首先提出了一个简单的问题:一个农民带着两只鸡过河,船只能容纳一人和两只动物,最少需要几次渡河。ChatGPT给出了一个5步解决方案,但这个答案实际上是荒谬的,因为正确的答案只需3次。随后,Gowers加大了难度,提出了100只和1000只鸡的过河问题。在1000只鸡的情况下,GPT-4o的废话比率达到了125倍。

此外,网友还测试了Claude 3.5,发现它在类似问题上也表现不佳,废话比率达到了3倍。这表明LLM在解决这类问题时存在明显的缺陷。一些网友认为,LLM的失败可能是因为它们缺乏常识,无法理解现实世界的情境,或者在提示方面存在问题。

Gowers的研究工作关注LLM在数学推理任务中的表现,并指出当前评估LLM的方法存在缺陷。他与合作者构建了交互式评估平台CheckMate和评分数据集MathConverse,以更好地理解LLM的工作方式。他们的研究显示,LLM在解决数学问题时可能过于依赖记忆,而不是通用、可概括的理解。

其他研究人员也发现了LLM在简单推理问题上的不足。例如,一些简单的家庭关系问题和水壶问题,大多数LLM都无法正确回答。这与LLM在基准测试中的表现形成了鲜明对比,引发了对LLM推理能力的质疑。

一些研究者认为,LLM的推理能力不足可能源于模型的过度训练或测试集设计不佳。还有观点认为,测试数据泄露也可能是一个因素。尽管存在争议,但LLM在非语言任务上的能力仍然是一个值得探讨的领域。未来的研究可能会继续探索如何提高LLM的推理和规划能力,以及如何更好地评估这些能力。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...