菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

AI最新资讯2个月前发布 tree

23 0 0

今日应用

vip视频解析

vip视频解析支持爱奇艺、腾讯视频、优酷、芒果TV、乐视视频、搜狐视频、bilibili哔哩哔哩（B站）、AcFun弹幕视频网（A站）等vip会员视频免费观看

今日话题

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

重点标签 LLM、数学推理、过河问题、基准测试、模型训练

文章摘要

在探讨大型语言模型（LLM）的数学推理能力时，菲尔兹奖得主Timothy Gowers对GPT-4o进行了一项测试，以解决经典的“狼-山羊-卷心菜”过河问题。结果显示，即使是在最简单的变种问题上，GPT-4o也给出了错误答案。Gowers提出了一个新的评估标准——废话比率（crapness ratio），即模型给出的答案与正确答案之间的比率。在测试中，他发现大模型的废话比率可达到5倍。

Gowers首先提出了一个简单的问题：一个农民带着两只鸡过河，船只能容纳一人和两只动物，最少需要几次渡河。ChatGPT给出了一个5步解决方案，但这个答案实际上是荒谬的，因为正确的答案只需3次。随后，Gowers加大了难度，提出了100只和1000只鸡的过河问题。在1000只鸡的情况下，GPT-4o的废话比率达到了125倍。

此外，网友还测试了Claude 3.5，发现它在类似问题上也表现不佳，废话比率达到了3倍。这表明LLM在解决这类问题时存在明显的缺陷。一些网友认为，LLM的失败可能是因为它们缺乏常识，无法理解现实世界的情境，或者在提示方面存在问题。

Gowers的研究工作关注LLM在数学推理任务中的表现，并指出当前评估LLM的方法存在缺陷。他与合作者构建了交互式评估平台CheckMate和评分数据集MathConverse，以更好地理解LLM的工作方式。他们的研究显示，LLM在解决数学问题时可能过于依赖记忆，而不是通用、可概括的理解。

其他研究人员也发现了LLM在简单推理问题上的不足。例如，一些简单的家庭关系问题和水壶问题，大多数LLM都无法正确回答。这与LLM在基准测试中的表现形成了鲜明对比，引发了对LLM推理能力的质疑。

一些研究者认为，LLM的推理能力不足可能源于模型的过度训练或测试集设计不佳。还有观点认为，测试数据泄露也可能是一个因素。尽管存在争议，但LLM在非语言任务上的能力仍然是一个值得探讨的领域。未来的研究可能会继续探索如何提高LLM的推理和规划能力，以及如何更好地评估这些能力。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

今日应用

今日话题

文章摘要

文章来源

Llama也能做图像生成？文生图模型已开源

杨立昆：加州SB1047法案起草者，是末日邪教大师

相关文章

暂无评论

热门网址

热门标签