首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath

AI最新资讯2个月前发布 tree
29 0 0

今日应用


今日话题


首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
 

重点标签 AI数学奥林匹克竞赛结果模型分析技术细节数学推理

文章摘要


全球首届AI数学奥林匹克竞赛(AIMO)的获奖结果引起了广泛关注。在这次比赛中,共有五个团队脱颖而出,其中Numina团队荣获第一名,CMU_MATH获得第二名,after exams团队排名第三,codeinter和Conor #2团队分别位列第四和第五。这一成绩甚至让著名数学家陶哲轩感到惊讶。尽管官方仅公布了获奖名单,但并未透露背后的模型信息,引发了公众的好奇。

冠军团队Numina使用的模型是NuminaMath 7B TIR,这是deepseek-math-7b-base模型的微调版本。该模型经过两个阶段的监督微调,第一阶段在自然语言数学问题和解决方案的大型数据集上进行微调,利用思维链(CoT)模板化解决方案以促进推理;第二阶段则在工具集成推理(TIR)的合成数据集上进行微调,通过结合自然语言推理和Python REPL计算中间结果来解决数学问题。NuminaMath 7B TIR模型专为解决竞赛级别数学问题而设计,不适用于一般聊天应用程序。尽管该模型能够解决AMC 12级别的问题,但在生成AIME和数学奥林匹克级难题的有效解决方案方面存在难度,尤其是在几何问题上,可能由于模型容量限制和缺乏视觉模态。

其他获奖团队也普遍采用了DeepSeekMath-7B作为基础模型,并进行了不同程度的微调,以适应竞赛需求。例如,第二名的CMU_MATH团队微调了两个DeepSeek-Math-7B-RL模型,分别作为策略模型和奖励模型;第三名的after exams团队则直接使用DeepSeek-Math-7B-RL模型,通过多数投票策略选择答案;排名第四的codeinter团队则设置了特定的参数,并搭配代码工具在MATH基准测试中取得了58.8%的成绩。

总体来看,DeepSeekMath-7B模型在数学推理方面表现出色,其能力接近GPT-4,并在MATH基准测试中超越了许多30B至70B的开源模型。这次AI数学奥林匹克竞赛不仅展示了AI在数学领域的潜力,也为未来的AI研究和应用提供了宝贵的经验和启示。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...