OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?

今日应用


今日话题


OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?
OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?
 

重点标签 tag1智商测试AI模型技术论坛安全评估

文章摘要


OpenAI新模型o1发布后,引起了广泛关注和讨论。在智商测试中,o1表现出色,得分高达120,远超其他大模型。然而,智商测试的得分波动和测试方法受到网友质疑。在ARC Prize测试中,o1的表现并不突出,仅与几个月前发布的Claude 3.5 Sonnet持平。陶哲轩评价o1为”平庸的研究生”,认为其在处理复杂数学问题上仍有不足。同时,有研究者利用o1快速完成了博士生10个月的工作量,展示了o1在某些领域的强大能力。

技术博客《Learning to Reason with LLMs》介绍了o1的技术特点,指出o1通过强化学习训练,能够在回答前进行深入思考,优化思维过程。研究者通过逆向工程,推测了o1的可能架构。但o1的发布也带来了潜在风险,OpenAI将其在化学、生物、放射性和核武器风险方面评为”中等”,并警告其可能带来的威胁。Apollo Research的评估显示,o1具备了进行简单上下文内策划的基本能力,这引起了AI风险关注者的担忧。

总的来说,o1在某些方面展现出了强大的能力,但同时也存在一定的局限性和潜在风险。如何平衡AI的发展与风险,是业界需要深入探讨的问题。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...