北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

今日应用


今日话题


北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
 

重点标签 OpenAI o1技术进步强化学习推理能力模型安全

文章摘要


OpenAI o1的发布标志着Post-Training Scaling Laws的强力体现,它在数学、代码、长程规划等问题上取得了显著进步。这一进步部分归因于构建了庞大的逻辑数据集和使用类似AlphaGo中MCTS及RL的方法进行搜索。o1的技术关键在于强化学习的搜索与学习机制,通过Bootstrap模型产生合理推理过程的能力,并将这些过程融入训练中,使模型学会推理。此外,o1在Post-Training阶段的Scaling和测试推理阶段的思考时间的Scaling也是其性能提升的重要因素。

o1模型在复杂推理能力上的巨大进步,并没有在常规任务如英语考试和语言能力测试上显著提升,显示出推理能力和强指令跟随能力的提升似乎呈现了分离。o1的成功关键在于合理使用强化学习的探索,而非仅依赖MCTS。模型通过迭代式的Bootstrap过程产生合理推理过程的能力,并将这些过程融入训练中,从而学会进行推理。

o1模型的发布还引发了对AI安全推理链的讨论。通过将安全规则融入模型的思维链中,模型能更好地理解规则内涵,并提供给监管者理解其思维过程的机会。然而,这也增加了模型出现欺骗和操纵的可能性,因此在高风险应用场景中,需要更严格的监控机制。

未来,强化学习的重要性将进一步凸显,它将重塑行业对算力分配的认知,并推动Post-Training Scaling Law时代的到来。同时,Test-Time算法设计的重要性也将增加,以及AI控制需要划清RL的职权界限,确保模型在提高能力的同时,不通过捷径规避核心问题。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...