关于post-training和一些思考

今日应用


今日话题


关于post-training和一些思考
关于post-training和一些思考
 

重点标签 后训练技术DPO与PPO偏好数据迭代过程合成数据

文章摘要


摘要:

本文深入分析了大模型技术报告中的后训练(post-training)环节,特别是开源大模型Llama3.1的相关技术细节。文章首先指出,尽管学界普遍认为PPO(Proximal Policy Optimization)性能更优,但在实际应用中,DPO(Direct Preference Optimization)因其计算成本低和易于扩展而被广泛采用。报告中提到,DPO在遵循IFEval等基准测试指令方面的性能表现更佳。

在讨论偏好数据时,文章指出开源偏好数据集的机构较少,且大部分训练数据已采用合成数据。这引发了关于人类标注在大模型训练中作用的讨论,以及是否可以通过LLM-as-a-judge或RM输出来替代人类偏好。

文章还探讨了迭代过程的重要性,指出从Llama2开始,RLHF(Reinforcement Learning from Human Feedback)已成为一个迭代过程。迭代的原因包括数据分批发放和防止reward hack。此外,文章还讨论了如何通过预训练阶段加入偏好数据来扩展迭代过程。

合成数据方面,报告强调了数据管理工作的重要性,并预测未来的大模型训练将把数据分为多个domain,每个domain都有自己的数据搜集、合成和过滤pipeline。

最后,文章讨论了如何通过后训练提升大模型的数学和推理能力,包括通过MCTS生成数据、精心训练Process Reward Model以及采用lean形式化问题等方法。

文章还展望了后训练技术的未来发展方向,包括建立高效的数据pipeline、提升模型的数学推理能力以及在LLM agent类应用中探索真正的RL(Reinforcement Learning)潜力。

参考链接:
– [多模态大模型超详细解读专栏](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI5MDUyMDIxNA==&action=getalbum&album_id=2918280735411683334#wechat_redirect)
– [搞懂Tranformer系列](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI5MDUyMDIxNA==&action=getalbum&album_id=2090301627206303744#wechat_redirect)
– [ICCV2023论文解读](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI5MDUyMDIxNA==&action=getalbum&album_id=3021109573835554818#wechat_redirect)
– [极市直播](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI5MDUyMDIxNA==&action=getalbum&album_id=1425604183083892737#wechat_redirect)

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...