关于post-training和一些思考

AI最新资讯3周前发布 tree

6 0 0

今日应用

搜片-搜蓝光电影

搜片.com 聚合全网影片，你想看的全都找得到！每天搜集最新电影、电视剧、在线观看网址、蓝光高清正版免费看！

今日话题

关于post-training和一些思考

重点标签 后训练技术、DPO与PPO、偏好数据、迭代过程、合成数据

文章摘要

摘要：

本文深入分析了大模型技术报告中的后训练(post-training)环节，特别是开源大模型Llama3.1的相关技术细节。文章首先指出，尽管学界普遍认为PPO（Proximal Policy Optimization）性能更优，但在实际应用中，DPO（Direct Preference Optimization）因其计算成本低和易于扩展而被广泛采用。报告中提到，DPO在遵循IFEval等基准测试指令方面的性能表现更佳。

在讨论偏好数据时，文章指出开源偏好数据集的机构较少，且大部分训练数据已采用合成数据。这引发了关于人类标注在大模型训练中作用的讨论，以及是否可以通过LLM-as-a-judge或RM输出来替代人类偏好。

文章还探讨了迭代过程的重要性，指出从Llama2开始，RLHF（Reinforcement Learning from Human Feedback）已成为一个迭代过程。迭代的原因包括数据分批发放和防止reward hack。此外，文章还讨论了如何通过预训练阶段加入偏好数据来扩展迭代过程。

在合成数据方面，报告强调了数据管理工作的重要性，并预测未来的大模型训练将把数据分为多个domain，每个domain都有自己的数据搜集、合成和过滤pipeline。

最后，文章讨论了如何通过后训练提升大模型的数学和推理能力，包括通过MCTS生成数据、精心训练Process Reward Model以及采用lean形式化问题等方法。

文章还展望了后训练技术的未来发展方向，包括建立高效的数据pipeline、提升模型的数学推理能力以及在LLM agent类应用中探索真正的RL（Reinforcement Learning）潜力。

参考链接：
– [多模态大模型超详细解读专栏](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI5MDUyMDIxNA==&action=getalbum&album_id=2918280735411683334#wechat_redirect)
– [搞懂Tranformer系列](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI5MDUyMDIxNA==&action=getalbum&album_id=2090301627206303744#wechat_redirect)
– [ICCV2023论文解读](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI5MDUyMDIxNA==&action=getalbum&album_id=3021109573835554818#wechat_redirect)
– [极市直播](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzI5MDUyMDIxNA==&action=getalbum&album_id=1425604183083892737#wechat_redirect)

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

关于post-training和一些思考

今日应用

今日话题

文章摘要

文章来源

ECCV'24｜OMG:已开源，遮挡友好的个性化多概念生成新框架

Llama-3不算真开源：今年10月，权威定义就要来了

相关文章

暂无评论

热门网址

热门标签