标签:偏好数据

关于post-training和一些思考

摘要:本文深入分析了大模型技术报告中的后训练(post-training)环节,特别是开源大模型Llama3.1的相关技术细节。文章首先指出,尽管学界普遍认为PPO(Proxima...