超越DPO,创新大模型优化算法SimPO

AI最新资讯3个月前发布 tree
46 0 0

今日应用


今日话题


超越DPO,创新大模型优化算法SimPO
超越DPO,创新大模型优化算法SimPO
 

重点标签 SimPODPOAIGC大语言模型算法优化

文章摘要


摘要总结

AIGC领域的专业社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地。随着ChatGPT等模型的影响力日益增强,如何根据人类反馈优化大模型的性能,实现与人类偏好的超级对齐并降低非法内容输出变得尤为重要。

传统的直接偏好优化DPO)是一种常用的离线偏好优化算法,它通过重新参数化奖励函数,从人类反馈中学习以优化大模型。然而,DPO的奖励函数依赖于一个参考模型,这不仅增加了AI的算力和内存需求,而且在训练和推理过程中的度量会出现不一致。

为了解决这些问题,弗吉尼亚大学和普林斯顿大学的研究人员推出了一种新的优化方法——SimPO。SimPO在DPO的基础上进行了创新,采用序列的平均对数概率作为隐式奖励机制,这一设计不仅与模型生成过程紧密相连,而且消除了对参考模型的依赖,从而极大提升了计算效率和内存使用率。

SimPO还提出了“目标奖励边际”的概念,并将其嵌入到布拉德利-特里比较模型中,使得模型的输出内容更加符合人类的偏好。此外,SimPO的奖励函数引入了长度归一化的技术概念,确保了奖励与序列长度无关,避免了模型在生成过程中对长度的过度依赖。

为了评估SimPO的性能,研究团队在多种模型的预训练下进行了广泛的比较实验,包括基础模型和指令微调模型,如Mistral系列和Llama3等。在AlpacaEval 2和Arena-Hard等评估指标上,SimPO均展现出了优于DPO及同类技术的优化性能。特别是在AlpacaEval 2上,SimPO的提升幅度最大可达6.4分,而在Arena-Hard上,这一数值更是达到了7.5分。

特别值得一提的是,基于Llama3-8B-Instruct构建的模型,在应用SimPO算法后,在AlpacaEval 2上的表现达到了44.7%的控制长度胜率,超越了排行榜上的Claude 3 Opus,同时在Arena-Hard上也取得了33.8%的胜率,成为高性能的80亿参数开源大模型。

本文素材来源于SimPO论文,如有侵权请联系删除。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...