超越DPO，创新大模型优化算法SimPO

AI最新资讯3个月前发布 tree

46 0 0

今日应用

360智绘

360智绘

今日话题

超越DPO，创新大模型优化算法SimPO

重点标签 SimPO、DPO、AIGC、大语言模型、算法优化

文章摘要

摘要总结

AIGC领域的专业社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地。随着ChatGPT等模型的影响力日益增强，如何根据人类反馈优化大模型的性能，实现与人类偏好的超级对齐并降低非法内容输出变得尤为重要。

传统的直接偏好优化（DPO）是一种常用的离线偏好优化算法，它通过重新参数化奖励函数，从人类反馈中学习以优化大模型。然而，DPO的奖励函数依赖于一个参考模型，这不仅增加了AI的算力和内存需求，而且在训练和推理过程中的度量会出现不一致。

为了解决这些问题，弗吉尼亚大学和普林斯顿大学的研究人员推出了一种新的优化方法——SimPO。SimPO在DPO的基础上进行了创新，采用序列的平均对数概率作为隐式奖励机制，这一设计不仅与模型生成过程紧密相连，而且消除了对参考模型的依赖，从而极大提升了计算效率和内存使用率。

SimPO还提出了“目标奖励边际”的概念，并将其嵌入到布拉德利-特里比较模型中，使得模型的输出内容更加符合人类的偏好。此外，SimPO的奖励函数引入了长度归一化的技术概念，确保了奖励与序列长度无关，避免了模型在生成过程中对长度的过度依赖。

为了评估SimPO的性能，研究团队在多种模型的预训练下进行了广泛的比较实验，包括基础模型和指令微调模型，如Mistral系列和Llama3等。在AlpacaEval 2和Arena-Hard等评估指标上，SimPO均展现出了优于DPO及同类技术的优化性能。特别是在AlpacaEval 2上，SimPO的提升幅度最大可达6.4分，而在Arena-Hard上，这一数值更是达到了7.5分。

特别值得一提的是，基于Llama3-8B-Instruct构建的模型，在应用SimPO算法后，在AlpacaEval 2上的表现达到了44.7%的控制长度胜率，超越了排行榜上的Claude 3 Opus，同时在Arena-Hard上也取得了33.8%的胜率，成为高性能的80亿参数开源大模型。

本文素材来源于SimPO论文，如有侵权请联系删除。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

超越DPO，创新大模型优化算法SimPO

今日应用

今日话题

文章摘要

摘要总结

文章来源

OpenAI开源GPT-4 SAE，提供1600万个解释模式

Adobe正式发布类ChatGPT助手AEP

相关文章

暂无评论

热门网址

热门标签