标签:偏好优化

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

SimPO的核心在于将奖励函数与生成指标对齐,通过在长度上归一化的奖励和目标奖励差额两个主要组件来实现。这种方法不仅简化了模型,而且在性能上明显优于DPO...