标签:AI反馈

一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……

对齐大型语言模型(LLM)的价值观与人类保持一致是至关重要的,Salesforce发布的一份综述报告全面总结了现有研究文献,并分析了各种对齐技术。大型语言模型(...