OpenAI发布最新大模型安全对齐奖励方法——RBR

AI最新资讯2个月前发布 tree
16 0 0

今日应用


今日话题


OpenAI发布最新大模型安全对齐奖励方法——RBR
OpenAI发布最新大模型安全对齐奖励方法——RBR
 

重点标签 AIGC大语言模型安全对齐细粒度控制合成数据生成

文章摘要


随着AIGC领域的发展,大语言模型(LLM)如ChatGPT在应用落地中,安全性成为关键问题。传统RLHF方法存在数据更新成本高和标注者偏见等问题。为此,OpenAI提出了一种新的安全对齐奖励方法Rule Based Rewards(RBR),它通过将大模型期望的行为分解为一系列具体规则,实现细粒度控制,指导模型在不同请求下做出恰当回应。

RBR的核心是构建一系列命题,这些命题是关于模型输出的二元陈述,评估模型行为的基础。研究人员将命题组合成规则,定义在特定情况下哪些命题组合是期望的,哪些是不期望的。例如,在处理自我伤害请求时,模型应包含共情的道歉,避免提供具体方法。

为了训练和评估RBR,研究人员利用命题的二元特性,生成各种合成完成情况,包括理想完成、次优完成和不可接受完成。这些合成数据为模型提供了丰富的学习样本,帮助其理解在不同情境下如何做出恰当响应。

实验结果显示,RBR训练的模型在安全性和过度拒绝指标上表现优于人类反馈基线和有助益基线,实现了更安全的输出。RBR方法为大语言模型的安全性对齐提供了一种高效、可控的解决方案。

本文素材来源OpenAI论文,如有侵权请联系删除。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...