OpenAI发布最新大模型安全对齐奖励方法——RBR

AI最新资讯2个月前发布 tree

16 0 0

今日应用

魔音工坊

魔音工坊是一款可以在线将文字转成语音的智能配音产品。提供不同性别、不同口音的真人声音，在你输入文字后直接配音。你可快速对短视频等需要配音的内容进行配音。是一款功能强大AI语音合成神器。

今日话题

OpenAI发布最新大模型安全对齐奖励方法——RBR

重点标签 AIGC、大语言模型、安全对齐、细粒度控制、合成数据生成

文章摘要

随着AIGC领域的发展，大语言模型（LLM）如ChatGPT在应用落地中，安全性成为关键问题。传统RLHF方法存在数据更新成本高和标注者偏见等问题。为此，OpenAI提出了一种新的安全对齐奖励方法Rule Based Rewards（RBR），它通过将大模型期望的行为分解为一系列具体规则，实现细粒度控制，指导模型在不同请求下做出恰当回应。

RBR的核心是构建一系列命题，这些命题是关于模型输出的二元陈述，评估模型行为的基础。研究人员将命题组合成规则，定义在特定情况下哪些命题组合是期望的，哪些是不期望的。例如，在处理自我伤害请求时，模型应包含共情的道歉，避免提供具体方法。

为了训练和评估RBR，研究人员利用命题的二元特性，生成各种合成完成情况，包括理想完成、次优完成和不可接受完成。这些合成数据为模型提供了丰富的学习样本，帮助其理解在不同情境下如何做出恰当响应。

实验结果显示，RBR训练的模型在安全性和过度拒绝指标上表现优于人类反馈基线和有助益基线，实现了更安全的输出。RBR方法为大语言模型的安全性对齐提供了一种高效、可控的解决方案。

本文素材来源OpenAI论文，如有侵权请联系删除。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

OpenAI发布最新大模型安全对齐奖励方法——RBR

今日应用

今日话题

文章摘要

文章来源

ACM MM2024｜多模态不可学习样本：保护数据免受多模态对比学习的威胁

Lakera获2000万美元，专门保护生成式AI产品安全

相关文章

暂无评论

热门网址

热门标签