标签:安全对齐

OpenAI发布最新大模型安全对齐奖励方法——RBR

随着AIGC领域的发展,大语言模型(LLM)如ChatGPT在应用落地中,安全性成为关键问题。传统RLHF方法存在数据更新成本高和标注者偏见等问题。为此,OpenAI提出...

英伟达开源大模型对齐框架—NeMo-Aligner

随着大语言模型(LLM)如ChatGPT和Midjourney在各个领域的广泛应用,确保其输出内容的安全性和可靠性成为了开发人员面临的重要挑战。传统的监督式微调方法在...