标签:合成数据生成

OpenAI发布最新大模型安全对齐奖励方法——RBR

随着AIGC领域的发展,大语言模型(LLM)如ChatGPT在应用落地中,安全性成为关键问题。传统RLHF方法存在数据更新成本高和标注者偏见等问题。为此,OpenAI提出...

英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

Nemotron-4 340B模型由基础模型Base、指令模型Instruct和奖励模型Reward组成,构建了一个完整的高质量合成数据生成流程。它支持4K上下文窗口、50多种自然语言...