标签:好奇心

好奇心驱使的自动红队测试:MIT学者教你如何让大模型避免产生仇恨或有害的输出

研究人员使用强化学习来训练红队模型,利用好奇心驱动探索的技术。红队模型被激励于对其生成的每个提示的后果保持好奇心,因此会尝试具有不同单词、句子模式...