英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

AI最新资讯3个月前发布 tree

34 0 0

今日应用

呱呱有声

呱呱有声制作平台

今日话题

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

重点标签 Nemotron-4 340B开源模型、AI创新、合成数据生成、性能强大、多领域应用

文章摘要

Nemotron-4 340B模型由基础模型Base、指令模型Instruct和奖励模型Reward组成，构建了一个完整的高质量合成数据生成流程。它支持4K上下文窗口、50多种自然语言和40多种编程语言，训练数据截止到2023年6月。在预训练阶段，使用了高达9万亿个token，其中8万亿用于预训练，1万亿用于继续训练以提高质量。指令模型的训练主要在合成数据上完成，而Nemotron-4-340B-Base在常识推理任务中表现出色，与多个知名模型相媲美。

此外，Nemotron-4 340B-Reward在RewardBench上实现了最高准确性，超过了多个专有模型。在硬件要求方面，模型的推理需要8块H200或16块H100/A100 80GB，在FP8精度下则只需8块H100。Nemotron-4 340B的许可对商用非常友好，允许开发者生成所需的所有数据。

Nemotron-4 340B的发布对各行业具有潜在的巨大影响。在医疗领域，高质量合成数据可能带来药物发现、个性化医疗和医学影像的突破；金融领域可能彻底改变欺诈检测、风险评估和客户服务；制造业和零售业方面，特定领域的LLM可以实现预测性维护、供应链优化和个性化客户体验。

然而，Nemotron-4 340B的发布也引发了关于数据隐私和安全的担忧。随着合成数据的普及，企业需要有防护措施来保护敏感信息，并防止滥用。此外，使用合成数据训练AI模型可能引发伦理问题，如数据中的偏见和不准确可能引发意料之外的后果。

英伟达提出的创新方法包括数据预训练、架构设计、训练过程和评估。预训练数据基于三种不同类型的混合，共有9T token。架构方面，Nemotron-4-340B-Base基于仅解码器Transformer架构，采用多种先进技术。训练使用了768个DGX H100节点，每个节点包含8个H100 80GB SXM5 GPU。评估结果显示，Nemotron-4-340B-Base在多个基准测试中取得了优异的成绩。

奖励模型在模型对齐中起着至关重要的作用，英伟达收集了包含10k人类偏好数据的数据集——HelpSteer2，用于开发强大的奖励模型。数据对齐方面，英伟达使用了大约20K的人工标注数据，而数据生成管线则生成了用于监督微调和偏好微调的98%以上的数据。提示生成准备、合成对话生成和合成偏好数据生成是合成数据生成的关键步骤。

对齐算法包括分阶段的监督微调和偏好微调。监督微调是模型对齐的第一步，英伟达设计了一种两阶段的SFT策略。偏好微调则通过学习偏好示例来改进模型。直接偏好优化（DPO）和奖励感知偏好优化（RPO）是两种用于优化模型的方法。

指令模型评估包括自动基准测试和人类评估。Nemotron-4-340B-Instruct在多个基准测试中表现出色，具备很强的竞争力。人类评估则显示，Nemotron-4-340B-Instruct的响应质量与GPT-4相当或更好，特别是在多轮对话中。

总之，Nemotron-4 340B的发布为AI领域带来了重大突破，展示了合成数据生成在LLM训练中的应用潜力，同时也引发了对数据隐私、安全和伦理问题的讨论。随着技术的不断发展，我们可以期待合成数据在未来AI应用中发挥更大的作用。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC最前线

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

今日应用

今日话题

文章摘要

文章来源

GPTZero获1000万美元，可检测ChatGPT等生成内容

现在起，真正的强者敢于直面「扣子」的「模型广场」

相关文章

暂无评论

热门网址

热门标签