英伟达开源最强通用模型Nemotron-4 340B

AI最新资讯3个月前发布 tree

35 0 0

今日应用

Ai一键生成PPT

AiPPT结合最新AI技术，为用户提供一键生成高质量PPT的解决方案。无论是职场展示、教育课件还是销售报告，AiPPT均能快速生成符合需求的专业PPT，简化设计流程，提升工作效率。

今日话题

英伟达开源最强通用模型Nemotron-4 340B

重点标签 Nemotron-4 340B、开源模型、合成数据、大语言模型、性能提升

文章摘要

英伟达宣布推出Nemotron-4 340B，包含一系列开源模型，开发人员可以使用这些模型生成合成数据，用于训练大语言模型（LLM），适用于医疗健康、金融、制造、零售等行业的商业应用。高质量的训练数据对于自定义LLM的性能至关重要，但获取强大数据集往往成本高昂且难以访问。Nemotron-4 340B通过开放模型许可，为开发人员提供免费、可扩展的合成数据生成方式，帮助构建强大的LLM。

Nemotron-4 340B系列包括基础、Instruct和Reward模型，形成生成训练和改进LLM的合成数据的pipeline。这些模型与NVIDIA NeMo开源框架和TensorRT-LLM库配合使用，进行优化。Nemotron-4 340B现已可在Hugging Face下载，并将通过NVIDIA NIM微服务在ai.nvidia.com提供。

Nemotron-4 340B Instruct模型生成多样化的合成数据，模仿现实世界数据特征，提高数据质量和LLM性能。Reward模型根据可用性、正确性、连贯性等属性对响应评分，指导迭代改进。研究人员可结合专有数据和HelpSteer2数据集，定制基础模型。

Nemotron-4-340B-Base模型采用标准仅解码器Transformer架构，具有因果注意力掩码、旋转位置嵌入等特性。模型经过9万亿个token训练，可通过NeMo框架定制。NeMo提供多种微调方法，如低秩自适应，提升模型质量。企业可通过NVIDIA AI Enterprise软件平台访问NeMo和TensorRT-LLM。

评测数据显示，Nemotron-4-340B在常识推理、指令遵循、聊天功能等任务上表现优异，超越Llama-3等模型。这是否意味着业界最强大模型已经出现，值得关注。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

英伟达开源最强通用模型Nemotron-4 340B

今日应用

今日话题

文章摘要

文章来源

仅存活三个月的Copilot GPTs，因无盈利希望，被微软强制「退休」

CVPR‘24全程满分+最佳论文候选！上交大港中文等提出神经场网格模型三大定理

相关文章

暂无评论

热门网址

热门标签