明确了:文本数据中加点代码,训练出的大模型更强、更通用

AI最新资讯4周前发布 tree
10 0 0

今日应用


今日话题


明确了:文本数据中加点代码,训练出的大模型更强、更通用
明确了:文本数据中加点代码,训练出的大模型更强、更通用
 

重点标签 代码数据大语言模型性能影响预训练自然语言推理

文章摘要


大语言模型(LLM)的研究中,代码数据的重要性日益凸显。Cohere等机构提交的最新研究系统地探讨了代码数据对通用大模型性能的影响。研究者发现,代码数据不仅对编码任务至关重要,对非代码任务的性能也有显著提升作用。通过广泛的消融和评估,研究者发现代码数据的质量和属性对模型性能有重要影响。使用高质量的合成代码数据和代码相邻数据(如GitHub commits)可以显著提高预训练性能。此外,在预训练冷却阶段包含代码数据,可以进一步提升模型在自然语言推理、世界知识和代码性能方面的表现。

研究者使用了不同规模的模型(从470M到2.8B参数)进行实验,涵盖了自然语言推理、世界知识任务、代码基准和LLM-as-a-judge胜率等多个评估基准。结果显示,使用代码预训练的模型在自然语言任务上的性能得到了显著提升,尤其是与纯文本预训练相比,添加代码可以使自然语言推理能力相对增加8.2%,世界知识增加4.2%,生成胜率提高6.6%,代码性能提高12倍。

在预训练数据方面,研究者使用了包括基于web的代码数据、Markdown数据、合成代码数据和相邻代码数据等多种类型的代码源。预训练冷却数据集则包含了高质量文本、数学、代码和指令型文本数据集的混合。评估组件涵盖了世界知识、自然语言推理和代码性能等多个方面。

训练与模型细节方面,研究者使用了470M到2.8B参数的decoder-only自回归Transformer模型,采用并行注意力层、SwiGLU激活等技术,并在TPU v5e芯片上进行训练和评估。实验结果表明,使用大量代码数据的LM作为初始化可以提高模型性能,同时预训练中代码数据的比例和质量对模型性能有显著影响。

总的来说,这项研究强调了代码数据在大语言模型预训练中的关键作用,以及代码质量对模型性能的显著影响。通过优化预训练数据和训练策略,可以进一步提升大模型在多种任务上的表现。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...