第一个100%开源的MoE大模型,7B的参数,1B的推理成本

今日应用


今日话题


第一个100%开源的MoE大模型,7B的参数,1B的推理成本
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
 

重点标签 开源模型MoE混合专家语言模型性能成本权衡

文章摘要


[预训练数据/自适应/实验评估/负载平衡损失/路由器z损失]
[模型性能/激活参数/经济选择/指令调优/偏好调优]

在机器之心的报道中,我们了解到了大语言模型(LM)在训练和推理方面面临的性能与成本之间的权衡问题。为了解决这一问题,艾伦人工智能研究院和Contextual AI等机构的研究者引入了一种名为OLMoE的开源混合专家语言模型,该模型在相似大小的模型中表现出了最先进的性能。

OLMoE模型通过使用稀疏激活混合专家(MoE)技术,实现了在每一层只激活部分专家,从而提高了模型的效率。与具有相似参数量的密集模型相比,OLMoE在训练和推理方面更具成本效益。研究者们使用5.1万亿个token预训练了拥有69亿参数的OLMoE-1B-7B模型,每个输入token只激活13亿参数,这使得模型在推理成本上与约1B参数的密集模型相当,但需要更多的GPU内存来存储约7B的总参数。

OLMoE-1B-7B在多个基准测试中表现出色,超越了其他开源1B模型,并在与更高推理成本和内存存储的密集模型相比时展现出竞争力。此外,通过指令和偏好调优,研究者还创建了OLMoE-1B-7B-INSTRUCT模型,该模型在常见基准测试中超越了各种更大的指令模型。

研究还强调了MoE和一般LM的关键设计选择,如使用细粒度路由和粒度专家,以及无丢弃基于token的路由算法的重要性。作者希望这个完全开源的MoE能够促进更多研究和分析,提高对这些模型的理解。为了支持这一点,训练代码、中间检查点、训练日志和训练数据都已经开源。

在预训练架构方面,OLMoE由多个transformer层组成,每个输入token只有k个专家被激活处理。路由器是一个经过训练的线性层,负责将输入数据映射到被选中的专家上。预训练数据方面,研究者使用了来自DCLM和Dolma 1.7的数据集,创建了名为OLMOE-MIX的新数据集。

自适应方面,研究者基于之前的开放模型,通过指令调优和偏好调优构造了OLMoE-1B-7B-INSTRUCT。在指令调优中,增加了更多的代码和数学数据,以提高模型在这些领域的性能。实验评估包括预训练期间、预训练之后和自适应之后的评估,结果显示OLMoE-1B-7B在多个任务中表现出色,尤其是在使用较少的激活参数时。

总的来说,OLMoE模型的开源发布为研究人员和开发者提供了一个高效、经济的选择,有助于推动大语言模型的发展和应用。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...