第一个100%开源的MoE大模型，7B的参数，1B的推理成本

AI最新资讯2周前发布 tree

7 0 0

今日应用

Midjourney中文站

Midjourney中文站官网，Midjourney AI让绘画如此简单，只需描述图片内容AI即可快速生成精美的图片，本站提供一站式Midjourney图片创作服务！

今日话题

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

重点标签 开源模型、MoE、混合专家、语言模型、性能成本权衡

文章摘要

[预训练数据/自适应/实验评估/负载平衡损失/路由器z损失]
[模型性能/激活参数/经济选择/指令调优/偏好调优]

在机器之心的报道中，我们了解到了大语言模型（LM）在训练和推理方面面临的性能与成本之间的权衡问题。为了解决这一问题，艾伦人工智能研究院和Contextual AI等机构的研究者引入了一种名为OLMoE的开源混合专家语言模型，该模型在相似大小的模型中表现出了最先进的性能。

OLMoE模型通过使用稀疏激活混合专家（MoE）技术，实现了在每一层只激活部分专家，从而提高了模型的效率。与具有相似参数量的密集模型相比，OLMoE在训练和推理方面更具成本效益。研究者们使用5.1万亿个token预训练了拥有69亿参数的OLMoE-1B-7B模型，每个输入token只激活13亿参数，这使得模型在推理成本上与约1B参数的密集模型相当，但需要更多的GPU内存来存储约7B的总参数。

OLMoE-1B-7B在多个基准测试中表现出色，超越了其他开源1B模型，并在与更高推理成本和内存存储的密集模型相比时展现出竞争力。此外，通过指令和偏好调优，研究者还创建了OLMoE-1B-7B-INSTRUCT模型，该模型在常见基准测试中超越了各种更大的指令模型。

研究还强调了MoE和一般LM的关键设计选择，如使用细粒度路由和粒度专家，以及无丢弃基于token的路由算法的重要性。作者希望这个完全开源的MoE能够促进更多研究和分析，提高对这些模型的理解。为了支持这一点，训练代码、中间检查点、训练日志和训练数据都已经开源。

在预训练架构方面，OLMoE由多个transformer层组成，每个输入token只有k个专家被激活处理。路由器是一个经过训练的线性层，负责将输入数据映射到被选中的专家上。预训练数据方面，研究者使用了来自DCLM和Dolma 1.7的数据集，创建了名为OLMOE-MIX的新数据集。

自适应方面，研究者基于之前的开放模型，通过指令调优和偏好调优构造了OLMoE-1B-7B-INSTRUCT。在指令调优中，增加了更多的代码和数学数据，以提高模型在这些领域的性能。实验评估包括预训练期间、预训练之后和自适应之后的评估，结果显示OLMoE-1B-7B在多个任务中表现出色，尤其是在使用较少的激活参数时。

总的来说，OLMoE模型的开源发布为研究人员和开发者提供了一个高效、经济的选择，有助于推动大语言模型的发展和应用。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

今日应用

今日话题

文章摘要

文章来源

去太空训练AI大模型，24小时太阳能供电的GPU明年上天

CVPR 2024｜NAT其实真的不输扩散模型！AutoNAT：全新定制训练&生成策略拓宽性能边界

相关文章

暂无评论

热门网址

热门标签