MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

AI最新资讯2个月前发布 tree
18 0 0

今日应用


今日话题


MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限
MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限
 

重点标签 MoE架构PEER策略DeepMindAI模型Transformer架构

文章摘要


谷歌DeepMind的研究科学家Xu Owen He提出了一种名为PEER(参数高效专家检索)的全新策略,该策略可以将混合专家(MoE)架构扩展到百万个专家,同时不增加计算成本。MoE技术是当前大型语言模型(LLM)的主流架构之一,但现有模型的专家数量通常限制在16或32个。PEER策略通过使用大量小型专家、乘积键检索技术和多头检索机制,实现了在不增加计算成本的情况下扩展专家数量,从而提高了模型的参数效率和知识迁移能力。

PEER层的设计包括一个由N个专家组成的专家池、一组相应的乘积键和用于将输入向量映射到查询向量的查询网络。通过乘积键检索技术,可以从大量专家中高效地找到前k个最相似的专家。PEER中的每个专家仅包含一个神经元和单隐藏层的单例MLP,通过多头检索机制,可以实现动态组装含有多个神经元的专家MLP网络。

在实验中,PEER与各种基线方法进行了比较,结果表明,在相同的计算预算下,PEER模型达到了最低的计算优化困惑度。此外,PEER模型在语言建模数据集上的性能也得到了验证。消融实验进一步研究了专家数量和活跃专家数量对模型性能的影响,结果表明,增加专家数量和活跃专家数量可以提高模型性能,但性能会逐渐趋于饱和。

PEER策略AI模型的发展提供了新的可能性,通过扩展专家数量而不增加计算成本,有望进一步提升模型的性能和效率。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...