MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

AI最新资讯2个月前发布 tree

18 0 0

今日应用

锤子简历

锤子简历 - 全国专业简历制作平台，一站式服务，智能高效，助您成功打造最精彩简历，实现职场梦想！

今日话题

MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

重点标签 MoE架构、PEER策略、DeepMind、AI模型、Transformer架构

文章摘要

谷歌DeepMind的研究科学家Xu Owen He提出了一种名为PEER（参数高效专家检索）的全新策略，该策略可以将混合专家（MoE）架构扩展到百万个专家，同时不增加计算成本。MoE技术是当前大型语言模型（LLM）的主流架构之一，但现有模型的专家数量通常限制在16或32个。PEER策略通过使用大量小型专家、乘积键检索技术和多头检索机制，实现了在不增加计算成本的情况下扩展专家数量，从而提高了模型的参数效率和知识迁移能力。

PEER层的设计包括一个由N个专家组成的专家池、一组相应的乘积键和用于将输入向量映射到查询向量的查询网络。通过乘积键检索技术，可以从大量专家中高效地找到前k个最相似的专家。PEER中的每个专家仅包含一个神经元和单隐藏层的单例MLP，通过多头检索机制，可以实现动态组装含有多个神经元的专家MLP网络。

在实验中，PEER与各种基线方法进行了比较，结果表明，在相同的计算预算下，PEER模型达到了最低的计算优化困惑度。此外，PEER模型在语言建模数据集上的性能也得到了验证。消融实验进一步研究了专家数量和活跃专家数量对模型性能的影响，结果表明，增加专家数量和活跃专家数量可以提高模型性能，但性能会逐渐趋于饱和。

PEER策略为AI模型的发展提供了新的可能性，通过扩展专家数量而不增加计算成本，有望进一步提升模型的性能和效率。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

今日应用

今日话题

文章摘要

文章来源

实践教程 | 轻松入门模型转换和可视化

微软发现“万能钥匙”，成功入侵GPT-4o、Claude 3

相关文章

暂无评论

热门网址

热门标签