标签:PEER策略

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

谷歌DeepMind的研究科学家Xu Owen He提出了一种名为PEER(参数高效专家检索)的全新策略,该策略可以将混合专家(MoE)架构扩展到百万个专家,同时不增加计算...