标签:MoE架构

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

谷歌DeepMind的研究科学家Xu Owen He提出了一种名为PEER(参数高效专家检索)的全新策略,该策略可以将混合专家(MoE)架构扩展到百万个专家,同时不增加计算...

中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹

面壁智能发布新一代端侧大模型MiniCPM面壁智能在4月11日发布了新一代的端侧大模型MiniCPM系列,这一系列包括了四个模型,分别是MiniCPM-V 2.0、MiniCPM-1.2B...

独家支持MoE大模型一键训练,达观大模型管理平台两大全新功能发布

曹植MoE模型全新上线 达观大模型管理平台推出了曹植MoE模型,支持私有化部署和一键训练,具备SFT微调、模型量化、封装服务接口等功能。该模型在中文场景进行...