标签:多头注意力

将 MOE 塞到 LoRA: 一篇文章的诞生

摘要:本文介绍了一种新的低秩适应方法,名为Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)。这种方法在传统的LoRA中加入了一个Mixer矩阵,用于混...