将 MOE 塞到 LoRA: 一篇文章的诞生

今日应用


今日话题


MoE 塞到 LoRA: 一篇文章的诞生
将 MOE 塞到 LoRA: 一篇文章的诞生
 

重点标签 tag1LoRAMixer矩阵MoE多头注意力

文章摘要


摘要:
本文介绍了一种新的低秩适应方法,名为Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)。这种方法在传统的LoRA中加入了一个Mixer矩阵,用于混合不同子空间的信息。文章首先讨论了将LoRAMoE结合的初步想法,指出了直接将MoE结构塞入LoRA中存在的问题,如缺乏动机、影响可合并性和增加训练时间。接着,作者提出了去掉Gate的简化设计,并引入了two-subspace-mixing方法,以确保在训练时参数量不变且推理时无延迟。

文章进一步探讨了从“多头注意力”的视角看待这种设计,将其与多头注意力机制进行比较,并提出了一种改进方案,即在中间的平行支路中加入额外的交互项,称为“扭麻花方案”。实验结果表明,这种方法在微调LLaMA3模型进行常识推理时取得了性能提升。

作者还讨论了如何提高代码效率,指出了在实现并行操作时可能遇到的挑战,并提出了一种可能的解决方案,即学习MHA的代码实现方式。此外,文章还探讨了在r维向量上进行操作的“扭麻花”本质,并引入了Mixer矩阵的概念,这是一种可学习的矩阵,用于替代固定的单位矩阵或蝴蝶因子矩阵。

最后,文章从MoE的视角重新审视了Mixer矩阵,并将其与MoE中的Gate进行了比较。作者还提供了关于Mixer矩阵优化路径与直接学习A’B不同的观点,并给出了证明。文章以对整个思考过程的回顾作为结尾,并提供了相关资源链接。

总结:
本文详细介绍了MoSLoRA方法的提出背景、设计思路、实验验证和理论分析。通过在LoRA中引入Mixer矩阵,作者成功地实现了不同子空间信息的有效混合,并在常识推理任务中取得了性能提升。文章还探讨了如何提高实现效率和从不同视角理解这种方法,为低秩适应方法的研究提供了新的视角和思路。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...