将 MOE 塞到 LoRA: 一篇文章的诞生

AI最新资讯1周前发布 tree

8 0 0

今日应用

Musicca

Musicca通过有效的音乐理论练习和互动工具提高您的阅读，写作和演奏音乐的能力。永远免费。

今日话题

将 MoE 塞到 LoRA: 一篇文章的诞生

重点标签 tag1、LoRA、Mixer矩阵、MoE、多头注意力

文章摘要

摘要：
本文介绍了一种新的低秩适应方法，名为Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)。这种方法在传统的LoRA中加入了一个Mixer矩阵，用于混合不同子空间的信息。文章首先讨论了将LoRA和MoE结合的初步想法，指出了直接将MoE结构塞入LoRA中存在的问题，如缺乏动机、影响可合并性和增加训练时间。接着，作者提出了去掉Gate的简化设计，并引入了two-subspace-mixing方法，以确保在训练时参数量不变且推理时无延迟。

文章进一步探讨了从“多头注意力”的视角看待这种设计，将其与多头注意力机制进行比较，并提出了一种改进方案，即在中间的平行支路中加入额外的交互项，称为“扭麻花方案”。实验结果表明，这种方法在微调LLaMA3模型进行常识推理时取得了性能提升。

作者还讨论了如何提高代码效率，指出了在实现并行操作时可能遇到的挑战，并提出了一种可能的解决方案，即学习MHA的代码实现方式。此外，文章还探讨了在r维向量上进行操作的“扭麻花”本质，并引入了Mixer矩阵的概念，这是一种可学习的矩阵，用于替代固定的单位矩阵或蝴蝶因子矩阵。

最后，文章从MoE的视角重新审视了Mixer矩阵，并将其与MoE中的Gate进行了比较。作者还提供了关于Mixer矩阵优化路径与直接学习A’B不同的观点，并给出了证明。文章以对整个思考过程的回顾作为结尾，并提供了相关资源链接。

总结：
本文详细介绍了MoSLoRA方法的提出背景、设计思路、实验验证和理论分析。通过在LoRA中引入Mixer矩阵，作者成功地实现了不同子空间信息的有效混合，并在常识推理任务中取得了性能提升。文章还探讨了如何提高实现效率和从不同视角理解这种方法，为低秩适应方法的研究提供了新的视角和思路。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

将 MOE 塞到 LoRA: 一篇文章的诞生

今日应用

今日话题

文章摘要

文章来源

具身智能领域再掀波澜！穹彻智能完成数亿元Pre-A轮融资，助力人工智能走进真实世界！

FID 指标简介与修正 TorchEval FID 计算接口经历分享

相关文章

暂无评论

热门网址

热门标签