Mamba作者新作:将Llama3蒸馏成混合线性 RNN

今日应用


今日话题


Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
 

重点标签 Transformer注意力机制Mamba知识蒸馏性能评估

文章摘要


在深度学习领域,Transformer 模型因其注意力机制而广受欢迎,该机制允许模型关注输入序列的相关部分,从而实现更好的上下文理解。然而,注意力机制的计算开销随着输入规模的增加而呈二次方增长,限制了 Transformer 处理长文本的能力。近期,Mamba 模型的出现改变了这一局面,它通过引入一种有效的选择机制,能够在滤除不相关信息的同时无限期地保留必要和相关的数据,实现了随上下文长度线性扩展的能力。

最近的研究进一步证明了通过知识蒸馏技术,可以将大型 Transformer 模型蒸馏成大型混合线性 RNN,这种混合模型在聊天基准测试中实现了与原始 Transformer 相当的性能,同时在某些测试中优于从头开始训练的开源混合 Mamba 模型。研究中提出的多级蒸馏方法结合了渐进式蒸馏、监督微调和定向偏好优化,以获得更好的困惑度和下游评估结果。

研究还提出了一种硬件感知的推测解码算法,可以加快 Mamba 和混合模型的推理速度。在实验中,使用两个 LLM 聊天模型进行测试,结果显示蒸馏后的混合 Mamba 模型在多个基准测试中表现优异。此外,研究还探讨了不同模型变体的困惑度和性能,证实了注意力权重的初始化对于模型性能的重要性。

这项研究不仅展示了Transformer 模型的潜力,也为处理长文本提供了新的思路和方法。通过Mamba 模型和知识蒸馏技术的应用,未来的深度学习模型有望在处理大规模数据时更加高效和准确。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...