标签：Mamba

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

在深度学习领域，Transformer 模型因其注意力机制而广受欢迎，该机制允许模型关注输入序列的相关部分，从而实现更好的上下文理解。然而，注意力机制的计算开...

1周前

摘要：深度学习领域中，尽管 Transformer 架构凭借其注意力机制在多个应用领域取得了显著成功，但其计算成本随着输入规模的增加而呈二次方增长，限制了处理长...

3周前

本文深入探讨了Mamba模型与Linear Attention Transformer之间的相似性和差异，揭示了Mamba成功的关键因素，并提出了一种新的线性注意力模型MLLA。Mamba是一种...

3个月前

摘要：本文介绍了一种名为Samba的高分辨率遥感图像语义分割框架。Samba基于状态空间模型（SSM），也称为Mamba，有效捕获全局语义信息，并在遥感图像处理中展...

5个月前

Jamba是首个SSM-Transformer混合架构的生产级大模型，相比Mixtral 8x7B，在处理长上下文时吞吐量提高了3倍。它在单个GPU上可容纳高达140K上下文，是唯一一个...

5个月前