标签:SSM

一文看懂Mamba,Transformer最强竞争者

摘要:深度学习领域中,尽管 Transformer 架构凭借其注意力机制在多个应用领域取得了显著成功,但其计算成本随着输入规模的增加而呈二次方增长,限制了处理长...

LMa-UNet: 探索大kernel Mamba在医学图像分割上的潜力

摘要:本文提出了一种基于大kernel或大window的Mamba模块,用于增强状态空间模型(SSM)的表示建模能力。该模块通过分层和双向的方式同时建模全局和局部关系...

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

Jamba 是由 AI21 Labs 开发并开源的一种新型生成式人工智能模型,旨在解决传统 transformer 架构的内存占用和推理速度问题。Jamba 结合了结构化状态空间模型...