标签：Transformer

其实Mamba是一种线性注意力？清华大学黄高团队揭秘开视觉Mamba的真实面目！

本文深入探讨了Mamba模型与Linear Attention Transformer之间的相似性和差异，揭示了Mamba成功的关键因素，并提出了一种新的线性注意力模型MLLA。Mamba是一种...

3个月前

Vision-LSTM（ViL）是一种新型的视觉架构，由LSTM的提出者Sepp Hochreiter及其团队开发。与Vision Transformer（ViT）和Vision Mamba（Vim）等模型相比，ViL...

3个月前

Inf-DiT的核心优势在于其创新的单向块注意力机制，该机制允许模型在推理过程中自适应地调整显存开销，并有效处理全局依赖关系。通过DiT架构和逐步上采样的方...

3个月前

自2017年提出以来，Transformer已成为AI大模型的主流架构，但在算术任务中表现不佳，尤其是加法。这一问题主要源于Transformer无法准确跟踪大范围数字中每个...

3个月前

在当前的人工智能领域，关于Vision Transformer（ViT）与传统卷积神经网络（CNN）哪个更优越的争论一直存在。今年初，OpenAI的Sora模型使得ViT架构受到关注。...

3个月前

多token预测是一种新型的预训练方法，旨在提高大语言模型（LLM）的推理效率。这种方法要求模型在每个位置上同时预测接下来的n个Token，而不是像传统的下一个T...

3个月前

文章首先从Online-Softmax的角度切入，逐步深入讲解了3-pass Safe-Softmax、2-pass Online-Softmax以及1-pass FlashAttention的原理。接着，详细讲解了FlashA...

3个月前

PixArt-α是一种由华为诺亚方舟实验室、香港大学和香港科技大学共同研发的文生图（Text-to-Image, T2I）扩散Transformer架构。该模型在训练速度、图像质量、艺...

4个月前

步骤2：撰写摘要总结xLSTM：LSTM的重生与进化在20世纪90年代，长短时记忆（LSTM）方法引入了恒定误差选择轮盘和门控的核心思想，为深度学习的成功案例做出了...

4个月前

步骤2：撰写摘要Meta公司在官网发布了一款名为Llama-3的开源大模型，该模型专注于AIGC（人工智能生成内容）领域。Llama-3有两种参数规模，分别为80亿和700亿...

5个月前