标签:Transformer

其实Mamba是一种线性注意力?清华大学黄高团队揭秘开视觉Mamba的真实面目!

本文深入探讨了Mamba模型与Linear Attention Transformer之间的相似性和差异,揭示了Mamba成功的关键因素,并提出了一种新的线性注意力模型MLLA。Mamba是一种...

原作者带队,LSTM卷土重来之Vision-LSTM出世

Vision-LSTM(ViL)是一种新型的视觉架构,由LSTM的提出者Sepp Hochreiter及其团队开发。与Vision Transformer(ViT)和Vision Mamba(Vim)等模型相比,ViL...

超分辨图像无限生成!清华甩出Inf-DiT:Diffusion Transformer 任意分辨率上采样

Inf-DiT的核心优势在于其创新的单向块注意力机制,该机制允许模型在推理过程中自适应地调整显存开销,并有效处理全局依赖关系。通过DiT架构和逐步上采样的方...

单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

自2017年提出以来,Transformer已成为AI大模型的主流架构,但在算术任务中表现不佳,尤其是加法。这一问题主要源于Transformer无法准确跟踪大范围数字中每个...

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

在当前的人工智能领域,关于Vision Transformer(ViT)与传统卷积神经网络(CNN)哪个更优越的争论一直存在。今年初,OpenAI的Sora模型使得ViT架构受到关注。...

Meta等最新研究:多token预测,提升大模型推理效率

多token预测是一种新型的预训练方法,旨在提高大语言模型(LLM)的推理效率。这种方法要求模型在每个位置上同时预测接下来的n个Token,而不是像传统的下一个T...

Attention优化|2w字原理&图解: 从Online-Softmax到FlashAttention V1/V2/V3

文章首先从Online-Softmax的角度切入,逐步深入讲解了3-pass Safe-Softmax、2-pass Online-Softmax以及1-pass FlashAttention的原理。接着,详细讲解了FlashA...

ICLR’24 Spotlight|PixArt-α:文生图扩散 Transformer 架构的快速训练

PixArt-α是一种由华为诺亚方舟实验室、香港大学和香港科技大学共同研发的文生图(Text-to-Image, T2I)扩散Transformer架构。该模型在训练速度、图像质量、艺...

原作者带队,LSTM真杀回来了!

步骤2:撰写摘要总结xLSTM:LSTM的重生与进化在20世纪90年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想,为深度学习的成功案例做出了...

重磅!Llama-3,最强开源大模型正式发布!

步骤2:撰写摘要Meta公司在官网发布了一款名为Llama-3的开源大模型,该模型专注于AIGC(人工智能生成内容)领域。Llama-3有两种参数规模,分别为80亿和700亿...
1234