标签:Transformer

拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

TransNAR通过预训练NAR作为Transformer编码的调制器,并通过交叉注意力算子融合不同模态的信息。它接受文本形式的算法问题规范及其对应的图表征作为输入,并...

全面超越Transformer!清华蚂蚁推出纯MLP架构,长短程时序预测大幅提升

蚂蚁集团与清华大学联合推出了一种名为TimeMixer的纯MLP(多层感知机)架构模型,在时序预测的性能和效能上全面超越了Transformer模型。这一成果得益于TimeMi...

一文回顾2024年2D/3D生成方向工作进展

摘要总结:2023年末至2024年间,3D生成领域经历了显著的技术进步。在这一时期,DreamFusion等项目的成功推动了基于2D扩散模型的3D生成技术发展。这些技术通过...

其实Mamba是一种线性注意力?清华大学黄高团队揭秘开视觉Mamba的真实面目!

本文深入探讨了Mamba模型与Linear Attention Transformer之间的相似性和差异,揭示了Mamba成功的关键因素,并提出了一种新的线性注意力模型MLLA。Mamba是一种...

原作者带队,LSTM卷土重来之Vision-LSTM出世

Vision-LSTM(ViL)是一种新型的视觉架构,由LSTM的提出者Sepp Hochreiter及其团队开发。与Vision Transformer(ViT)和Vision Mamba(Vim)等模型相比,ViL...

超分辨图像无限生成!清华甩出Inf-DiT:Diffusion Transformer 任意分辨率上采样

Inf-DiT的核心优势在于其创新的单向块注意力机制,该机制允许模型在推理过程中自适应地调整显存开销,并有效处理全局依赖关系。通过DiT架构和逐步上采样的方...

单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

自2017年提出以来,Transformer已成为AI大模型的主流架构,但在算术任务中表现不佳,尤其是加法。这一问题主要源于Transformer无法准确跟踪大范围数字中每个...

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

在当前的人工智能领域,关于Vision Transformer(ViT)与传统卷积神经网络(CNN)哪个更优越的争论一直存在。今年初,OpenAI的Sora模型使得ViT架构受到关注。...

Meta等最新研究:多token预测,提升大模型推理效率

多token预测是一种新型的预训练方法,旨在提高大语言模型(LLM)的推理效率。这种方法要求模型在每个位置上同时预测接下来的n个Token,而不是像传统的下一个T...

Attention优化|2w字原理&图解: 从Online-Softmax到FlashAttention V1/V2/V3

文章首先从Online-Softmax的角度切入,逐步深入讲解了3-pass Safe-Softmax、2-pass Online-Softmax以及1-pass FlashAttention的原理。接着,详细讲解了FlashA...