标签：Transformer

拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

TransNAR通过预训练NAR作为Transformer编码的调制器，并通过交叉注意力算子融合不同模态的信息。它接受文本形式的算法问题规范及其对应的图表征作为输入，并...

3个月前

蚂蚁集团与清华大学联合推出了一种名为TimeMixer的纯MLP（多层感知机）架构模型，在时序预测的性能和效能上全面超越了Transformer模型。这一成果得益于TimeMi...

3个月前

摘要总结：2023年末至2024年间，3D生成领域经历了显著的技术进步。在这一时期，DreamFusion等项目的成功推动了基于2D扩散模型的3D生成技术发展。这些技术通过...

3个月前

本文深入探讨了Mamba模型与Linear Attention Transformer之间的相似性和差异，揭示了Mamba成功的关键因素，并提出了一种新的线性注意力模型MLLA。Mamba是一种...

3个月前

Vision-LSTM（ViL）是一种新型的视觉架构，由LSTM的提出者Sepp Hochreiter及其团队开发。与Vision Transformer（ViT）和Vision Mamba（Vim）等模型相比，ViL...

3个月前

Inf-DiT的核心优势在于其创新的单向块注意力机制，该机制允许模型在推理过程中自适应地调整显存开销，并有效处理全局依赖关系。通过DiT架构和逐步上采样的方...

3个月前

自2017年提出以来，Transformer已成为AI大模型的主流架构，但在算术任务中表现不佳，尤其是加法。这一问题主要源于Transformer无法准确跟踪大范围数字中每个...

4个月前

在当前的人工智能领域，关于Vision Transformer（ViT）与传统卷积神经网络（CNN）哪个更优越的争论一直存在。今年初，OpenAI的Sora模型使得ViT架构受到关注。...

4个月前

多token预测是一种新型的预训练方法，旨在提高大语言模型（LLM）的推理效率。这种方法要求模型在每个位置上同时预测接下来的n个Token，而不是像传统的下一个T...

4个月前

文章首先从Online-Softmax的角度切入，逐步深入讲解了3-pass Safe-Softmax、2-pass Online-Softmax以及1-pass FlashAttention的原理。接着，详细讲解了FlashA...

4个月前