标签:Transformer

ICLR’24 Spotlight|PixArt-α:文生图扩散 Transformer 架构的快速训练

PixArt-α是一种由华为诺亚方舟实验室、香港大学和香港科技大学共同研发的文生图(Text-to-Image, T2I)扩散Transformer架构。该模型在训练速度、图像质量、艺...

原作者带队,LSTM真杀回来了!

步骤2:撰写摘要总结xLSTM:LSTM的重生与进化在20世纪90年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想,为深度学习的成功案例做出了...

重磅!Llama-3,最强开源大模型正式发布!

步骤2:撰写摘要Meta公司在官网发布了一款名为Llama-3的开源大模型,该模型专注于AIGC(人工智能生成内容)领域。Llama-3有两种参数规模,分别为80亿和700亿...

DeepMind升级Transformer,前向通过FLOPs最多可降一半

DeepMind 的最新研究提出了一种名为 Mixture-of-Depths(MoD)的 Transformer 改进方法,旨在提高语言模型的计算效率。MoD 通过动态地为每个 token 分配计算...

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

自 2017 年《Attention is All You Need》论文问世以来,Transformer 架构一直主导着生成式人工智能领域。谷歌对 Transformer 的优化设计最近比较频繁,几天...

CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法

方法介绍FoundationPose是一个统一的大模型,支持6D物体姿态估计和跟踪,适用于新颖物体。它通过神经隐式表示来弥合基于模型和无模型设置之间的差距,允许有...

华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

研究背景大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著成果,但随着模型规模的扩大,计算需求也随之增加。现有优化 Transformer 的方法,如线性 ...

谁将替代 Transformer?

摘要:本文探讨了Transformer架构在人工智能领域的主导地位及其面临的挑战。自2017年谷歌发表《Attention Is All You Need》以来,Transformer已成为NLP研究...

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

Jamba 是由 AI21 Labs 开发并开源的一种新型生成式人工智能模型,旨在解决传统 transformer 架构的内存占用和推理速度问题。Jamba 结合了结构化状态空间模型...

AI21推出基于Mamba架构的生产级大模型Jamba,52B参数,单卡140K上下文推理,模型开源!

Jamba是首个SSM-Transformer混合架构的生产级大模型,相比Mixtral 8x7B,在处理长上下文时吞吐量提高了3倍。它在单个GPU上可容纳高达140K上下文,是唯一一个...