标签：Transformer

ICLR’24 Spotlight｜PixArt-α：文生图扩散 Transformer 架构的快速训练

PixArt-α是一种由华为诺亚方舟实验室、香港大学和香港科技大学共同研发的文生图（Text-to-Image, T2I）扩散Transformer架构。该模型在训练速度、图像质量、艺...

4个月前

步骤2：撰写摘要总结xLSTM：LSTM的重生与进化在20世纪90年代，长短时记忆（LSTM）方法引入了恒定误差选择轮盘和门控的核心思想，为深度学习的成功案例做出了...

4个月前

步骤2：撰写摘要Meta公司在官网发布了一款名为Llama-3的开源大模型，该模型专注于AIGC（人工智能生成内容）领域。Llama-3有两种参数规模，分别为80亿和700亿...

5个月前

DeepMind 的最新研究提出了一种名为 Mixture-of-Depths（MoD）的 Transformer 改进方法，旨在提高语言模型的计算效率。MoD 通过动态地为每个 token 分配计算...

5个月前

自 2017 年《Attention is All You Need》论文问世以来，Transformer 架构一直主导着生成式人工智能领域。谷歌对 Transformer 的优化设计最近比较频繁，几天...

5个月前

方法介绍FoundationPose是一个统一的大模型，支持6D物体姿态估计和跟踪，适用于新颖物体。它通过神经隐式表示来弥合基于模型和无模型设置之间的差距，允许有...

5个月前

研究背景大型语言模型（LLMs）在自然语言处理（NLP）领域取得了显著成果，但随着模型规模的扩大，计算需求也随之增加。现有优化 Transformer 的方法，如线性 ...

6个月前

摘要：本文探讨了Transformer架构在人工智能领域的主导地位及其面临的挑战。自2017年谷歌发表《Attention Is All You Need》以来，Transformer已成为NLP研究...

6个月前

Jamba 是由 AI21 Labs 开发并开源的一种新型生成式人工智能模型，旨在解决传统 transformer 架构的内存占用和推理速度问题。Jamba 结合了结构化状态空间模型...

6个月前

Jamba是首个SSM-Transformer混合架构的生产级大模型，相比Mixtral 8x7B，在处理长上下文时吞吐量提高了3倍。它在单个GPU上可容纳高达140K上下文，是唯一一个...

6个月前