谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本

AI最新资讯4个月前发布 tree
43 0 0

今日应用


今日话题


谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本
谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本
 

重点标签 TransformerFAM大语言模型AIGC谷歌注意力复杂度

文章摘要


谷歌的研究人员提出了一种全新的架构TransformerFAM,旨在解决传统Transformer架构在处理超长文档时算力负担过重的问题。TransformerFAM通过集成在Transformer中的反馈循环,使得注意力机制不仅可以关注输入序列,还能自我关注自身的潜在表示,从而实现对超长和更新全局上下文信息的存储。这种设计使得大模型能够像”便签本”一样,记住很多短暂、细小的事情,同时不会对内存、算力造成过多的负担。

TransformerFAM的核心模块是反馈注意力记忆(Feedback Attention Memory,FAM),它通过反馈循环使神经网络能够注意到自身的潜在表示,允许大模型处理超长的输入序列。在每个Transformer层中,FAM模块在自注意力过程中被激活,使得输入查询不仅关注当前块和滑动窗口覆盖的过去记忆段,还能关注前一步的FAM状态,将全局上下文知识融入当前表示。

此外,TransformerFAM还采用了块内压缩技术,将长序列分成若干个小块,然后对每个块中的信息进行压缩,以便模型能够更高效地处理和记忆这些信息。在每个Transformer层中,块内压缩通过自注意力机制将当前块的信息压缩成一个固定长度的表示用于反馈记忆的激活,然后再与之前的FAM状态结合,通过一个前馈网络进行更新生成全新的FAM状态。

研究人员在1B、8B和24B三种参数的Flan-PaLM大语言模型上评估了Transformer FAM的性能。实验结果显示,与Transformer架构相比,TransformerFAM在长序列任务上取得了更好的能力,并且资源消耗更低。这表明TransformerFAM在处理长序列数据方面具有显著的优势,有望推动大语言模型的发展和应用落地。

TransformerFAM的技术灵感来自于人脑中工作记忆的机制。研究人员发现,大脑中的工作记忆能力是由前额叶皮层和视床之间的反馈循环维持的,即持续的神经元脉冲活动形成了一个反馈回路,从而实现了对短期记忆的维持和更新。受此启发,研究人员设计了TransformerFAM中的反馈循环,使得大模型能够像人脑一样,通过反馈回路维持和更新短期记忆。

总的来说,TransformerFAM通过创新的反馈循环和块内压缩技术,显著提升了大模型在处理长序列数据时的性能和效率。这一架构有望为AIGC领域带来新的突破,推动大语言模型的进一步发展和应用。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...