大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

AI最新资讯2个月前发布 tree

20 0 0

今日应用

职徒简历52cv

职徒简历52cv是专业的智能简历制作工具，拥有大量的中英文简历模板、简历案例，可进行智能简历检测，支持金融、互联网、咨询、快销等行业中文简历、英文简历制作，适用于应届生求职、实习、研究生升学等多个场景。

今日话题

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer
大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

重点标签 斯坦福UCSD新架构TTT、语言模型方法变革、超越Transformer和Mamba、机器学习模型、测试时间训练层TTT、长视频建模前景

文章摘要

摘要：
斯坦福大学、UCSD、UC伯克利和Meta的研究人员联合提出了一种名为“测试时间训练层”（Test-Time-Training layers，TTT）的全新架构，这一架构有潜力彻底改变现有的语言模型方法。TTT层通过梯度下降对输入token进行压缩，以替代传统的注意力机制，实现了具有表现力记忆的线性复杂度架构。这项研究的核心理念是将上下文压缩到模型权重中，从而在不增加计算负担的同时增强表达能力。实验结果显示，TTT层在性能上超越了当前领先的Transformer和Mamba架构，尤其在处理长上下文时展现出显著优势。

详细内容：
– 新架构TTT：研究人员提出了一种全新的架构，名为“测试时间训练层”（TTT），该架构能够直接替代注意力机制，为语言模型带来变革。
– 机器学习模型：TTT层通过机器学习模型取代了传统的RNN隐藏状态，通过梯度下降压缩上下文，提高了模型的表达能力和效率。
– 超越现有架构：实验结果表明，TTT层在性能上超越了Transformer和Mamba，特别是在处理长上下文时，展现出更低的困惑度和更少的计算量。
– 长视频建模前景：TTT层未来有望应用于长视频建模，通过密集采样帧提高视频建模的质量和效率。
– 研究背景：该研究项目历时一年多，基于超过5年的测试时训练（TTT）理念，旨在开发具有线性复杂度和更强隐藏状态的新型LLM架构。
– 技术实现：TTT层利用自监督学习更新隐藏状态权重，通过梯度下降实现对每个token的“训练”，并采用端到端架构进行元学习，寻找最佳压缩上下文的方式。
– 实验结果：在Pile数据集上，TTT层在短上下文和长上下文中均展现出优越性能，尤其是在8k和32k上下文长度下，性能提升更为明显。
– 实际运行时间优化：研究人员提出了mini-batch TTT和对偶形式等创新，显著提高了TTT层在实际运行时间内的效率。
– 社区反响：TTT层的提出在AI社区引起了热议，被认为是一种可能接近实时上下文的方法，有望为长上下文提供更好的性能，同时降低计算成本。
– 作者介绍：论文的核心作者包括斯坦福大学的Yu Sun、UC San Diego的Xinhao Li和UC Berkeley的Karan Dalal，他们在深度学习、计算机视觉和电子工程等领域具有丰富的研究经验。

结论：
TTT层的提出为语言模型领域带来了重要的技术突破，其在处理长上下文时的高效性能和表达能力，预示着未来在视频建模等应用场景中的巨大潜力。随着进一步的研究和优化，TTT层有望成为推动语言模型发展的关键技术之一。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

今日应用

今日话题

文章摘要

文章来源

首届AI奥数竞赛方案公布：4支获奖队伍，竟都选择国产模型DeepSeekMath

月之暗面kimi底层推理系统方案揭秘（二）

相关文章

暂无评论

热门网址

热门标签

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑， 一夜推翻Transformer

今日应用

今日话题

文章摘要

文章来源

首届AI奥数竞赛方案公布：4支获奖队伍，竟都选择国产模型DeepSeekMath

月之暗面kimi底层推理系统方案揭秘（二）

相关文章

暂无评论

热门网址

热门标签

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer