标签:Transformer

ECCV’24开源 | 塑造SLAM新纪元!6倍加速!LocoTrack:跟踪一切最新SOTA!

在计算机视觉领域,点对应是一个基础性问题,广泛应用于三维重建、自动驾驶和姿态估计等场景。然而,现有方法在处理均匀区域或重复特征时容易遇到匹配歧义的...

小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++

JRT-Prompt策略通过在模型生成答案前在上下文中重复信息多次,有效避免了数据排序问题,实现了16个循环语言模型和6项ICL任务上平均11.0%的性能提升。而JRT-RN...

贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样

在深度学习领域,Transformer大模型的尺寸变化似乎正在重走卷积神经网络(CNN)的老路。贾扬清和AI领域的其他专家注意到了这一趋势,他们认为大模型尺寸的竞...

英伟达也对 Mamba下手了 ,视觉 Transformer 与 Mamba 的完美融合 !

MambaVision的核心贡献在于其创新的架构设计,它结合了Mamba和Transformer的优势,通过在最后几层加入自注意力块,有效提升了捕获长距离空间依赖关系的建模能...

Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

近期,英伟达、CMU、普林斯顿等机构联合发表了一篇实证研究论文,对比了Mamba模型与Transformer架构在大规模预训练场景下的性能。Mamba模型自推出以来,因其...

多模态模型(VLM)部署方法抛砖引玉

摘要:本文深入探讨了多模态模型,特别是视觉语言模型(VLM)的架构、训练流程和部署方案。文章首先回顾了去年年初大型语言模型(LLM)的部署情况,并指出虽...

史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造

美国芯片创业公司Etched推出了其首款AI芯片Sohu,专为Transformer架构设计,性能显著超越现有GPU。Sohu芯片的推出,标志着AI芯片领域的一次重要突破,其性能...

麻省理工提出“跨层注意力”,极大优化Transformer缓存

摘要:专注于AIGC领域的专业社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,以及市场研究和AIGC开发者生态。其中,Tr...

谷歌推出基于Transformer的创新技术——无限注意力

Infini-Attention是谷歌基于Transformer提出的一种创新技术,旨在解决传统Transformer在处理超长序列数据时遇到的内存和计算瓶颈问题。通过融合压缩记忆、局...

AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降

步骤2:撰写摘要总结在斯坦福大学的《CS25: Transformers United V4》课程中,OpenAI研究科学家Hyung Won Chung分享了他对AI研究发展主要推动力的见解。Chung...