标签：Transformer

Andrej Karpathy最新激进观点：Transformer将超越人脑

Andrej Karpathy，前OpenAI成员及特斯拉自动驾驶计算机视觉团队领导者，近期在播客节目No Priors中分享了他对AI未来的看法。他认为，Transformer模型在性能上...

1天前

本文介绍了一种基于Vision Transformer (ViT) 的扩散模型U-ViT，该模型由清华大学、中国人民大学和北京智源的研究团队开发。U-ViT使用ViT替换了传统扩散模型...

3天前

在深度学习领域，Transformer 模型因其注意力机制而广受欢迎，该机制允许模型关注输入序列的相关部分，从而实现更好的上下文理解。然而，注意力机制的计算开...

1周前

摘要：深度学习领域中，尽管 Transformer 架构凭借其注意力机制在多个应用领域取得了显著成功，但其计算成本随着输入规模的增加而呈二次方增长，限制了处理长...

3周前

本文介绍了一种名为边缘感知Transformer（EAFormer）的新型文本分割方法，旨在提高场景文本分割任务中文本边缘的准确性。EAFormer通过明确预测文本边缘并利用...

3周前

在本文中，作者提出了一种新的自回归图像生成模型，该模型通过使用扩散模型来建模图像词元的分布，从而提高了生成能力。自回归模型在自然语言处理（NLP）中取...

1个月前

Sakana AI公司近期发表的论文《Transformer Layers as Painters》深入探讨了预训练Transformer模型中的信息流，并通过一系列实验，对仅解码器和仅编码器冻结...

1个月前

在计算机视觉领域，点对应是一个基础性问题，广泛应用于三维重建、自动驾驶和姿态估计等场景。然而，现有方法在处理均匀区域或重复特征时容易遇到匹配歧义的...

1个月前

JRT-Prompt策略通过在模型生成答案前在上下文中重复信息多次，有效避免了数据排序问题，实现了16个循环语言模型和6项ICL任务上平均11.0%的性能提升。而JRT-RN...

1个月前

在深度学习领域，Transformer大模型的尺寸变化似乎正在重走卷积神经网络（CNN）的老路。贾扬清和AI领域的其他专家注意到了这一趋势，他们认为大模型尺寸的竞...

1个月前

12 3 4