标签:Transformer模型

公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4

本文介绍了一种通过公理训练(axiomatic training)学习因果推理的方法,由微软、MIT 和印度理工学院海得拉巴分校(IIT Hyderabad)的研究团队提出。该方法利...

局部归纳偏置真的有必要吗?探索 Transformer 新范式:一个像素就是一个 token!

PiT的提出质疑了局部性在视觉任务中的基本归纳偏置地位,尽管直接操作单个像素在计算复杂度上存在不实用之处,但研究者认为,随着处理超长序列技术的发展,Pi...

全新注意力范式!清华黄高团队提出Agent Attention:无缝集成Softmax和Linear的注意力机制

Agent Attention的核心思想是在传统的Softmax Attention和Linear Attention的基础上,引入一组额外的Agent token,使得Agent token作为Query token的代理,先...