标签：Transformer模型

公理训练让LLM学会因果推理：6700万参数模型比肩万亿参数级GPT-4

本文介绍了一种通过公理训练（axiomatic training）学习因果推理的方法，由微软、MIT 和印度理工学院海得拉巴分校（IIT Hyderabad）的研究团队提出。该方法利...

2个月前

PiT的提出质疑了局部性在视觉任务中的基本归纳偏置地位，尽管直接操作单个像素在计算复杂度上存在不实用之处，但研究者认为，随着处理超长序列技术的发展，Pi...

3个月前

Agent Attention的核心思想是在传统的Softmax Attention和Linear Attention的基础上，引入一组额外的Agent token，使得Agent token作为Query token的代理，先...

3个月前