标签：推理能力

拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

TransNAR通过预训练NAR作为Transformer编码的调制器，并通过交叉注意力算子融合不同模态的信息。它接受文本形式的算法问题规范及其对应的图表征作为输入，并...

3个月前

极市导读：本文详细介绍了思维链（Chain-of-Thought，CoT）技术及其在大语言模型中的应用和改进。文章首先回顾了提示学习（prompt learning）的背景，然后深...

4个月前

Grok-1.5的一个重要升级是其能够处理长达128K token的长上下文，这是之前版本的16倍。这使得模型能够利用更长的文档信息，并在处理复杂提示时保持指令跟踪能...

5个月前