标签:推理能力

拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

TransNAR通过预训练NAR作为Transformer编码的调制器,并通过交叉注意力算子融合不同模态的信息。它接受文本形式的算法问题规范及其对应的图表征作为输入,并...

大模型思维链(Chain-of-Thought)技术原理

极市导读:本文详细介绍了思维链(Chain-of-Thought,CoT)技术及其在大语言模型中的应用和改进。文章首先回顾了提示学习(prompt learning)的背景,然后深...

马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文

Grok-1.5的一个重要升级是其能够处理长达128K token的长上下文,这是之前版本的16倍。这使得模型能够利用更长的文档信息,并在处理复杂提示时保持指令跟踪能...