Meta等最新研究:多token预测,提升大模型推理效率

AI最新资讯3个月前发布 tree
53 0 0

今日应用


今日话题


Meta等最新研究:多token预测,提升大模型推理效率
Meta等最新研究:多token预测,提升大模型推理效率
 

重点标签 多token预测AIGCLLMTransformer推理效率

文章摘要


多token预测是一种新型的预训练方法,旨在提高大语言模型(LLM)的推理效率。这种方法要求模型在每个位置上同时预测接下来的n个Token,而不是像传统的下一个Token预测那样逐个预测。研究人员在不同参数的模型上进行了评估,发现130亿参数模型在HumanEval和MBPP上解决问题的能力分别提高了12%和17%,同时推理效率也得到了提升。

为了实现多Token预测,研究人员设计了一种包含共享Transformer主干网络和n个独立输出头网络的模型架构。在训练阶段,每个输出头负责预测一个未来Token,而在推理阶段,只需使用单个下一Token预测,其他输出头则可用于加速推理。此外,为了降低GPU内存使用,研究人员开发了一种前向和后向传播顺序,减少了在内存中同时存储的梯度数量。

研究人员还发现,将多token预测与自推测解码相结合,可以进一步提升大模型的推理效率。自推测解码允许模型一次性生成多个Token,然后利用额外的输出头并行验证和优化这些预测,从而减少了生成文本所需的步骤,加快了整体推理效率,并减少了对算力的消耗。实验结果显示,这种方法比传统优化推理效率提升了约3倍。

多token预测技术有望推动AIGC领域的进一步发展,提高LLM的市场研究和开发者生态的效率。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...