单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

AI最新资讯3个月前发布 tree

26 0 0

今日应用

AI卡通头像生成器

AI卡通头像生成器 - 万能在线编辑器，支持多格式，一键修改、智能抠图、添加水印文字，打造属于您的独特卡通头像！

今日话题

单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

重点标签 Transformer、AI、算术任务、Abacus嵌入、性能提升

文章摘要

自2017年提出以来，Transformer已成为AI大模型的主流架构，但在算术任务中表现不佳，尤其是加法。这一问题主要源于Transformer无法准确跟踪大范围数字中每个数字的位置。为了解决这一问题，来自马里兰大学、CMU等机构的研究者提出了一种新的方法，通过在每个数字中添加一个嵌入来编码数字相对于开头的位置，从而显著提高了Transformer在算术任务中的准确率。

研究者提出了名为Abacus嵌入的新位置嵌入方法，结合标准位置嵌入使用后，观察到Transformer在算数任务上的准确率显著提高。实验表明，仅训练20位数字的模型就能泛化到120位数操作数的问题，这一数字是之前最先进泛化因子的6倍。此外，研究还发现结合输入注入和looped transformer架构可以在加法问题上实现几乎完美的泛化。

文章还探讨了其他方法来改善Transformer在算术和泛化方面的性能，如输入注入和循环架构。实验设置中，作者训练了仅包含解码器的因果语言模型来解决加法问题，并考虑了两种标准Transformer架构：标准的自回归Transformer模型和通过输入注入增强的模型。

Abacus嵌入通过编码每个数字相对于当前数字起始位置的位置，帮助模型对齐数字，从而解决了Transformer在表示位置信息方面的局限性。实验结果表明，Abacus嵌入可显著提高模型的泛化性能，尤其是在100位及以上的加法问题上。

循环架构也被证明可以进一步提高Transformer执行多位数加法的能力。作者比较了使用不同嵌入对操作数多达40位的加法进行训练的所有架构变体，并发现looped transformer在使用任何一种位置嵌入时都取得了最佳的分布外性能。

最后，研究者还将这些发现扩展到更复杂的问题，包括乘法和排序，在这些领域也展现出了长度泛化。Abacus嵌入模型在15位数乘法的分布内准确率超过了之前的工作，且不需要用零将每个操作数填充到相同长度。在数组排序方面，组合嵌入方法增强了模型的泛化能力。

这项研究为Transformer在算术任务中的应用提供了新的视角，并展示了通过Abacus嵌入和循环架构等技术改进模型性能的可能性。更多研究细节，请参考原论文。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

今日应用

今日话题

文章摘要

文章来源

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

超长小说可以用AI翻译了，新型多智能体协作系统媲美人工翻译

相关文章

暂无评论

热门网址

热门标签