LLM 系列超详细解读 (十)｜大语言模型中的超大激活值

AI最新资讯3周前发布 tree

7 0 0

今日应用

蛙蛙创作助手——超级AI智能写作助手

蛙蛙创作助手——超级AI智能写作助手

今日话题

LLM 系列超详细解读 (十)｜大语言模型中的超大激活值

重点标签 超大激活值、大语言模型、Self-Attention、偏置项、视觉Transformer

文章摘要

本文深入探讨了大语言模型（LLM）中出现的“超大激活值”现象，这种现象指的是在模型的激活值中，有极个别值远大于其他值，差异可达100,000倍。作者首先分析了超大激活值在LLM中的位置和性质，发现它们通常出现在模型的起始词token和分隔符token中，且在不同层的值保持基本恒定。进一步研究表明，这些超大激活值在模型中充当了固定但关键的bias项，对模型性能有显著影响。

文章还探讨了超大激活值与Self-Attention机制的关系，发现它们导致模型在计算注意力时更多地关注与超大激活值相关的tokens。此外，作者通过实验干预超大激活值，证明了它们在模型中的重要性，并发现通过引入显式的注意力偏置项可以消除超大激活值现象。

在视觉Transformer（ViT）领域，作者也观察到了类似的超大激活值现象，尽管出现的频率较低。这些超大激活值在ViT中同样充当了固定偏置项的角色，并且在使用Register token的ViT中，超大激活值出现在固定的Register token中，表明这些token被用作存储恒定的Key和Value，为Self-Attention引入额外的偏置项。

本文的结论强调了超大激活值在LLM和ViT中的重要性，它们不仅是模型内部的关键偏置项，而且与模型的Self-Attention机制紧密相关。通过引入显式的注意力偏置项，可以在一定程度上消除超大激活值的影响，为理解和改进模型提供了新的视角。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

LLM 系列超详细解读 (十)｜大语言模型中的超大激活值

今日应用

今日话题

文章摘要

文章来源

ECCV 2024｜1p-frac：已开源，仅用单张分形图片即可媲美ImageNet的预训练效果

线性回归的解析解与数值解（含代码）

相关文章

暂无评论

热门网址

热门标签