LLM 系列超详细解读 (十)|大语言模型中的超大激活值

今日应用


今日话题


LLM 系列超详细解读 (十)|大语言模型中的超大激活值
LLM 系列超详细解读 (十)|大语言模型中的超大激活值
 

重点标签 超大激活值大语言模型Self-Attention偏置项视觉Transformer

文章摘要


本文深入探讨了大语言模型(LLM)中出现的“超大激活值”现象,这种现象指的是在模型的激活值中,有极个别值远大于其他值,差异可达100,000倍。作者首先分析了超大激活值在LLM中的位置和性质,发现它们通常出现在模型的起始词token和分隔符token中,且在不同层的值保持基本恒定。进一步研究表明,这些超大激活值在模型中充当了固定但关键的bias项,对模型性能有显著影响。

文章还探讨了超大激活值与Self-Attention机制的关系,发现它们导致模型在计算注意力时更多地关注与超大激活值相关的tokens。此外,作者通过实验干预超大激活值,证明了它们在模型中的重要性,并发现通过引入显式的注意力偏置项可以消除超大激活值现象。

视觉Transformer(ViT)领域,作者也观察到了类似的超大激活值现象,尽管出现的频率较低。这些超大激活值在ViT中同样充当了固定偏置项的角色,并且在使用Register token的ViT中,超大激活值出现在固定的Register token中,表明这些token被用作存储恒定的Key和Value,为Self-Attention引入额外的偏置项。

本文的结论强调了超大激活值在LLM和ViT中的重要性,它们不仅是模型内部的关键偏置项,而且与模型的Self-Attention机制紧密相关。通过引入显式的注意力偏置项,可以在一定程度上消除超大激活值的影响,为理解和改进模型提供了新的视角。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...