标签:Self-Attention

LLM 系列超详细解读 (十)|大语言模型中的超大激活值

本文深入探讨了大语言模型(LLM)中出现的“超大激活值”现象,这种现象指的是在模型的激活值中,有极个别值远大于其他值,差异可达100,000倍。作者首先分析了...

Attention优化|2w字原理&图解: 从Online-Softmax到FlashAttention V1/V2/V3

文章首先从Online-Softmax的角度切入,逐步深入讲解了3-pass Safe-Softmax、2-pass Online-Softmax以及1-pass FlashAttention的原理。接着,详细讲解了FlashA...