标签:学习率敏感性

ICLR2024 oral:小尺度Transformer如何Scale Up

摘要:本文研究了放大Transformer模型时遇到的训练不稳定性问题,并提出了研究和预测这些不稳定性的方法。作者指出,尽管扩展Transformer模型已在多个领域取...