标签:优化器

CNN一定比Transformer差吗?LeCun新作:神经网络在实践中的灵活性到底有多大?

本文探讨了影响神经网络拟合训练数据能力的多个因素,包括数据本身的性质、模型架构、大小、优化器和正则化器等。实验研究了不同数据集、架构和优化器对神经...

ICLR2024 oral:小尺度Transformer如何Scale Up

摘要:本文研究了放大Transformer模型时遇到的训练不稳定性问题,并提出了研究和预测这些不稳定性的方法。作者指出,尽管扩展Transformer模型已在多个领域取...