标签:扩展定律

从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

研究者们发现,不同模型之间的训练计算效率和能力存在很大差异,但这些差异与一个简单的、广义的扩展定律是一致的。该定律认为,语言模型的性能是低维能力空...