标签:ZeRO

图解大模型训练之:数据并行(DP、DDP、ZeRO、零冗余优化)

在大规模模型训练场景中,数据并行技术是提升计算效率的关键方法之一。文章首先介绍了流水线并行的概念,指出其在实际应用中并不广泛,主要受限于模型切割的...