Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

今日应用

[sIte_card ids="230"]

今日话题

Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

重点标签 Checkpoint系统、大模型训练、字节跳动、存储性能、I、O性能优化

文章摘要

在大模型训练过程中，软硬件故障频发，Checkpoint系统作为关键技术，负责模型状态的存储与恢复，以提高训练效率。字节跳动豆包大模型团队与香港大学联合开发了ByteCheckpoint系统，它是一个与PyTorch原生兼容、支持多种训练框架的Checkpointing系统，具有高效的读写能力和自动重新切分功能。与现有方法相比，ByteCheckpoint在Checkpoint保存性能上提升了529.22倍，在加载性能上提升了3.51倍，大幅降低了用户的使用成本，提高了系统的易用性。

Meta公司在16384块H100 80GB训练集群上进行的Llama3 405B训练中，54天内发生了419次中断，平均每三小时崩溃一次，这一问题引起了业界的广泛关注。大型训练系统中软硬件故障的频繁发生，使得提高训练效率成为大模型迭代的重要影响因素。Checkpoint技术在其中扮演了关键角色，通过频繁保存训练中的模型、优化器、数据读取器状态，减少训练进度损失。

ByteCheckpoint系统的设计解决了现有Checkpoint技术面临的四个挑战：1) 现有系统设计存在缺陷，增加了训练的I/O开销；2) Checkpoint重新切分困难，手动切分脚本开发维护成本高；3) 不同训练框架的Checkpoint模块割裂，统一管理和性能优化困难；4) 分布式训练系统用户面临多重困扰，如高效存储Checkpoint、重新切分Checkpoint以及上传训练产物等。

ByteCheckpoint采用了元数据/张量数据分离的存储架构，实现了Checkpoint管理与训练框架和并行度的解耦合。它还提出了异步张量合并技术，解决了不规则张量切分问题，提高了Checkpoint存储性能。系统架构包括API层、Planner层、Execution层和Storage层，分层设计增强了系统的可扩展性。

在实验中，ByteCheckpoint在不同模型规模和训练框架下，相比基线方法在Checkpoint存储性能上取得了显著提升，如在576卡SparseGPT 110B – Megatron-LM训练任务中性能提升了66.65~74.55倍，在256卡DenseGPT 10B – FSDP训练任务中性能提升了529.22倍。在读取性能测试中，ByteCheckpoint也取得了1.55~3.37倍的性能提升。

字节跳动豆包大模型团队成立于2023年，致力于开发业界最先进的AI大模型技术，成为世界一流的研究团队。团队正在持续吸引优秀人才加入，以创新、开放和充满创新精神的氛围，推进大模型训练提效工作取得更多进展和成果。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

今日应用

今日话题

文章摘要

文章来源

入职一年半，这个AI员工晋升为了国内首位AI架构师

视觉全能！自回归要反超扩散？Lumina-mGPT:任意分辨率丝滑逼真图像生成（上海AI Lab）

相关文章

暂无评论

热门网址

热门标签