标签:Checkpoint系统

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

在大模型训练过程中,软硬件故障频发,Checkpoint系统作为关键技术,负责模型状态的存储与恢复,以提高训练效率。字节跳动豆包大模型团队与香港大学联合开发...