1890美元,就能从头训练一个还不错的12亿参数扩散模型

AI最新资讯2个月前发布 tree
15 0 0

今日应用


今日话题


1890美元,就能从头训练一个还不错的12亿参数扩散模型
1890美元,就能从头训练一个还不错的12亿参数扩散模型
 

重点标签 视觉生成模型低成本训练稀疏transformer延迟掩蔽策略扩散Transformer

文章摘要


视觉生成模型领域,从头开始训练模型的成本和工作量一直是一个挑战。然而,Sony AI 等机构的研究者通过开发一种低成本端到端的 pipeline,成功训练了一个具有 11.6 亿参数的稀疏 transformer,仅花费了 1890 美元。这项工作的主要目标是在训练过程中减少 transformer 处理每张图像的有效 patch 数,通过在 transformer 的输入层随机掩蔽(mask)掉部分 token 来实现。为了减轻掩蔽造成的性能下降,研究者提出了一种延迟掩蔽策略,所有 patch 都由轻量级 patch 混合器(patch-mixer)进行预处理,然后再传输到扩散 transformer。

实验结果表明,延迟掩蔽方法在多个指标中都实现了更好的性能,尤其是在高掩蔽率下,性能差距会扩大。此外,作者还利用了 transformer 架构设计方面的创新,如混合专家层(MoE)和 layer-wise scaling,以在计算限制条件下提高模型的性能。在 3700 万张图像的组合数据集上,以 1890 美元的成本训练的模型在 COCO 数据集上的零样本生成中实现了 12.7 FID,显示出具有竞争力的 FID 和高质量生成,同时成本仅为 stable diffusion 模型的 1/118,是目前最先进的方法的 1/15。

这项研究展示了在有限的预算下,通过创新的方法和策略,可以有效地训练出性能优异的视觉生成模型,为该领域的研究和应用提供了新的可能性。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...