1890美元，就能从头训练一个还不错的12亿参数扩散模型

AI最新资讯2个月前发布 tree

15 0 0

今日应用

Jiumo Search 鸠摩搜索

鸠摩搜索引擎是一款专注于电子书的搜索工具，提供广泛且多样的电子书资源，界面简洁高效，帮助用户轻松找到所需内容，是阅读爱好者的理想选择。

今日话题

1890美元，就能从头训练一个还不错的12亿参数扩散模型

重点标签 视觉生成模型、低成本训练、稀疏transformer、延迟掩蔽策略、扩散Transformer

文章摘要

在视觉生成模型领域，从头开始训练模型的成本和工作量一直是一个挑战。然而，Sony AI 等机构的研究者通过开发一种低成本端到端的 pipeline，成功训练了一个具有 11.6 亿参数的稀疏 transformer，仅花费了 1890 美元。这项工作的主要目标是在训练过程中减少 transformer 处理每张图像的有效 patch 数，通过在 transformer 的输入层随机掩蔽（mask）掉部分 token 来实现。为了减轻掩蔽造成的性能下降，研究者提出了一种延迟掩蔽策略，所有 patch 都由轻量级 patch 混合器（patch-mixer）进行预处理，然后再传输到扩散 transformer。

实验结果表明，延迟掩蔽方法在多个指标中都实现了更好的性能，尤其是在高掩蔽率下，性能差距会扩大。此外，作者还利用了 transformer 架构设计方面的创新，如混合专家层（MoE）和 layer-wise scaling，以在计算限制条件下提高模型的性能。在 3700 万张图像的组合数据集上，以 1890 美元的成本训练的模型在 COCO 数据集上的零样本生成中实现了 12.7 FID，显示出具有竞争力的 FID 和高质量生成，同时成本仅为 stable diffusion 模型的 1/118，是目前最先进的方法的 1/15。

这项研究展示了在有限的预算下，通过创新的方法和策略，可以有效地训练出性能优异的视觉生成模型，为该领域的研究和应用提供了新的可能性。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

1890美元，就能从头训练一个还不错的12亿参数扩散模型

今日应用

今日话题

文章摘要

文章来源

日均tokens使用量超5000亿，AI生图玩法猛猛上新：豆包大模型为什么越来越「香」了？

私有数据、删掉的内容可以永久访问，GitHub官方：故意设计的

相关文章

暂无评论

热门网址

热门标签