深度解读何恺明团队新作：不用向量离散化的自回归图像生成

AI最新资讯1个月前发布 tree

19 0 0

今日应用

TreeMind树图官网

TreeMind树图官网提供正版AI思维导图工具软件和免费在线脑图模板。支持脑图、逻辑图、树形图、鱼骨图、组织架构图、时间轴等多种专业格式，适合头脑风暴和创意规划，助力您的思维创新。

今日话题

深度解读何恺明团队新作：不用向量离散化的自回归图像生成

重点标签 自回归模型、图像生成、扩散模型、掩码自回归、Transformer

文章摘要

在本文中，作者提出了一种新的自回归图像生成模型，该模型通过使用扩散模型来建模图像词元的分布，从而提高了生成能力。自回归模型在自然语言处理（NLP）中取得了巨大成功，但在图像生成方面却面临挑战。传统自回归模型依赖于向量离散化（Vector Quantization, VQ）技术来将连续的图像数据转换为离散的词元，但这种方法存在局限性。为了解决这一问题，作者提出了一种不依赖VQ的自回归模型，该模型在ImageNet图像生成指标上取得了接近最先进的结果。

知识回顾与自回归图像生成
自回归模型是一种生成模型，它根据已生成的内容递归预测下一项内容。在文本生成中，这种模型可以很容易地预测下一个词元。然而，在图像生成中，由于图像是二维的且颜色值是连续的，自回归模型需要将连续值离散化。通常，这通过VQ自编码器实现，但这种方法存在训练难度大和重建效果不佳的问题。

抛弃VQ，拥抱扩散模型
作者提出使用扩散模型来代替传统的类别分布，以建模下一个像素值的分布。扩散模型是一种强大的生成模型，能够拟合复杂的图像分布。通过这种方式，模型可以使用连续值来表示图像，从而更容易生成内容丰富的图像。

模型配置与实验结果
本工作采用了两阶段的生成方法，其中第一阶段使用自编码器来压缩图像，第二阶段使用改进的自回归模型。实验结果表明，新模型在ImageNet图像生成任务上的FID和IS指标上取得了优异的表现，超越了大多数其他模型。

总结
本文提出的自回归图像生成模型通过使用扩散模型来建模像素值的分布，有效地解决了传统自回归模型在图像生成中的局限性。这种方法不仅提高了生成能力，还在ImageNet图像生成指标上取得了接近最顶尖的结果。此外，作者还引入了掩码自回归模型来进一步提升生成能力。这项工作不仅在科研上具有创新性，而且在实际应用中也具有潜在价值。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

深度解读何恺明团队新作：不用向量离散化的自回归图像生成

今日应用

今日话题

文章摘要

文章来源

准确率达60.8%，浙大基于Transformer的化学逆合成预测模型，登Nature子刊

入职一年半，这个AI员工晋升为了国内首位AI架构师

相关文章

暂无评论

热门网址

热门标签