图像生成别止步于扩散模型，自回归模型也很好用！LlamaGen：实现414%推理加速！

AI最新资讯3个月前发布 tree

33 0 0

今日应用

素材中国

素材中国,素材CNN_免费素材共享平台.图片素材图库提供海量素材,图片下载,设计素材,PSD源文件,矢量图,AI,CDR,EPS等高清图片下载

今日话题

图像生成别止步于扩散模型，自回归模型也很好用！LlamaGen：实现414%推理加速！

重点标签 LlamaGen自回归模型、图像生成性能、图像分词器、推理速度优化、类条件图像生成

文章摘要

LlamaGen是一种自回归模型，由香港大学和字节跳动共同开发，其在图像生成性能方面取得了显著成果。该模型通过重新检查图像分词器的设计空间、图像生成模型的缩放性能和训练数据质量，证明了原始自回归模型在适当缩放下能够达到最先进的图像生成性能。具体来说，LlamaGen包括以下几个关键点：

1. 图像分词器：LlamaGen采用了一个下采样率为16的图像分词器，该分词器在重建质量上达到了0.94 rFID，且在ImageNet benchmark的codebook使用率达到了97%。这表明离散表征不再是图像重建的瓶颈。

2. 可扩展的图像生成模型：LlamaGen开发了一系列参数量从111M到3.1B的class-conditional图像生成模型，这些模型在ImageNet 256×256 benchmarks上得到了2.18的FID，超过了LDM、DiT等扩散模型。

3. 高质量训练数据：LlamaGen首先在LAION-COCO的50M子集上训练具有775M参数的文本条件图像生成模型，然后在10M内部高美学质量图像上进行微调，展示了在视觉质量和文本对齐方面的竞争力。

4. 推理速度优化：LlamaGen采用了vLLM服务框架来优化图像生成模型的推理速度，实现了326% – 414%的加速。

LlamaGen的总览显示，输入图片通过图像分词器量化成离散tokens，然后通过基于Transformer的自回归模型生成图像。在图像分词器部分，作者使用了Quantized-Autoencoder架构，并针对codebook设计、向量维度和码本大小进行了优化。在自回归模型生成图像部分，LlamaGen基于Llama架构，使用了RMSNorm、SwiGLU激活函数和旋转位置编码RoPE，并探索了Class-conditional image generation和Text-conditional image generation。

此外，LlamaGen还研究了模型缩放、推理速度优化以及图像生成实验结果，证明了自回归模型在图像生成方面的潜力。通过与扩散模型的比较，LlamaGen展示了其在不同指标上的优势，特别是在class-conditional ImageNet 256×256 benchmark上的表现。

总的来说，LlamaGen通过其创新的设计和优化，为图像生成领域提供了一种新的自回归模型方法，有望推动该领域的进一步发展。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

图像生成别止步于扩散模型，自回归模型也很好用！LlamaGen：实现414%推理加速！

今日应用

今日话题

文章摘要

文章来源

今天起，全球所有Mac用户可免费安装桌面版ChatGPT

万文长文搞定检索增强生成(RAG)技术——13篇热门RAG文章解读

相关文章

暂无评论

热门网址

热门标签