标签:图像生成

FID 指标简介与修正 TorchEval FID 计算接口经历分享

极市导读:在这篇文章中,作者分享了关于 FID 计算的知识,以及他在调试 TorchEval 库时的经历。文章总结了使用 pytorch-fid、torch-fidelity 和 TorchEval ...

CVPR 2024|NAT其实真的不输扩散模型!AutoNAT:全新定制训练&生成策略拓宽性能边界

极市导读:本文提出了一种名为AutoNAT的新方法,旨在通过统一优化问题来自动设计训练和生成策略,以提高非自回归Transformer(NAT)在图像生成任务中的性能。...

别只盯着DiT,国产模型也在暗自发力!U-ViT:ViT 架构实现 Diffusion 的开山之作!

本文介绍了一种基于Vision Transformer (ViT) 的扩散模型U-ViT,该模型由清华大学、中国人民大学和北京智源的研究团队开发。U-ViT使用ViT替换了传统扩散模型...

预训练无条件扩散生成模型的 training-free 条件生成食谱(二)

极市导读本文深入探讨了无需额外训练的条件生成方法,这些方法主要利用预训练的无条件扩散模型,并通过调整采样策略来生成与给定条件相符的图像。文章重点讨...

CVPR 2024|仅用合成数据训练模型到底行不行?有新发现!

摘要:在机器学习领域,合成数据的使用越来越受到重视,尤其是在需要大量数据训练模型的场景中。最近的研究显示,使用合成数据训练的自监督和多模态模型在多...

ECCV2024|扩散模型的反馈学习 | RFNet:利用人类反馈生成可靠的高质量图像

极市导读: 本文介绍了一种名为RFNet的多模态可靠反馈网络,旨在提升电商领域广告图像的生成质量和可用率。京东广告团队通过模拟人类审核AI图片的方式,利用R...

统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者

本文介绍了一种名为Transfusion的新型多模态生成模型,该模型能够同时处理离散数据(如文本或代码)和连续数据(如图像、音频和视频)。Transfusion模型通过...

深度解读何恺明团队新作:不用向量离散化的自回归图像生成

在本文中,作者提出了一种新的自回归图像生成模型,该模型通过使用扩散模型来建模图像词元的分布,从而提高了生成能力。自回归模型在自然语言处理(NLP)中取...

Stable Diffusion原班人马新公司官宣!新模型一夜刷新AI绘画格局,已获2.3亿元融资

黑森林实验室(Black Forest Lab)是Stable Diffusion原班人马成立的新公司,由Robin Rombach领导,他也是Stable Diffusion的两个主要作者之一。公司一亮相就...

离散视觉tokenizer

本文深入探讨了离散视觉分词器(tokenizer)在多模态大模型中的关键作用,特别是在图像和文本数据的处理上。离散视觉分词器能够将图像转换成与文本token形式...
123