标签：图像生成

FID 指标简介与修正 TorchEval FID 计算接口经历分享

极市导读：在这篇文章中，作者分享了关于 FID 计算的知识，以及他在调试 TorchEval 库时的经历。文章总结了使用 pytorch-fid、torch-fidelity 和 TorchEval ...

1天前

极市导读：本文提出了一种名为AutoNAT的新方法，旨在通过统一优化问题来自动设计训练和生成策略，以提高非自回归Transformer（NAT）在图像生成任务中的性能。...

2天前

本文介绍了一种基于Vision Transformer (ViT) 的扩散模型U-ViT，该模型由清华大学、中国人民大学和北京智源的研究团队开发。U-ViT使用ViT替换了传统扩散模型...

3天前

极市导读本文深入探讨了无需额外训练的条件生成方法，这些方法主要利用预训练的无条件扩散模型，并通过调整采样策略来生成与给定条件相符的图像。文章重点讨...

4天前

摘要：在机器学习领域，合成数据的使用越来越受到重视，尤其是在需要大量数据训练模型的场景中。最近的研究显示，使用合成数据训练的自监督和多模态模型在多...

5天前

极市导读：本文介绍了一种名为RFNet的多模态可靠反馈网络，旨在提升电商领域广告图像的生成质量和可用率。京东广告团队通过模拟人类审核AI图片的方式，利用R...

1周前

本文介绍了一种名为Transfusion的新型多模态生成模型，该模型能够同时处理离散数据（如文本或代码）和连续数据（如图像、音频和视频）。Transfusion模型通过...

2周前

在本文中，作者提出了一种新的自回归图像生成模型，该模型通过使用扩散模型来建模图像词元的分布，从而提高了生成能力。自回归模型在自然语言处理（NLP）中取...

1个月前

黑森林实验室（Black Forest Lab）是Stable Diffusion原班人马成立的新公司，由Robin Rombach领导，他也是Stable Diffusion的两个主要作者之一。公司一亮相就...

1个月前

本文深入探讨了离散视觉分词器（tokenizer）在多模态大模型中的关键作用，特别是在图像和文本数据的处理上。离散视觉分词器能够将图像转换成与文本token形式...

1个月前

12 3