ECCV’24｜生成质量提升80%！清华AIR提出SCP-Diff：真假难辨的驾驶场景生成新方案

AI最新资讯4周前发布 tree

8 0 0

今日应用

下歌吧

下歌吧在线音乐搜索，可以在线免费下载全网MP3付费歌曲、流行音乐、经典老歌等。曲库完整，更新迅速，试听流畅，支持高品质|无损音质

今日话题

ECCV’24｜生成质量提升80%！清华AIR提出SCP-Diff：真假难辨的驾驶场景生成新方案

重点标签 Semantic Image Synthesis、State-Of-The-Art、Noise Prior、Diffusion、Cityscapes

文章摘要

本文介绍了一种名为“Noise Prior”的新技术，由清华大学智能产业研究院的赵昊老师团队联合其他机构共同提出。该技术针对语义图像合成（Semantic Image Synthesis, SIS）任务，通过在Diffusion推理过程中引入噪声先验信息，显著提升了图像生成质量，并在多个数据集上实现了最佳效果。具体来说，该技术在Cityscapes数据集上的Fréchet inception distance（FID）值从44.5降低到了10.5。

研究背景指出，现有的基于生成对抗网络（GAN）的图像生成方法存在质量不足的问题，而Diffusion模型的出现推动了图像生成质量的提升。然而，这些模型在生成与用户输入控制相符的图像时仍存在质量较差的情况。通过实验分析，研究团队发现这一问题主要源于训练和推理过程中使用的噪声分布不匹配。

为了解决这一问题，研究团队在推理阶段引入了空间噪声先验和类别噪声先验，无需重新微调即可生成更高质量的图像。这一方法在Cityscapes、ADE20K和COCO-Stuff三个数据集上均取得了State-of-The-Art的结果。此外，通过案例研究，展示了使用空间先验的模型在构建场景布局时具有更广泛的感受野，而使用普通先验的模型则容易集中在狭窄的局部区域。

文章还详细介绍了空间噪声先验和类别噪声先验的计算方法，并通过联合先验融合了两者的优点。实验部分展示了不同噪声先验对SIS生成效果的影响，并与现有最先进模型进行了比较，证明了联合先验在图像质量、与语义图的一致性方面的优势。消融实验进一步探讨了去噪步数、生成图像多样性、参考图像数量等因素对结果的影响，并最终通过用户研究验证了所提方法的用户偏好度。

总结来说，这项工作通过引入推理噪声先验，有效解决了语义图像合成任务中的图像质量和与语义图一致性问题，在多个数据集上实现了最佳性能，为未来研究提供了新的思路和高质量图像资源。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ECCV’24｜生成质量提升80%！清华AIR提出SCP-Diff：真假难辨的驾驶场景生成新方案

今日应用

今日话题

文章摘要

文章来源

ECCV 2024｜LiSe：已开源，澳门大学提出使用2D场景扩展无监督3D目标检测

百万在线，大圣归来！《黑神话：悟空》石破天惊，RTX 4090D飞越花果山

相关文章

暂无评论

热门网址

热门标签