ECCV 2024｜南洋理工三维数字人生成新范式：结构扩散模型

AI最新资讯1个月前发布 tree

11 0 0

今日应用

熊猫云简历

熊猫办公 - 时下流行的精品简历模板，免费在线制作，助您轻松展现职业精彩，一站式职业形象打造！

今日话题

ECCV 2024｜南洋理工三维数字人生成新范式：结构扩散模型

重点标签 新加坡南洋理工大学、三维数字人生成、StructLDM、高质量、可控性生成

文章摘要

新加坡南洋理工大学S-Lab团队提出了一种名为StructLDM的三维数字人生成新范式，旨在提高数字人制作效率和质量。该方法基于结构化隐空间扩散模型，包括结构化的高维人体表征、自动解码器和隐空间扩散模型三个关键设计。

StructLDM是一个前馈三维生成模型，能够从图像和视频中学习，生成高质量、多样化且视角一致的三维数字人。与现有的3D GAN方法相比，StructLDM支持不同层级的可控生成与编辑功能，如局部服装编辑、三维虚拟试衣等部位感知的编辑任务，且不依赖于特定的服装类型或遮罩条件。

在训练过程中，StructLDM分为两个阶段：结构化自动解码和结构扩散模型。自动解码器根据人体姿态信息和相机参数，拟合出结构化的UV latent，而结构扩散模型则学习UV latent空间，以此学习人体三维先验。在推理阶段，StructLDM可以随机生成三维数字人，通过随机采样噪声并去噪得到UV latent，然后由自动解码器渲染为人体图像。

实验结果表明，StructLDM在四个数据集上的表现均优于现有方法。在定性比较中，StructLDM能够生成高质量、多样化、视角一致的三维数字人，具有丰富的肤色、发型和服饰细节。在定量比较中，StructLDM在FID指标上大幅降低，用户研究也显示StructLDM在面部细节和全身图像质量上具有优势。

StructLDM的应用包括可控性生成、组合式生成和编辑互联网图片。它支持相机视角、姿态、体型控制以及三维虚拟试衣等可控性生成任务，同时可以通过二维隐空间插值实现组合式生成。此外，StructLDM还可以对互联网图片进行编辑，通过Inversion技术得到UV latent，然后进行编辑。

消融实验进一步探讨了StructLDM中隐空间扩散模型、一维与二维人体表征以及结构感知的归一化技术的影响。结果表明，通过控制扩散模型参数可以提高生成效果，二维latent能够生成高频细节，而结构感知的归一化技术有助于扩散模型的学习。

总的来说，StructLDM作为一种新型的三维数字人生成范式，具有高质量、多样化和可控性的特点，为数字孪生、元宇宙、游戏和全息通讯等领域的应用提供了新的可能性。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ECCV 2024｜南洋理工三维数字人生成新范式：结构扩散模型

今日应用

今日话题

文章摘要

文章来源

如何通俗理解扩散模型？

一文搞懂 TorchDynamo 原理

相关文章

暂无评论

热门网址

热门标签