ECCV2024|扩散模型的反馈学习 | RFNet:利用人类反馈生成可靠的高质量图像

今日应用


今日话题


ECCV2024|扩散模型的反馈学习 | RFNet:利用人类反馈生成可靠的高质量图像
ECCV2024|扩散模型的反馈学习 | RFNet:利用人类反馈生成可靠的高质量图像
 

重点标签 RFNet图像生成广告图像多模态反馈一致条件正则化

文章摘要


极市导读: 本文介绍了一种名为RFNet的多模态可靠反馈网络,旨在提升电商领域广告图像的生成质量和可用率。京东广告团队通过模拟人类审核AI图片的方式,利用RFNet的反馈来提高图像的可用率,同时保持视觉吸引力。

动机: 电商广告图像对吸引客户至关重要,但自动生成的广告图像可能存在误导客户和人工审核成本高的问题。京东广告团队提出了RFNet,通过多模态可靠反馈网络自动检查生成的图像,并通过循环生成过程产生更多可用广告图像。

方法: RFNet结合了产品图像、深度图像、显著性图像、产品描述等多种信息,通过图像编码器和BERT模型获取图像和文本嵌入,再通过自关注层整合特征,最后通过分类器评估图像的可用性。此外,RFNet还引入了一致条件正则化,通过反馈梯度直接微调扩散模型,提高图像的可用率。

实验结果: 京东广告团队构建了一个包含超过一百万张人工注释的生成广告图像的数据集RF1M,用于训练RFNet。实验结果表明,RFNet能够有效提高生成图像的可用率,减少循环生成中的尝试次数,并在不牺牲视觉吸引力的情况下提供高效的生产过程。

技术专栏: 本文还提供了多模态大模型、Transformer系列、ICCV2023论文解读等技术专栏,以及Neural ODE、Transformer细节等技术综述,为读者提供了丰富的技术干货。

文章来源


原文地址: 点我阅读全文
原文作者: 极市平台

© 版权声明

相关文章

暂无评论

暂无评论...