阿里开源新型图像个性化框架MS-Diffusion，无需微调一键参考多个主题

AI最新资讯3个月前发布 tree

26 0 0

今日应用

火龙果写作

火龙果写作（Pitaya），一款集纠错校对、改写润色、原创续写和实时翻译于一体的AI智能写作工具，让写作变得更加轻松高效。

今日话题

阿里开源新型图像个性化框架MS-Diffusion，无需微调一键参考多个主题

重点标签 图像个性化、MS-Diffusion、阿里浙大、无需微调、高质量生成

文章摘要

摘要：
阿里和浙大联合提出了一种新型图像个性化框架MS-Diffusion，它允许用户通过少量主题参考图，无需进行微调，即可一键生成与多种文本概念结合的新图片。MS-Diffusion在生成图像时能够保持高保真度，同时具有高功能性和可扩展性。它支持在指定区域生成不同主题的图像，并可以与ControlNet结合，引入深度图、边缘图、姿态等条件的控制。

MS-Diffusion的模型架构基于Stable Diffusion，通过设计一条图像条件注入通路，将图像映射到跨注意力条件空间中。它引入了位置信息辅助，通过Grounding Resampler将图像embedding与语义信息和位置信息整合，增强了细节保真度。此外，MS-Diffusion利用multi-subject cross-attention技术，限定特定主题在跨注意力层的作用区域，避免了不同主题之间的干扰，同时让文本条件主导无关区域，如背景。

在实验中，MS-Diffusion与多种已开源的个性化方法进行了定量比较，无论是图像保真度（DINO）还是文本保真度（CLIP-T），MS-Diffusion都取得了更优秀的性能。它更倾向于关注物体本身的细节特征，虽然在粗粒度图像保真度（CLIP-I）上未占据绝对优势，但这也与现有个性化方法容易过拟合到参考图背景上的问题有关。

MS-Diffusion还提供了大量定性结果，展示了其在多主题个性化生成方面的优势。它引入的位置信息不仅解决了多主题个性化时可能遇到的问题，还显著增强了模型个性化过程的控制能力。在用户普遍选择低自由度Inpainting模型的背景下，MS-Diffusion为高自由度的个性化创作带来了新的可能性。目前，MS-Diffusion已开源，用户可以前往项目主页、GitHub地址和HuggingFace地址了解更多信息，并尝试使用。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

阿里开源新型图像个性化框架MS-Diffusion，无需微调一键参考多个主题

今日应用

今日话题

文章摘要

文章来源

局部归纳偏置真的有必要吗？探索 Transformer 新范式：一个像素就是一个 token！

突发！OpenAI停止不支持国家API，7月9日开始执行

相关文章

暂无评论

热门网址

热门标签