给定单个参考图像,RB-Modulation提供了一个无需训练的即插即用解决方案,用于(a)风格化和(b)具有各种提示的内容样式组合,同时保持样本多样性和提示对齐。例如,给定参考样式图像(例如“熔化的黄金3d渲染样式”)和内容图像(例如(a)“狗”),RB-Modulation方法可以坚持所需的提示,而不会泄漏参考样式图像中的内容,也不限于参考内容图像的姿势。
相关链接
论文地址:https://rb-modulation.github.io/data/main.pdf
项目地址:https://rb-modulation.github.io/
代码地址:https://github.com/LituRout/RB-Modulation(即将开源)
论文阅读
RB-Modulation:无需训练的基于随机最优控制的个性化扩散模型
摘要
我们提出了基于参考的调制 (RB-Modulation),这是一种无需训练即可个性化扩散模型的即插即用型新解决方案。现有的无需训练的方法在以下方面存在困难:
-
在没有额外风格或内容文本描述的情况下从参考图像中提取风格,
-
从参考风格图像中泄漏不必要的内容
-
有效地组合风格和内容。
RB-Modulation 建立在一种新颖的随机最优控制器上,其中风格描述符通过终端成本对所需属性进行编码。由此产生的漂移不仅克服了上述困难,而且还确保了参考风格的高保真度并遵循给定的文本提示。我们还引入了一种基于交叉注意的特征聚合方案,允许 RB-Modulation 将内容和风格与参考图像分离。凭借理论依据和经验证据,我们的框架以无需训练的方式展示了对内容和风格的精确提取和控制。此外,我们的方法允许无缝组合内容和风格ÿ