Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis阅读笔记

news2025/1/13 13:35:36

连更!!

0 Abstract

  • 先前的姿势引导图像合成方法简单的将人的外观与目标姿势进行对齐,这容易导致过拟合,因为缺乏对source person image的high-level semantic understanding;
  • 文章开发了一种新的训练范式:仅基于图片,控制pre-traind text-to-image diffusion model的图像生成过程;
    [图片]

1 Introduction

  • GAN-based方法不够稳定,因此表现不佳;
  • 现有的diffusion-based方法缺乏对人像的high-level semantic understanding,容易导致过拟合与低泛化性;
  • 本文提出了Coarse-to-Fine Latent Diffusion (CFLD)方法:
    • 打破传统范式:使用文本prompt(高度语意化与信息深度)控制SD model的图片生成过程;
    • perception-refined decoder:对细粒度的外观信息进行解耦,通过类似QFormer结构从source image学习外观信息得到一组prompt token(替代了text prompt,作为粗粒度prompt,关注人像的常规语意);
    • hybrid-granularity attention module:将多尺度细粒度外观信息作为bias term增强粗粒度prompt,控制纹理细节。

2 Related Work

3 Method

[图片]

3.1 Preliminary

  • 基于text-to-image latent diffusion model(例如Stable Diffusion):
    • VAE:原始像素空间和低维潜在空间之间的映射
    • UNet-based prediction model:对潜在空间特征进行循环去噪
      [图片]

3.2 Coarse-to-Fine Latent Diffusion

  • 训练过程使用到的数据:原始pose、原始image、目标pose、目标image
  • Architecture:
    • Hs:image decoder,例如swim-transformer,对原始image进行解码;
    • HD:Perception-Refined Decoder,于image特征交互学习一组tokens,作为condition;
    • HA:Hybrid-Granularity Attention module,将image encoder的多尺度特征映射为偏置项;
    • Hp:pose adapter,由一些ResNet blocks构成,生成的特征被加到Unet(不需要微调);
  • Perception-Refined Decoder:
    • 人像有一些常见特征,例如body parts、age、gender、hairstyle、clothing…
    • 这些常见特征启发本文通过一组固定的learnable queries去表征人像的语意,并作为SD的conditional embedding;
  • Hybrid-Granularity Attention:
    • 为了控制生成图片的纹理细节;
    • 在上采样block中,将多尺度图像特征编码(K transformer layers with a zero convolution)为cross-attention中Q值(noise image)对bias:
      [图片]

3.3 Optimization

  • 重建损失(重建原图):
    [图片]

  • mse损失(生成目标图像):
    [图片]

[图片]

  • 噪声采样:随机高斯噪声
  • 积累无分指导增强(训练过程中一定概率丢弃源图像或者目标pose):
    [图片]

4 Experience

4.1 Quantitative Comparison

  • 高精度
    [图片]

  • 高效
    [图片]

4.2 Qualitative Comparison

[图片]

4.3 User Study

  • 招募用户进行判别:
    • R2G:真实图片被认为是生成的;
    • G2R:生成图片被认为是真实的;
    • Jab:每个志愿者都被要求从不同方法生成的图像中选择与地面真相最匹配的(+34.9);
      [图片]

4.4 Ablation Study

  • B1:其他diffusion-based方法中,将多尺度外观信息作为条件;
  • B2:使用CLIP为源图像生成描述性粗粒度提示;
  • B3:Ours - bias;
  • B4:Ours - bias + Q(开放可学习);
  • B5:去除PRD模块,只使用Swin Transformer的特征作为条件;
    [图片]

[图片]

  • 可视化:
    [图片]

4.5 Appearance Editing

  • 风格迁移:将参考图片感兴趣的区域(要迁移的服饰)mark出来作为一个二值mask,即m,加入到noise prediction process(保留原图的脸,加入参考图的衣服):
    [图片]

  • 风格插值:支持粗粒度提示和细粒度外观偏差的线性插值
    [图片]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1516248.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

双线性插值

先来看看线性插值的情况 如上图,在已知p2 (x2,y2)和p1 (x1,y1)的情况下要求解在区间[x1,x2]上任意点x对应的y值,有如下公式: 因式分解,解开y有: 可以看出是计算点p与p3的距离权重,是计算点p与p2的距离权重&…

C++ 字符串OJ

目录 1、14. 最长公共前缀 2、 5. 最长回文子串 3、 67. 二进制求和 4、43. 字符串相乘 1、14. 最长公共前缀 思路一:两两字符串进行比较,每次比较过程相同,可以添加一个函数辅助比较,查找最长公共前缀。 class Solution { pu…

多域名证书和泛域名证书的区别

多域名证书是一种SSL/TLS证书,其特殊之处在于它可以在同一证书中添加多个域名。这些域名可以是不同的主机名或完全不同的域。与传统的SSL证书只能用于一个域名相比,多域名证书提供了为多个域名提供安全保障的便利。 多域名证书的主要优势包括&#xff1…

matplotlib-直方图

日期:2024.03.114 内容:将matplotlib的常用方法做一个记录,方便后续查找。 # 引入需要的库 from matplotlib import pyplot as plt import numpy as np# 设置画布大小 plt.figure(figsize (20,8),dpi 200)# 全局设置中文字体 plt.rcParams…

【六】【算法分析与设计】二分查找

69. x 的平方根 给你一个非负整数 x ,计算并返回 x 的 算术平方根 。 由于返回类型是整数,结果只保留 整数部分 ,小数部分将被 舍去 。 注意:不允许使用任何内置指数函数和算符,例如 pow(x, 0.5) 或者 x ** 0.5 。 示…

案例分析:分库分表后,我的应用崩溃了

今天我们主要分析一个案例,那就是分库分表后,我的应用崩溃了。 前面介绍了一种由于数据库查询语句拼接问题,而引起的一类内存溢出。下面将详细介绍一下这个过程。 假设我们有一个用户表,想要通过用户名来查询某个用户&#xff0…

阿里云价格战的背后,难以言说附送阿里云服务器优惠价格明细表

2024阿里云服务器优惠活动政策整理,阿里云99计划ECS云服务器2核2G3M带宽99元一年、2核4G5M优惠价格199元一年,轻量应用服务器2核2G3M服务器61元一年、2核4G4M带宽165元1年,云服务器4核16G10M带宽26元1个月、149元半年,云服务器8核…

leetcode110.平衡二叉树

之前没有通过的样例 return语句只写了一个 return abs(l-r)<1缺少了 isBalanced(root->left)&&isBalanced(root->right);补上就好了 class Solution { public:bool isBalanced(TreeNode* root) {if(!root){return true;}int lgetHeight(root->left);i…

阿里云国际配置DDoS高防(非中国内地)加速线路

DDoS高防&#xff08;非中国内地&#xff09;加速线路只能与DDoS高防&#xff08;非中国内地&#xff09;保险版或无忧版实例结合使用。您将业务&#xff08;部署在中国内地以外地域&#xff09;接入DDoS高防&#xff08;非中国内地&#xff09;实例防护后&#xff0c;可以通过…

upload 上传文件后在下次弹框打开时清空上次上传的内容

文章目录 需求分析 需求 upload 上传文件后在下次弹框打开时清空上次上传的内容 分析 arco-design 暂时无法实现该需求&#xff0c;所以继续使用了 elementPlus 的解决方案 获取 Token const getToken () > {return localStorage.getItem(TOKEN_KEY); };页面 <a-f…

2024年将人力RPO项目当蓝海项目吗?

随着科技的快速发展和全球化趋势的加强&#xff0c;人力资源外包(RPO)项目在过去的几年中异军突起&#xff0c;成为企业优化人力资源配置、降低运营成本的重要手段。然而&#xff0c;到了2024年&#xff0c;我们是否还能将人力RPO项目视为一片尚待开发的蓝海呢? 从市场角度来看…

Ansible管理主机的清单------------inventory

一、 Ansible组成 INVENTORY&#xff1a;Ansible管理主机的清单 /etc/ansible/hosts 需要管理的服务清单,(将你需要管理的主机 、地址 或者名字 写入此文件) MODULES&#xff1a;Ansible执行命令的功能模块&#xff0c;多数为内置核心模块&#xff0c;也可自定义 PLUGINS&…

C goto 语句

C 语言中的 goto 语句允许把控制无条件转移到同一函数内的被标记的语句。 注意&#xff1a;在任何编程语言中&#xff0c;都不建议使用 goto 语句。因为它使得程序的控制流难以跟踪&#xff0c;使程序难以理解和难以修改。任何使用 goto 语句的程序可以改写成不需要使用 goto 语…

DL-丙氨酸(DL-Alanine)为维生素B6原材料 直接发酵法有望成为其主流制备方法

DL-丙氨酸&#xff08;DL-Alanine&#xff09;为维生素B6原材料 直接发酵法有望成为其主流制备方法 丙氨酸可分为D-丙氨酸、L-丙氨酸以及DL-丙氨酸三种类型。DL-丙氨酸又称DL-Alanine&#xff0c;指D-丙氨酸和L-丙氨酸的外消旋混合物。DL-丙氨酸外观呈无色至白色针状结晶或结晶…

前端框架vue的样式操作,以及vue提供的属性功能应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

关于原型的一些总结

猛然发现太久没去复习了&#xff0c;于是复习了一些知识&#xff0c;顺便冒个泡。本次主要总结的知识点关于原型&#xff0c;再文章后半部分有原型相关的题&#xff0c;感兴趣的可直接观看。 一、原型 1.什么是原型 简单理解&#xff0c;原型就是一个对象&#xff0c;通过原…

【MySQL性能优化】- 一文了解MVCC机制

MySQL理解MVCC &#x1f604;生命不息&#xff0c;写作不止 &#x1f525; 继续踏上学习之路&#xff0c;学之分享笔记 &#x1f44a; 总有一天我也能像各位大佬一样 &#x1f3c6; 博客首页 怒放吧德德 To记录领地 &#x1f31d;分享学习心得&#xff0c;欢迎指正&#xff…

压缩json字符串

GZIPOutputStream 需要关闭&#xff0c;而 ByteArrayOutputStream 不需要关闭。具体原因如下&#xff1a; GZIPOutputStream&#xff1a;GZIPOutputStream是一种过滤流&#xff0c;它提供了将数据压缩为GZIP格式的功能。当使用此类的实例写入数据时&#xff0c;它会对数据进行压…

Seata:实现分布式事务的利器

Seata&#xff1a;实现分布式事务的利器 Seata是一种开源的分布式事务解决方案&#xff0c;旨在解决分布式系统中的事务一致性问题。本文将介绍Seata的概念和原理&#xff0c;探讨其在分布式应用程序中的应用场景&#xff0c;并讨论其对于构建可靠的分布式系统的重要性。 Seata…

网赚人,为什么都退圈了?

今儿的话题多少有些悲观。 因为曾经辉煌的网赚圈也开始下滑&#xff0c;从没想过这一天会来的如此之快。最近一直说经济下行影响实体&#xff0c;我想着跟咱互联网人没关系啊&#xff0c;他们做实体的只针对本地客户&#xff0c;咱互联网人针对全国客户。还怕没人了&#xff1…