北航提出part2whole:可控⼈体图像⽣成的统⼀参考框架,可从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物图。

北航提出part2whole:可控⼈体图像⽣成的统⼀参考框架,可从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物图。

news2026/2/13 11:54:01

Parts2Whole，它可以从任何数量和不同来源的参考人体部位图像中生成逼真的、高质量的各种姿势的人体人物。我们的方法保持了与相应条件语义区域的高度一致性，同时保证了整体之间的多样性和协调性。

(a)以不同人的参考图像为条件生成人的图像。每对包括4个人体部位输入(第一列)和生成的图像(第二列)。

(b)从不同数量的参考图像生成人的图像。每对包括1或2个人体部位输入(第一行)和生成的图像(第二行)。

相关链接

项⽬主⻚：https://huanngzh.github.io/Parts2Whole/

Github链接：https://github.com/huanngzh/Parts2Whole

论文：https://arxiv.org/pdf/2404.15267

论文阅读

摘要

最近在可控人类图像生成方面的进展导致了使用结构信号(例如，姿势，深度)或面部外观的零拍摄生成。然而，以人类外表的多个部分为条件生成人类图像仍然具有挑战性

为了解决这个问题，我们介绍了Parts2Whole，这是一个新的框架，用于从多个参考图像(包括姿势图像和人体外观的各个方面)生成定制肖像。为了实现这一点，我们首先开发了一个语义感知的外观编码器，以保留不同人体部位的细节。将一个基于文本标签将每张图像处理成一系列多尺度特征图，而不是一个图像标记，以保持图像的维度。

其次，我们的框架通过在扩散过程中跨越参考和目标特征的共享自关注机制支持多图像条件生成。我们通过结合来自参考人类图像的掩模信息来增强香草注意力机制，允许精确选择任何部分。大量的实验证明了我们的方法优于现有的替代方法，为多部分可控的人体图像定制提供了先进的功能。

方法

part2whole概述。该方法基于文本到图像扩散模型，设计了一种外观编码器，用于将人体外观的各个部分编码成多尺度特征图。我们通过复制U-Net去噪的网络结构和预训练的权重来构建这个编码器。

通过共享注意机制，逐层将参考图像的特征及其文本标签注入到生成过程中。为了从参考图像中精确地选择指定的部位，我们通过在参考图像中加入主题掩模来增强香草自注意机制。U-Net中的一个块的插图显示在右侧。

实验

parts2-whole和现有备选方案在我们的分区测试集上生成的定性结果。我们没有在图中显示文本条件，但值得注意的是，当我们将参考图像输入到我们提出的外观编码器时，我们将传递短标签，如面部、头发或头饰、上身衣服、下半身衣服、全身衣服、鞋子等。

定性分析了采用不同主干的外观编码器，并提出了相应的方法。

生成的结果来自不同数量条件的组合。

结论

在这项工作中，我们提出了Parts2Whole，这是一个基于多个参考图像的可控人类图像生成的新框架，包括人类外观的各个方面(例如，头发，脸，衣服，鞋子等)和姿势地图。

基于双U-Net设计，我们开发了语义感知的外观编码器来处理基于双U-Net设计的每个条件图像，我们开发了语义感知的外观编码器来处理每个条件。

大量的实验表明，我们的Parts2Whole在图像质量和条件对齐方面表现良好。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1697000.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

6.Redis之String命令

6.Redis之String命令

1.String类型基本介绍 redis 所有的 key 都是字符串, value 的类型是存在差异的~~ 一般来说,redis 遇到乱码问题的概率更小~~ Redis 中的字符串,直接就是按照二进制数据的方式存储的. (不会做任何的编码转换【讲 mysql 的时候,知道 mysql 默认的字符集, 是拉丁文,插入中文…

阅读更多...

ChatGLM2-6B 模型基于 [P-Tuning v2]的微调

ChatGLM2-6B 模型基于 [P-Tuning v2]的微调

ChatGLM2-6B-PT 一、介绍 1、本文实现对于 ChatGLM2-6B 模型基于 [P-Tuning v2](https://github.com/THUDM/P-tuning-v2) 的微调 2、运行至少需要 7GB 显存 3、以 [ADGEN](https://aclanthology.org/D19-1321.pdf) (广告生成) 数据集为例介绍代码的使用方法。模型部署参考…

阅读更多...

OC笔记之foundation框架

OC笔记之foundation框架

OC学习笔记（三） 文章目录 OC学习笔记（三）常用Foundation框架结构体NSRangeNSRange结构体的定义定义 NSRange 的方法打印Range的相关信息NSRange的实际运用查找子字符串返回NSRange结构体 NSPointNSRect NSStringNSString的创建NSS…

阅读更多...

Python文件操作（Excel、PDF、XML、Word）

Python文件操作（Excel、PDF、XML、Word）

大家好，在现代数据驱动的世界中，对于数据的处理和管理是至关重要的。Python作为一种强大而灵活的编程语言，提供了丰富的工具和库来处理各种文件格式。本文将探讨Python中的文件操作，重点介绍如何使用Python处理Excel、PDF、XML和W…

阅读更多...

【python】python tkinter 计算器GUI版本（模仿windows计算器源码）【独一无二】

【python】python tkinter 计算器GUI版本（模仿windows计算器源码）【独一无二】

👉博__主👈：米码收割机 👉技__能👈：C/Python语言 👉公众号👈：测试开发自动化【获取源码商业合作】 👉荣__誉👈：阿里云博客专家博主、5…

阅读更多...

每日一题《leetcode--2816.翻倍以链表形式表示的数字》

每日一题《leetcode--2816.翻倍以链表形式表示的数字》

https://leetcode.cn/problems/double-a-number-represented-as-a-linked-list/ 这里我们直接模拟翻倍后链表的数字，首先我们得先考虑链表的头结点的值是否大于4(*2后是否需要进位)。处理完头结点后，就需要考虑其余结点。因为求的是链表中每个结点翻倍后…

阅读更多...

这个开源的多模态模型无敌。。。

这个开源的多模态模型无敌。。。

InternVL 由 OpenGVLab 开发，是一个开源的多模态对话模型，其性能接近商业化的 GPT-4V 模型。 GPT-4V 是 OpenAI 去年推出的多模态模型，使用它你可以分析所需的任何类型的图像并获取有关该图像的信息。 1. InternVL 开源模型而今天的主角研究…

阅读更多...

基于python实现的深度学习web多格式纠错系统

基于python实现的深度学习web多格式纠错系统

基于python实现的深度学习web多格式纠错系统开发语言:Python 数据库：MySQL所用到的知识：Django框架工具：pycharm、Navicat、Maven 系统功能实现用户登录登录功能是本系统一个非常重要的功能，这极大的保护了系统的安全。登录…

阅读更多...

跨平台之用VisualStudio开发APK嵌入OpenCV（一）

跨平台之用VisualStudio开发APK嵌入OpenCV（一）

序本篇是杂谈以及准备工作（此处应无掌声） 暂时不管iOS（因为开发hello world都要年费） 软件： Visual Studio 2019（含Android SDK和NDK编译器等） OpenCV 这是一个女仆级的系列文章&#xf…

阅读更多...

php之sql代码审计

php之sql代码审计

1 SQL注入代码审计流程 1.1 反向查找流程通过可控变量(输入点)回溯危险函数查找危险函数确定可控变量传递的过程中触发漏洞 1.2 反向查找流程特点暴力：全局搜索危险函数简单：无需过多理解目标网站功能与架构快速：适用于自动化代码审…

阅读更多...

vue实现可拖拽移动悬浮球

vue实现可拖拽移动悬浮球

封装悬浮球组件，文件名s-icons.vue <template><div ref"icons" class"icons-container" :style"{ left: left px, top: top px }"><slot></slot></div> </template> <script> export …

阅读更多...

阿里云ubuntu 24 deb安装mysql5.7问题解决

阿里云ubuntu 24 deb安装mysql5.7问题解决

阿里云最近有了ubuntu24，手欠直接选了24系统来试水，安装mysql这里遇到麻烦了其它问题参考ubuntu22的即可，以下是3个新问题： 阿里云ubuntu 24 deb安装mysql5.7遇到的3个问题： 1）libssl1.1 (＞ …

阅读更多...

深度神经网络——什么是决策树？

深度神经网络——什么是决策树？

决策树决策树是一种强大的机器学习算法，它通过模拟人类决策过程来解决分类和回归问题。这种算法的核心在于它如何将数据集细分，直至每个子集足够“纯净”，即包含的实例都属于同一类别或具有相似的数值范围。开始于根节点：决策…

阅读更多...

分布式事务——9种解决方案的原理与分类

分布式事务——9种解决方案的原理与分类

目录一、概要1. 分布式事务的概念2. 分布式事务解决方案分类二、常见的分布式事务解决方案1. 基础的 2PC（二阶段提交）1.1 核心思想1.2 简介1.3 主要特点1.3.1 优点1.3.2 缺点 2. 基础的 3PC（三阶段提交）2.1 核心思想2.2 简介2.3…

阅读更多...

【MySQL索引】（重点）

【MySQL索引】（重点）

文章目录一、见见索引二、认识磁盘三、索引的学习1.建立共识2.重谈page3.单page和多page同样存在效率低下的问题单page的缺陷多page的缺陷页目录单page多page B树为什么行！详谈细节其他数据结构为什么不行?聚簇索引和非聚簇索引回表查询四、索引的操作1.创建主…

阅读更多...

简单好用的文本识别方法--付费的好用，免费的更有性价比

简单好用的文本识别方法--付费的好用，免费的更有性价比

文章目录先说付费的进入真题，免费的来喏！PixPin微信先说付费的直达网址!!! 进入真题，免费的来喏！ PixPin 商店里就有使用示例： 可以看到：贴在桌面上的图片可以复制图片中的文字，真的很…

阅读更多...

详细分析ping的基本知识以及常见网络故障的诊断（图文解析）

详细分析ping的基本知识以及常见网络故障的诊断（图文解析）

目录前言1. 基本知识2. 常见故障分析2.1 请求超时2.2 域名无法解析前言由于全栈开发，在运维过程中难免会出现无法ping通等故障针对多种情况进行详细分析 1. 基本知识为了更好的加深ping的基本命令以及拓展更多知识点，详细科普其基本知识 ping&…

阅读更多...

【FPGA】Verilog：奇校验位检查器的实现（Odd Parity Bit Checker）

【FPGA】Verilog：奇校验位检查器的实现（Odd Parity Bit Checker）

真值表和卡洛图 Odd Parity Bit Checker A B C

阅读更多...

算法与数据结构汇总

算法与数据结构汇总

刷题建议步骤求职硬通货：一，好的学历，这个要下血本。本科，可以考研，读研。专科，可以专升本，再考研，读研，二，软考，一年考两次，有些科…

阅读更多...

【Flutter】AppBar、TabBar和TabBarView

【Flutter】AppBar、TabBar和TabBarView

🔥 本文由程序喵正在路上原创，CSDN首发！ 💖 系列专栏：Flutter学习 🌠 首发时间：2024年5月26日 🦋 欢迎关注🖱点赞👍收藏🌟留言🐾 目…

阅读更多...

推荐文章

最新文章