每日AIGC最新进展(54):中科大提出Pose引导的图像生成模型、韩国科技学院提出发型控制模型、北大提出风格生成数据集CSGO

news2024/11/13 12:09:47

Diffusion Models专栏文章汇总:入门与实战

GRPose: Learning Graph Relations for Human Image Generation with Pose Priors

在过去的研究中,基于扩散模型的人工生成技术在根据特定条件合成高质量人像方面取得了显著进展。然而,尽管之前的方案引入了姿势先验,现有方法仍然在高质量图像生成和稳定的姿势对齐上存在不足。为了解决这些问题,我们提出了一种新框架——图关系姿势(GRPose),通过建立姿势先验的图拓扑结构,深度挖掘姿势部件之间的内在关联。我们的核心创新在于设计了一种渐进式图集成器(PGI),利用图卷积网络(GCNs)有效捕捉不同姿势部件之间的高阶关系。此外,我们还引入了一种新颖的姿势感知损失,旨在进一步提升生成图像与给定姿势之间的对齐质量。实验结果表明,GRPose在多个基准数据集上表现优越,相较于最新的基准模型,其姿势平均精度提高了9.98%。

我们的GRPose框架主要由三个部分组成:扩散管道、图姿势适配器和姿势感知损失。首先,利用CLIP文本编码器将文本提示转换为嵌入形式,作为生成输入。在扩散网络中,使用稳定扩散(Stable Diffusion)作为基础模型,结合了变分自编码器(VAE)进行图像的编码和解码,以及使用U-Net进行噪声估计。我们的PGI将姿势先验与潜在表示的每个空间点视为图的节点,通过K近邻搜索算法构建图结构。接着,通过图卷积网络聚合不同节点的信息,增强图中各节点间的关联性更新其特征,最终通过融合层捕捉姿势与图像潜在特征间的交互关系。随后,引入的姿势感知损失利用预训练的姿势估计网络,监测生成图像与原始图像之间的姿势差异,以最大限度降低这种差异,确保生成的人像与指定姿势的一致性。

我们在Human-Art和LAION-Human数据集上进行了广泛的定性和定量实验,以评估GRPose的性能。在Human-Art数据集上,我们的模型达到了49.50%的平均精度(AP)和70.84%的相似度平均精度(SAP),相较于ControlNet显著提升了9.98%。在LAION-Human数据集中,GRPose同样表现出色,AP提高了6.06%。通过与其他最先进的方法进行比较,我们的实验表明GRPose实现了更好的姿势对齐和图像质量。特别是在多姿势生成的测试中,GRPose显示了优越的性能,不仅维护了生成图像的清晰度,还保证了姿势的一致性。综合各项指标,GRPose在多个评价标准下均超过了现有主流方法的表现,从而突出其在姿势引导人像生成中的应用潜力。

What to Preserve and What to Transfer: Faithful, Identity-Preserving Diffusion-based Hairstyle Transfer

本研究提出了名为HairFusion的创新发型转移模型,旨在实现高保真、身份保持的发型图像处理。发型转移是一项挑战性任务,其目标是在保持人脸图像身份、衣物和背景特征的同时,将参考发型应用于输入的脸部图像。现有的办法多基于预训练的StyleGAN模型,通常难以处理真实场景中的复杂条件,例如显著的头部姿势变化和不同的焦距。HairFusion通过一种一阶段的扩散模型方法来克服这些限制,采用hair-agnostic表示作为输入,确保模型在处理多样化面孔时的有效性。同时,引入了头发对齐交叉注意力模块(Align-CA),以改进发型与面孔的对齐能力,并使用自适应发型混合技术在推理过程中保持面孔图像中的原始特征。这种方法展示了其在发型转移任务中的优秀表现,表现优于现有的插值和扩散模型方法。

HairFusion模型采用了前所未有的头发对齐交叉注意力模块(Align-CA),用于处理输入图像的hair-agnostic表示,并有效地消除原始发型信息。在处理过程中,Align-CA借助人脸轮廓编码器对输入的发型图像和目标面部图像之间的关系进行对齐,以应对面部形状和姿势的差异。通过精确提取每个图像的特征图,Align-CA将参考发型的特征作为键(K)和值(V),同时将面部图像的特征作为查询(Q),增强系统在不同头部姿势和面部形状间的适应能力。为了进一步改善图像输出的质量,研究者们设计了一种自适应发型混合技术,通过分析交叉注意力图,确定头发区域与非头发区域之间的对应关系,进而有效保留源面孔的细节和其余特征。该技术使HairFusion在转移发型的同时,尽量减少原图样本的特征丢失,从而提高生成图像的真实性。

CSGO: Content-Style Composition in Text-to-Image Generation

本研究围绕文本到图像生成中的内容风格合成(CSGO)展开,提出了一种新的方法以优化图像风格迁移过程。尽管现有的扩散模型在控制图像生成方面表现出色,但图像风格迁移仍然是一个具有挑战性的领域,主要因为多样化的风格和有限的数据集。本研究开发了一种数据构建流程,该流程能够自动生成并清理内容风格图像三元组(CSSIT),并成功构建了一个名为IMAGStyle的大规模数据集,包含210,000个图像三元组。此外,提出的CSGO模型采用了端到端训练策略,通过独立的特征注入模块,有效地分离了内容和风格特征,从而提高了图像风格迁移的质量和控制能力。研究结果显示,CSGO在多种视觉任务中均实现了卓越的性能。

为验证所提出的方法的有效性,本研究进行了大量实验,评估CSGO模型在风格控制和内容保留方面的性能。使用IMAGStyle数据集进行训练,并对比了多种最新的方法,包括StyleID、InstantStyle等。在图像驱动的风格迁移任务中,CSGO展现了最高的样式相似性得分(CSD),同时保持了较低的内容丢失评分(CAS),表明其在风格控制方面的强大能力。此外,在文本驱动样式生成和文本编辑样例合成任务中,CSGO同样表现出优越的控制特性,能更准确地遵循文本提示并生成相应风格的图像。实验结果充分验证了IMAGStyle数据集和CSGO框架在图像风格迁移中的重要作用,鼓励后续更多研究探索该领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【算法】前缀和例题讲解

例一&#xff1a; 724. 寻找数组的中心下标 思路&#xff1a; 典型的前缀和题目&#xff0c;我们只需要创建前缀和数组和后缀和数组&#xff0c;然后一一寻找两者相等的下标即可。 代码&#xff1a; class Solution { public:int pivotIndex(vector<int>& nums) …

华发股份:销售排名稳居TOP10 谱写高质量发展新篇章

2024年8月30日晚&#xff0c;华发股份&#xff08;600325.SH&#xff09;发布2024年半年度报告。报告显示&#xff0c;公司实现营业总收入248.42亿元&#xff0c;归母净利润12.65亿元。面对复杂多变的宏观环境和行业调整的挑战&#xff0c;华发股份依然能够稳固其经营根基&…

Elastic Search(五):索引生命周期管理 - ilm

目录 1 ES&#xff1a;索引生命周期管理 - ilm1.1 介绍1、ILM阶段转换阶段执行阶段操作 1.2 索引生命周期操作1、设置 索引生命周期 1.3 索引生命周期管理1、创建 生命周期策略2、创建索引模板&#xff0c;模板中关联 policy3、创建符合模板的起始索引&#xff0c;设置别名(即我…

无人机操控师技术及前景详解

随着科技的飞速发展和无人机技术的日益成熟&#xff0c;无人机在各行各业的应用越来越广泛&#xff0c;从农业植保、物流配送到影视拍摄、灾害救援&#xff0c;无人机技术正深刻改变着传统行业的运作模式。在这一背景下&#xff0c;无人机操控师作为无人机技术的核心操作者&…

Oracle查询优化--分区表建立/普通表转分区表

本文介绍了Oracle表分区的方法&#xff0c;将已有的非分区表转化为分区表&#xff0c;也可以直接建立新的分区表&#xff0c;从而实现大表查询的优化。主要通过DBMS_REDEFINITION 和 alter table xxx modify 方法&#xff0c;DBMS_REDEFINITION 适用于所有版本&#xff0c;操作…

Spring扩展点系列-InitializingBean

文章目录 简介应用场景代码示例运行示例 简介 这篇文章主要介绍了Spring中InitializingBean的使用详细解析&#xff0c;InitializingBean是Spring提供的拓展性接口&#xff0c;提供了属性初始化后的处理方法,它只有一个afterPropertiesSet方法&#xff0c;凡是继承该接口的类&…

8G 显存玩转书生大模型

1. 启动demo 输出300字小故事 2. Streamlit Web Demo 部署InternLM2-Chat-1.8B 模型 安装依赖 让他输出helloworld

java基础 之 接口

文章目录 前言接口浅浅理解下接口抽象类与接口的爱恨情仇特点接口的回调 抽象类和接口相同之处区别 前言 前文回顾 戳这里→java基础 之 抽象类 因为接口是对抽象类的一种延伸&#xff0c;所以请先了解一下抽象类会更好的理解接口哦 子类对抽象类叫继承&#xff0c;使用关键字e…

Python 从入门到实战3(列表的简单操作)

我们的目标是&#xff1a;通过这一套资料学习下来&#xff0c;通过熟练掌握python基础&#xff0c;然后结合经典实例、实践相结合&#xff0c;使我们完全掌握python&#xff0c;并做到独立完成项目开发的能力。 上篇文章我们通过python小栗子来学习python基础知识语法&#xff…

怎样还原空白试卷?2024快速空白试卷还原软件合集

怎样还原空白试卷&#xff1f;2024快速空白试卷还原软件合集 在教育和考试过程中&#xff0c;有时需要将已经填写过的试卷还原为空白状态&#xff0c;以便重新使用或进行复印。通过使用特定的软件&#xff0c;你可以轻松地去除试卷上的手写内容或标记&#xff0c;恢复试卷的空…

【网络安全 | 虚拟机】VMware Workstation Pro下载安装使用教程(免费版)

未经许可,不得转载。 文章目录 下载安装使用(Centos)下载 进入官网页面,注册账户: https://profile.broadcom.com/web/registration注册后登录(用户名为邮箱),选择My Downloads: 如图选择: 如图选择: 如图选择: 如图选择:

嵌入式Linux C应用编程指南-进程、线程(速记版)

第九章 进程 9.1 进程与程序 9.1.1 main()函数由谁调用&#xff1f; C 语言程序总是从 main 函数开始执行&#xff0c;main()函数的原型是&#xff1a; int main(void) 或 int main(int argc, char *argv[])。 操作系统下的应用程序在运行 main()函数之前需要先执行一段引导代…

性能炸裂的数据可视化分析工具:DataEase!【送源码】

今天分享一款开源的数据可视化分析工具&#xff0c;帮助用户快速分析数据并洞察业务趋势&#xff0c;从而实现业务的改进与优化。支持丰富的数据源连接&#xff0c;能够通过拖拉拽方式快速制作图表&#xff0c;并可以方便地与他人分享。 技术栈 前端&#xff1a;Vue.js、Elemen…

【网络基础】探索 NAT 技术:IP 转换、NAPT、NAT穿越及代理服务器

文章目录 1. 前言2. IP 转换过程3. NAPT① 基本概念② 工作原理③ 优缺点④ 实际应用 4. 缺陷5. NAT 穿越① 概述② 示例 6. NAT 与 代理服务器① 代理服务器与NAT的区别&#xff1a;② 正向代理 / 反向代理 服务器 1. 前言 NAT&#xff08;网络地址转换&#xff09;是一种常见…

路由策略工具

1.产生背景 a.保证数据访问的安全性 b.提高链路带宽利用率 c.流量路径不优 2.解决方案: 解决方案一:路由策略:可通过修改路由条目(即对接收和发布的路由进行过滤)来控制流量可达性 解决方案二:流量过滤:可使用Traffic-Filter工具对数据直接进行过滤 3.路由策略工具 a.可利…

登录究竟有多少种花样?

写在最前面&#xff1a; 大家好&#xff0c;我是小....小白不黑&#xff0c;现在的app以及任何一个系统&#xff0c;都离不开登录。其中最常见的估计就是密码登录&#xff0c;二维码登录&#xff0c;第三方账号登录以及单点登录了。 现在&#xff0c;让我们来捋一捋&#xff…

【virtuoso】INV 原理图+前仿真 + 版图 + 后仿真

采用SMIC工艺&#xff0c;不同工艺版图窗口可能有差异 1. 原理图&前仿真 1.1 绘制原理图 PMOS: NMOS宽长比2&#xff1a;1 PMOS开启导通电阻大一点&#xff0c;这样设置&#xff0c;可以使得阈值电压是VDD/2 按 i&#xff0c;可以插入器件按p&#xff0c;可以放置端口 1.2…

AXIS接口教程

免责声明&#xff1a; 本文所提供的信息和内容仅供参考。作者对本文内容的准确性、完整性、及时性或适用性不作任何明示或暗示的保证。在任何情况下&#xff0c;作者不对因使用本文内容而导致的任何直接或间接损失承担责任&#xff0c;包括但不限于数据丢失、业务中断或其他经济…

Unity3D安卓游戏第三方SDK接入

PS&#xff1a;持续更新... 什么是SDK&#xff1f; SDK&#xff08;Software Development Kit&#xff0c;软件开发工具包&#xff09;是一个用于构建应用程序的工具集&#xff0c;包含开发特定软件的必要工具、库、文档和示例代码。SDK通常由软件或硬件厂商提供&#xff0c;帮…

MySQL高阶练习题1- 寻找面试候选人

目录 题目 准备数据 分析数据 实现代码 总结 题目 返回 所有面试候选人 的姓名 name 和邮件 mail 。当用户满足以下两个要求中的 任意一条 &#xff0c;其成为 面试候选人 : 该用户在 连续三场及更多 比赛中赢得 任意 奖牌。该用户在 三场及更多不同的 比赛中赢得 金牌&…