【扩散模型】7、GLIDE | 文本指引的图像生成和编辑

news2025/2/2 1:04:06

在这里插入图片描述

论文:GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

代码:https://link.zhihu.com/?target=https%3A//github.com/openai/glide-text2im

出处:OpenAI

一、背景

在扩散模型经过了一系列发展之后,Openai 开始探索文本条件下的图像生成,并在这篇论文里对比了两种不同的 guidance 策略,分别是通过 CLIP 引导和 classifier-free 的引导。验证了 classifier-free 的方式生成的图片更真实,与提示的文本有更好的相关性。并且使用 classifier-free 的引导的 GLIDE 模型在 35 亿参数的情况下优于 120 亿参数的 DALL-E 模型

在这里插入图片描述

二、方法

作者训练的模型包括:

  • 一个 35 亿参数量的 text-conditional 扩散模型,分辨率为 64*64
  • 一个 15 亿参数量的 text-conditional 上采样扩散模型,将分辨率提升至 256x256
  • 对于 CLIP guidance 模型,还额外训练了一个 64x64 noised ViT-L CLIP

2.1 Text-Conditional Diffusion Models

假设有一个加噪的图片 x t x_t xt,以及一个对应的文本描述 c c c,这个模型预测的就是 p ( x t − 1 ∣ x t , c ) p(x_{t-1}|x_t, c) p(xt1xt,c)

为了让这个文本 condition 生效,首先要将文本编码成 K 个 tokens,然后输入 Transformer 模型,输出文本编码结果

训练过程和 DALLE 类似:

  • 一个 35 亿参数量的 text-conditional 扩散模型,分辨率为 64*64
  • 一个 15 亿参数量的 text-conditional 上采样扩散模型,将分辨率提升至 256x256

2.2 Fine-tuning for classifier-free guidance

初始训练完成后,还需要 finetune base model 来支持 unconditional 图像生成

和 text-conditional 的模型最大的不同是,20% 的 text token 被使用 empty sequence 代替了,这样一来,模型就能同时生成 text-conditional 的输出和无需 text 的输出

2.3 Image Inpainting

扩散模型进行图像修复的基本步骤如下:

  • 初始化:首先,你需要一个扩散模型,这个模型是通过在大量图像数据上进行训练得到的。然后,你需要一个待修复的图片。

  • 设置已知区域和未知区域:在图片中选择一部分作为已知区域(不需要修复的部分),剩余部分作为未知区域(需要修复的部分)。通常情况下,已知区域是完整无损害的图片内容,而未知区域可能是被遮挡或损坏了的图片内容。

  • 采样和替换:接着,在每次采样步骤后, 用 q(xt|x0)(即从扩散过程中某一时刻t得到的概率密度函数)对应于原始图像 x0 的样本替换图像中已经被确定(或者说"固定")了值得那些位置。这个过程会持续多次迭代以逐渐生成最终结果。

  • 微调模型:为了获得更好效果, 需要对该模型进行微调以优化其在此类任务上表现。这包括随机擦除训练示例中某些区域,并将剩余部分与额外条件信息一起输入到模型中。同时还会修改网络结构增加新频道,并将新频道对应输入权重初始化为零

  • 提供低解析度和高解析度信息: 对于上采样(upsampling) 模型来说, 总是提供完整低解析度(low-resolution) 图像, 但只提供高解析度(high-resolution) 图片中未被掩盖(masked out) 的那些地方

  • 生成结果: 经过以上步骤后, 模型就能够根据给定(也就是“固定”)了值得那些位置去推测出其他位置可能出现什么内容并进行填充(restore),从而实现图像修复(inpainting)

之前的很多工作将未经针对 inpainting 任务微调的扩散模型直接用于图像修复,实际上使用扩散模型进行图像修复时,采样流程不变,但需要将图像中的已知区域在每个 sample step 之后使用生成的 q ( x t ∣ x 0 ) q(x_t|x_0) q(xtx0) 替换,这样做有一个问题,就是模型在采样的过程中无法看到全局的上下文(只能看到它的噪声版本),偶尔会在我们早期的实验中产生不希望出现的边缘伪影。

所以本文做了一些工作,本文的图像修复过程如下:

  • 训练:首先,使用大量图像数据训练一个扩散模型。这个模型可以学习如何从一个随机噪声开始,逐渐生成出一张真实的图片。

  • 微调:为了进行图像修复,需要对该模型进行微调以优化其在此类任务上表现。这包括随机擦除训练示例中某些区域,并将剩余部分与额外条件信息一起输入到模型中。同时还会修改网络结构增加新频道,并将新频道对应输入权重初始化为零。

  • 设置已知区域和未知区域:在待修复的图片中选择一部分作为已知区域(不需要修复的部分),剩余部分作为未知区域(需要修复的部分)。通常情况下,已知区域是完整无损害的图片内容,而未知区域可能是被遮挡或损坏了的图片内容。

  • 提供低分辨率和高分辨率信息: 对于上采样(upsampling) 模型来说, GLIDE 总是提供完整 (low-resolution) 图像, 但只提供 (high-resolution) 图片中未被掩盖(masked out) 的那些地方.

  • 生成结果: 在每次采样步骤后, GLIDE用 q(xt|x0)(即从扩散过程中某一时刻t得到的概率密度函数)对应于原始图像 x0 的样本替换图像中已经被确定(或者说"固定")了值得那些位置。这个过程会持续多次迭代以逐渐生成最终结果。

2.4 Noised CLIP models

为了更好地对比 classifier guidance 技术,作者训练了一个噪声 CLIP 模型。这个模型使用一个图像编码器 f(xt, t),它接收带有噪声的图像 xt,并且用原始CLIP 模型相同的目标函数进行训练。

在 64×64 分辨率下使用与基础模型相同的噪声来训练这些模型。

三、效果

3.1 定性对比

这里对比了 CLIP guidance 和 classifier-free guidance 的效果

  • classifier-free guidance 的结果看起来更真实,所以后面作者都使用了 classifier-free guidance

在这里插入图片描述

下图 1 展示了 GLIDE with classifier-free guidance 能根据很多 prompt 生成图片,且对光照和影子处理的很好,风格也很多变

在这里插入图片描述

图像修复:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

不同引导方式的对比:

在这里插入图片描述

在这里插入图片描述

3.2 定量对比

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

3.3 失败案例

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1329204.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python 用OpenCV 将图片转视频

import os import cv2 import numpy as npcv2.VideoWriter()参数 cv2.VideoWriter() 是 OpenCV 中用于创建视频文件的类。它的参数如下: filename:保存视频的文件名。 fourcc:指定视频编解码器的 FourCC 代码&#xf…

智能优化算法应用:基于卷尾猴算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于卷尾猴算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于卷尾猴算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.卷尾猴算法4.实验参数设定5.算法结果6.参考文…

创造音乐的终极工具 - Studio One Pro6音乐制作编曲软件

音乐制作是一项富有创造力和技巧的艺术,而Studio One Pro6音乐制作编曲软件则是这个领域中的终极工具。无论您是一名专业音乐制作人,还是一位热爱音乐的业余爱好者,Studio One Pro6都能帮助您实现无限的创意和潜力。 首先,Studio…

C++ 复合数据类型:指针

文章目录 指针用法无效指针空指针void *ptr指向指针的指针指向常量的指针指针常量指针和数组指针数组和数组指针 指针 计算机中的数据都存在内存中,访问内存的最小单元是“字节”,所有数据,就保存在内存中具有连续编号的一串字节中。 指针顾…

B039-SpringMVC基础

目录 SpringMVC简介复习servletSpringMVC入门导包配置前端控制器编写处理器实现Contoller接口普通类加注解(常用) 路径问题获取参数的方式过滤器简介自定义过滤器配置框架提供的过滤器 springMVC向页面传值的三种方式视图解析器springMVC的转发和重定向 SpringMVC简介 1.Sprin…

MongoDB 单机安装部署

文章目录 说明1. 下载安装包2. 安装数据库3. 配置 systemctl4. 创建 root 用户 说明 本篇文章介绍 MongoDB 二进制安装的步骤,整个过程还是比较简单。 1. 下载安装包 进入 MongoDB 官网,获取安装包的下载链接: https://www.mongodb.com/tr…

Node.js安装部署

Node.js安装部署 在 Windows 上安装 Node.js1.使用安装程序2.使用包管理器 Chocolatey 安装 在 macOS 上安装 Node.js1.使用 Homebrew 安装 在 Linux 上安装 Node.js1.使用包管理器安装2.使用 Node.js 官方二进制包 安装完成验证 Node.js 是一个基于 Chrome V8 引擎的 JavaScri…

2023年12月21日开发正式版v1.2.3更新·本次更新30多个细节优化·完善丰富后台功能·加入演员关联机制

2023年12月21日开发正式版v1.2.3更新本次更新30多个细节优化完善丰富后台功能加入演员关联机制 产品简介 安卓苹果PCH5四端,蜻蜓z暗影版的衍生级版本,2023年优雅草蜻蜓z冬季雪花限定版,不仅继承了蜻蜓z的精良功能,还特色增加了弹…

基于深度学习的森林火焰烟雾检测系统(含UI界面,yolov8、Python代码,数据集)

项目介绍 项目中所用到的算法模型和数据集等信息如下: 算法模型:     yolov8 yolov8主要包含以下几种创新:         1. 添加注意力机制(SE、CBAM等)         2. 修改可变形卷积(DySnake-主干c…

【Linux 驱动】Linux设备树(四)—— 设备树驱动LED

有了设备树以后,我们可以将寄存器信息保存到设备树,即便是更换了一个设备,我们也无需修改驱动文件,只需要修改设备树文件并重新编译。 下面介绍两种通过设备树驱动 LED 的最简单的方式,这两种方式的主要是设备树中 re…

轻量Http客户端工具VSCode和IDEA

文章目录 前言Visual Studio Code 的插件 REST Client编写第一个案例进阶,设置变量进阶,设置Token 前言 作为一个WEB工程师,在日常的使用过程中,HTTP请求是必不可少的。我们采用的HTTP工具有如下: Postman Insomnia Ap…

从零实现一套低代码(保姆级教程) --- 【4】实现右侧属性面板

摘要 继画布区的实现之后,来到本系列的第四篇文章,如果你没有看过之前的文章,可以建议先看一下第一篇文章,里面介绍了要实现的项目,是否是你要学习的内容,再决定是否要学习这一些列的文章。 从零实现一套低…

雄雄的小课堂微信机器人流程图

大家好,我是雄雄,欢迎关注微信公众号:雄雄的小课堂。 最近改造了下微信机器人,新版本还未上线,预计下周一(12.25)左右能上线第一版。 下面是改造之后的流程图 大家可以看看,有疑问可…

【万能技巧】IP知识速通与小技巧~

本文目录 前言一、网络代理IP简介二、IPIDEA 优势2.1 多种类型IP代理2.2 海量纯净代理池2.3 稳定高效数据收集架构 三、IP实操小Tips3.1 查看本地网络IP3.2 使用浏览器IP3.3 使用IPIDEA进行爬虫实操 前言 各位友友,大家好,马上就到2024年了,…

MyBatis 关联查询

目录 一、一对一查询(sqlMapper配置文件) 1、需求: 2、创建account和user实体类 3、创建AccountMapper 接口 4、创建并配置AccountMapper.xml 5、测试 二、一对多查询(sqlMapper配置文件) 1、需求:…

充电桩负载测试的影响是什么

充电桩负载测试是评估充电桩性能和稳定性的重要环节,其影响主要体现在以下几个方面: 1. 安全性:充电桩负载测试可以检测充电桩在高负载情况下的电气安全性能,如电压、电流、温度等参数是否在正常范围内。如果充电桩在高负载下出现…

【圣诞】极安云科赠书活动第①期:CTF实战:从入门到提升

【圣诞】极安云科赠书活动第①期:CTF实战:从入门到提升 9787111724834 9787121376955 9787302556275 ISBN编号:9787111724834 书名:CTF实战:从入门到提升 定:99.00元 开本:184mm260&#xff…

Android:安卓学习笔记之OkHttp原理的简单理解和使用

Android OkHttp使用原理的简单理解和使用 OkHttp 0、前言1、请求与响应流程 1.1 请求的封装1.2 请求的发送1.3 请求的调度1.4 请求的处理2、拦截器 2.1 RetryAndFollowUpInterceptor2.2 BridgeInterceptor2.3 CacheInterceptor 2.3.1、HTTP缓存原理2.3.2、强制缓存2.3.3、协商…

Linux网络编程(一):网络基础(下)

参考引用 UNIX 环境高级编程 (第3版)黑马程序员-Linux 网络编程 1. 协议的概念 1.1 什么是协议 从应用的角度出发,协议可理解为 “规则”,是数据传输和数据解释的规则 假设,A、B双方欲传输文件,规定: 第一次&#xff…

云闪付支付:一种新型的移动支付方式

随着科技的发展,我们的生活方式也在不断地改变。其中,移动支付已经成为我们生活中不可或缺的一部分。而在这个领域中,云闪付支付无疑是一种新型的、高效便捷的支付方式。那么,云闪付支付究竟是什么,它又有哪些特点呢&a…