DALLE2-文本图像生成

news2024/10/3 21:28:11

文章目录

  • 摘要
  • 算法
    • 解码器
    • prior
  • 图像处理
    • 变体
    • 插值
    • 文本差异
  • 限制

论文: 《Hierarchical Text-Conditional Image Generation with CLIP Latents》
github: https://github.com/lucidrains/DALLE2-pytorch
https://github.com/LAION-AI/dalle2-laion

摘要

CLIP已经被证明可以学习语义或风格表征,作者提出二阶段模型,给出文本描述,利用先验模型生成CLIP图像嵌入,解码器利用图像嵌入生成图像;解码器作者使用扩散模型;prior作者使用自回归及扩散模型,发现后者计算高效,生成样本质量高。

算法

( x , y ) (x,y) (x,y)表示图像及对应caption, z i 、 z t z_i、z_t zizt为CLIP提取图像特征及文本特征;
DALLE2生成过程使用两个组件:
1、prior P ( z i ∣ y ) P(z_i|y) P(ziy基于caption y y y生成图像编码 z i z_i zi
2、decoder P ( x ∣ z i , y ) P(x|z_i, y) P(xzi,y)基于CLIP提取图像编码 z i z_i zi生成图像x,可选择使用caption y;
在这里插入图片描述
DALLE2文本图像生成过程如图2:
1、CLIP将文本进行编码,通过自回归或扩散模型(prior)生成图像编码先验,
2、图像编码通过扩散模型解码器(decoder)生成最终图像

解码器

作者使用扩散模型基于CLIP所生成的图像embedding生成图像,具体使用改进GLIDE,将CLIP embedding添加进timestep embedding中,映射CLIP embedding为4个额外token,与GLIDE文本编码器输出进行concat;

prior

解码器可将CLIP图像embedding z i z_i zi生成图像x,先验器将caption y生成图像embedding z i z_i zi;有两种方案:
1、AR(自回归先验):使用CLIP将图像embedding z i z_i zi转换为离散序列,基于caption y进行自回归预测;
2、扩散先验;基于caption y使用高斯扩散模型对连续向量 z i z_i zi进行直接建模;
DALLE2中扩散先验,作者训练仅包含解码器的Transformer,其使用包括因果关系的mask在序列上进行:文本编码、CLIP文本embedding、扩散模型timestep embedding、噪声CLIP image embedding、最终Transformer输出embedding.

图像处理

变体

对于表征$(z_i,x_T)通过超参控制采样,η=0,则为重构原图,η越大引入更大随机性,如图3;
在这里插入图片描述

插值

如图4,对于两张图片x1,x2,通过CLIP进行编码 z i 1 , z i 2 z_{i1},z_{i2} zi1zi2,两者进行插值;
在这里插入图片描述

文本差异

对于两文本输入通过CLIP进行编码 z t , z t 0 z_t,z_{t0} ztzt0,计算向量差异zd,对 z i 、 z d z_i、z_d zizd进行插值得到CLIP表征;
在这里插入图片描述

限制

1、DALLE2相对于GLIDE容易忽视两目标各自属性;
在这里插入图片描述
2、 解码器容易混合目标属性
在这里插入图片描述
3、难以生成连续文本
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/136937.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

window环境安装mysql8.0.12版本的安装、配置(详细步骤图解)

目录一、mysql官网下载网址二、下载步骤三、安装步骤四、测试链接一、mysql官网下载网址 mysql官网下载网址 https://www.mysql.com/ 二、下载步骤 浏览器输入https://www.mysql.com/网址,点击【DownLoads】,如下图: 向下滑动网页&#x…

软件测试面试注意事项汇总

面对最近的复工热潮,不少求职者也开始蠢蠢欲动准备找工作了。相信大家都知道疫情下面试求职的压力是有史以来最大的,我们唯一能做好的只有积极的准备面试,让自己可以更加从容的面对的面试官的提问。下面小编为大家汇总了软件测试面试过程中的…

CSDN官方猿如意工具体验

2022年注定是不平凡的一年,2022再见,2023你好! 2023愿我们发财,被爱,一路好运常在!愿所念之人平安喜乐,所想之事顺心如意,岁岁常欢喜,万事皆胜意! 猿如意工具…

中间件:Win10安装运行Kafka

一、JDK环境安装配置 可参考:百度安全验证 二、Zookeeper安装配置 1、下载 : Index of /dist/zookeeper/zookeeper-3.4.9 2、解压到本地,目录不要带中文符号,保证纯英文 3、zoo.cfg修改 4、cmd运行,使用命令zkServe…

ConcurrentHashMap 线程安全

JDK1.7 结构 数据结构是数组segment对象,采用segment分段锁和CAS保证并发。 加锁 JDK1.7中的ConcurrentHashMap是由 segment数组结构和 HashEntry 数组结构组成,即 ConcurrentHashMap把哈希桶切分成小数组(Segment ),每个Segment 有n个 Hash…

终于!Linaro 加盟 Zephyr 项目

导读为物联网构建实时操作系统的开源协作项目 Zephyr 项目宣布,Linaro 有限责任公司以白金会员的身份加盟该项目。Linaro是一家为 ARM 架构开发开源软件的协作工程组织,也是全球性机构,其 35 个成员中不乏来自多个行业部门的龙头企业。Linaro…

嵌入式实时操作系统的设计与开发(一)

以一款简单、易学的嵌入式开发平台ARM Mini2440(CPU是三星ARM 9系列的ARM S3C2440)为例,通过具体代码实现,介绍如何从裸板入手设计简单的轮询系统、前后台系统,以及如何一步一步在ARM Mini2440上编写RTOS内核&#xff…

Spring之配置非自定义Bean

目录 一:概述 二:代码演示 1)配置Druid数据源交由Spring管理 一:概述 以上在xml中配置的Bean都是自己定义的, 例如:UserDaolmpl, UserServicelmpl。但是, 在实际开发中有些 功能类并不是我们…

包装器和绑定器std::bind和std::function的回调技术

回调函数 回调函数就是一个通过函数指针调用的函数。如果你把函数的指针(地址)作为参数传递给另一个函数,当这个指针被用来调用其所指向的函数时,我们就说这是回调函数。回调函数不是由该函数的实现方直接调用,而是在…

低代码搭建门店管理之收发货管理系统

随着电商的深入,不少门店都开始采用线上模式进行销售了,并且有的门店线上销售更是比线下销售更加火爆。因此,线上销售务必会涉及到收发货这个步骤。以前线上销售刚兴起的时候收发货只靠人工纸质化登记就能搞定,但是随着线上销售的…

盘点这些年稚晖君的DIY项目,看看他的技术栈有多强

近日,知名极客稚晖君在个人微博发文称自己将离职创业,开启一段新的旅程,“天才少年”将在机器人领域继续发光发热。 自2020年初发布第一个出圈视频《技术宅UP耗时三个月,自制B站最强小电视!》以来,稚晖君共…

Vue实例的基本属性,computed计算属性,watch监听属性以及过滤器filters

目录 一、Vue实例的属性 二、Vue实例的计算属性:computed。计算属性结果会被缓存起来,当依赖的响应式属性发生变化时,才会重新计算,返回最终结果。 三、Vue实例的状态监听属性:watch,可以对元素的值的变…

JVM垃圾回收相关算法-垃圾标记阶段

文章目录学习资料垃圾回收概念概述垃圾回收相关算法垃圾标记阶段:对象存活判断引用计数算法可达性分析算法(或根搜索算法、追踪性垃圾收集)【Java使用算法】基本思路GC Roots对象的finalization机制对象处于三种可能的状态具体过程学习资料 …

WebDAV之葫芦儿·派盘+WebDAV Nav Lite

WebDAV Nav Lite 支持WebDAV方式连接葫芦儿派盘。 支持连接所有WebDAV服务器、云存储、NAS设备的管理工具,并可以直接管理设备内的文件?那快来试下WebDAV Nav Lite自动同步与管理工具吧。 WebDAV Nav Lite允许您

【Bootstrap】CSS全局样式

目录 一、HTML5文档类型 二、移动设备优先 三、禁用移动设备上的缩放功能 四、布局容器 1. container 类 ​2. container-fluid 类 五、标题 六、页面主体 七、文本 1. 内联文本元素 2. 文本对齐 ​3. 改变大小写 八、列表 1. 无序列表 2. 有序列表 3. 无样式列…

Hadoop数据仓库有哪些特征?

数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support)。 数据仓库本身并不“生产”任何数据,其数据…

(1分钟)速通BA优化--光束法平差

SLAM中的BA优化,先根据相机模型和A,B图像特征匹配好的像素坐标,求出A图像上的像素坐标对应的归一化的空间点坐标,然后根据该空间点的坐标计算重投影到B图像上的像素坐标,重投影的像素坐标(估计值)与匹配好的B图像上的像素坐标(测量…

java流程控制的三种类型

1. 简介 在Java项目中,大多数的代码都是编写在一个个的类里面。每个类中还有很多个语句,并且会以英文的分号;来表示语句的结束。有些小白会很好奇,这一行行的代码语句是按照什么顺序执行的呢?是按照我们看到的从上到下的顺序执行…

【瑞萨RA4系列】CoreMark移植完全指南——UART输出和SysTick计时的应用

【瑞萨RA4系列开发板体验】CoreMark移植完全指南——UART输出和SysTick计时的应用 文章目录【瑞萨RA4系列开发板体验】CoreMark移植完全指南——UART输出和SysTick计时的应用一、CoreMark简介二、基础功能支持2.1 创建RASC项目2.2 确认UART引脚2.3 打开RASC配置2.4 配置UART引脚…

javac 编译期拓展之实现 CallSuper 注解功能

javac 编译期拓展之 实现 CallSuper 注解功能 背景: 元旦之前,就和朋友探讨了这么一个问题。比如我在一个父类的 a 方法里做了一些逻辑,这个逻辑是必须存在的,假如现在子类要重写这个 a 方法, 那么他就需要先调用父类…