RCG Self-conditioned Image Generation via Generating Representations

news2024/11/23 16:36:39

RCG: Self-conditioned Image Generation via Generating Representations

TL; DR:将图像的无监督表征作为(自)条件(而非是将文本 prompt 作为条件),生成与原图语义内容一致的多样且高质量结果。视觉训练能不能 / 需不需要摆脱文本,仍有待研究。

引言

就像图像自监督表征学习(对比学习 / 图像掩码建模)成功赶超了有监督训练一样,作者想要在图像生成领域,使得无条件(自条件)生成的性能追赶上条件生成。

不同于无条件生成直接将噪声分布映射到图像分布。本文提出的自条件生成框架是先通过自监督表征训练得到图像编码器提取图像的表征,再训练一个表征 diffusion 模型对表征进行去噪,最后使用根据去噪后的表征再生成真实图片。

在这里插入图片描述

方法

本文提出了 RCG(Rpresentation Conditioned image Generation),RCG 由三部分组成:一个预训练的自监督图像编码器、一个表征生成器和一个像素生成器。详细介绍如下:

图像编码器:RCG 使用了 moco-v3 作为图像编码器,将图像分布(image distribution)映射到表征分布(representation distribution)。表征分布需要具有两个特点:易于用 diffusion 模型建模和含有丰富的高层语义特征。每个表征都根据自身的均值和标准差进行标准化

表征生成器:RCG 中的表征生成器称为 RDM,用于从表征分布中采样。RDM 采用具有多个残差块的全连接网络作为其骨干网络,残差块的具体结构如图所示。RDM 采用 DDIM 的训练和采样算法。训练阶段,图像表征 z 0 z_0 z0 会掺入高斯噪声 ϵ \epsilon ϵ 得到 z t z_t zt,RDM 的训练目标就是对 z t z_t zt 进行去噪,得到 z 0 z_0 z0 。推理阶段,采用 DDIM 的采样方式,RDM 对采样的高斯噪声降噪,生成图像表征。

在这里插入图片描述

像素生成器:RCG 中的像素生成器负责根据给定的图像表征作为条件,来生成图像像素。理论上来说,这里的像素生成器可以是任何条件生成模型,只要将原本的条件(text, label, etc.)表征换成自监督的图像表征即可。这里作者使用了 MAGE (本文一作的另一篇工作)作为像素生成器。训练阶段,像素生成器根据带掩码的图像和该图的表征,来重建原图。推理阶段,像素生成器根据 RDM 生成的图像表征和一个完全的掩码图,来生成图像。

在这里插入图片描述

以上介绍了 RCG 的三个主要组件及其训练方式。另外,RCG 还有一个重要特点,即虽然它本身是一种无条件(自条件)的生成方法,但它可以应用 Classifier-free Guidance(CFG)。

Classifier-free Guidance:CFG 可以提高生成模型的性能,但一般在无条件生成模型上没法用,因为 CFG 实际上是一种通过无条件的生成,来为条件生成提供引导的方法。虽然 RCG 也可以用于无条件生成,但实际上 RCG 中的像素生成器是要根据无监督的图像表征(作为自条件)来生成的,所以 RCG 可以应用 CFG,来进一步提高性能。

RCG 采用了 Muse 方法来在 MAGE 像素生成器中使用 CFG。在训练阶段,MAGE 有 10% 的概率会在没有自监督表征作为条件的情况下进行训练。在推理时,MAGE 每步会为每个 mask token 预测一个无条件的 logit l u l_u lu,和一个条件于自监督表征的 logit l c l_c lc,最终的 logits l g l_g lg l c l_c lc 根据系数 τ \tau τ 远离 l u l_u lu l g = l c + τ ( l c − l u ) l_g=l_c+\tau (l_c-l_u) lg=lc+τ(lclu)。MAGE 根据最终的 l g l_g lg 预测 mask token。

结果

定量结果

先看一下再 ImageNet 256px 上图像生成的定量指标结果。需要说明的是,由于无条件生成的方法无法使用 CFG,故这里 RCG 列出的结果也是没用 CFG 的。RCG-L FID 达到 3.56,IS 达到 186.9,超越了所有的无条件生成的 baseline,甚至超越了所有的条件生成的模型。

在这里插入图片描述

下面这张表是对比条件生成,并且加 CFG 的结果。可以看到,使用 CFG 之后,RCG 的 FID (3.56->3.31) 和 IS (186.9->253.4) 都有所提升,对比条件生成的方法使用 CFG 之后,也很接近了。

在这里插入图片描述

文章还做了丰富的消融实验,包括自监督表征模型大小/深度/宽度、projection 维度、去噪步数等,详见原文。

定性结果

文章的定性结果也很有意思,这里主要看表征重建和表征插值两个结果。

表征重建 是首先 ImageNet 中的图像提取自监督表征,然后对表征加入一定噪声之后,RDM 去噪,再生成图像。可以看到,RCG 的生成结果几乎完美的保持了图像的语义,并且具有一定的多样性。这说明了预训练的自监督表征真的能够表达图像的语义。

多说一句,感觉这种能力非常适合拿来做图像分类的数据增强,因为它能忠实地保持语义,同时具有多样性。而数据增强的目标就是在不改变图像基本语义的基础上,尽量丰富图像的多样性。一般的图像增强是在 pixel 维度加噪声,而 RCG 生成则相当于在 representation 维度加噪声。

在这里插入图片描述

P.S. 在笔者自己的实验中,RCG 对于自然图像的生成基本没有问题,但是对于人脸的生成却是崩的一塌糊涂。经知友提点,这是因为处于 ethics 考虑,目前 ImageNet 的人脸都被加了模糊,完全没有细节。如需生成人脸图像,自行收集相关数据集 finetune 会好一点。

在这里插入图片描述

表征重建

既然有丰富语义的表征,那能不能像之前 GAN 那样对 latent 进行编辑/插值,来控制生成图片的属性呢?这样的实验自然也是少不了,可以看到,两个图片表征之间插值的生成结果反应了变化的过程。这表明自监督表征空间确实是含有丰富的语义的,并且非常平滑。

在这里插入图片描述

总结

在计算机视觉领域,自监督表征学习(对比学习 / 图像掩码建模)基本已经摆脱了人工标注数据的束缚,迈入自监督学习的新时代。而在图像生成领域,还是需要大量的带标签(text/label)的图文对。本文尝试根据自监督表征,来进行自条件的图像生成,性能直逼有条件生成,可以说是接近弥合了这一 gap。

从方法的角度来看,是很有意思的一篇工作,结合视觉自监督表征,实现了无标注、无文本条件的生成。唯一遗憾就是方法本身看起来不太简洁,不熟悉几篇前置工作的话,理解起来还是要稍微费点劲儿的。

从应用的角度来看,上文中已经提到,RCG 生成的图像是一个很自然的数据扩增方法,而且在少样本的 setting 下,可能能发挥不小的作用。

从更大的视角来看,视觉智能的出现到底需不需要依赖于文本。即使是已经被认为取得成功的图像自监督表征方法中,无论如何最终都至少需要一个 linear probing 的微调,与我们想象中的”智能“还相去甚远。CLIP 的意义和影响力无疑是非常巨大的,它借助图文对这一弱监督数据,对齐了图文双模态。视觉领域终于也借助语言监督,实现了所谓的 zero-shot,从而带来了无限的想象力。从此,各种各样的视觉任务(分类、检测、分割等)都借助 CLIP 实现了 open-vocab。

然而,毕竟图像与文本是两个不同的模态,差别也是固有的。文本能帮助视觉,也会限制视觉。所谓”一图胜千言“,很多情况下,一张图的内容可能是语言很难甚至无法精确描述的。即,视觉的细粒度可以认为是无限的。以 CLIP 为例,熟悉它的人都知道,虽然说是对齐了两种模态,但是无论正负样本,CLIP 的图像文本相关性分数会集中在一个很小的区间(如 0.2-0.5),而非遍布整个 0-1 区间,这或许就是图文两模态之间 gap 的一点体现。

无独有偶,近期大火的 LVM,也是脱离文本的纯视觉训练方式,把视觉数据都统一起来,然后做自回归式的预测下一个 token。似乎大牛们都在探索无文本(text, label)的视觉训练。在 LLM 爆火的这一年,感觉 CV 的主题就是往上蹭,随便兜一个什么 adapter,就把视觉编码器的特征接到 LLM 上去。这种方式当然可以很好地借助 LLM 的理解能力,出一些前所未有的效果(GPT4 等)。但是按照条路走下去,看起来从此视觉就没什么需要研究的了,只是训一个 encoder,做好 LLM 的 sensor 即可。个人觉得这不会是 CV 或者图文多模态的最终形态。很期待视觉领域本身能涌现出更多更有想法的工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1304598.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在Android中旋转屏幕时避免重新绘制Activity

如何在Android中旋转屏幕时避免重新绘制Activity 在Android开发中,设备旋转通常导致当前活动(Activity)被销毁并重新创建,这可能导致用户界面重置和不必要的资源重新加载。然而,有时我们希望避免这种行为,…

3.4_3GBN课后题的思考

首先思考最大平均数据传输速率,看到是GBN协议,无法直接带入信道带宽; 其次比较RRT传输时延和信道带宽传输所有数据的时间 把图中划分为三个公式分别为abc 1.a是1000个窗口尺寸,每个尺寸抖音1000字节数据帧,除以信道带宽…

邮件营销软件:10个创新邮件策略,持续提升投资回报(二)

在上一篇文章中,我们了解到内容、个性化和适当的策略有助于在增加邮件营销中客户的参与度。在这篇文章中,我们将深入研究客户行为、自动化和评估等方面。 1、根据客户行为发送电子邮件 从购买到放弃购物车,客户的行为可能千差万别。跟踪这…

胡桃工具箱 原神多功能工具箱

胡桃工具箱 原神胡桃工具箱是一款非常实用的游戏工具辅助软件,可以为用户们提供优质的原神游戏工具,体验更精彩的游戏辅助,提供帧率解锁游戏功能,包括数据查询、游戏详解以及各种实用的功能。 安装使用 1.获取胡桃工具箱 请点击…

linux sed命令删除一行/多行_sed删除第一行/linux删除文件某一行

sed系列文章 linux常用命令(9):sed命令(编辑/替换/删除文本)linux sed命令删除一行/多行_sed删除第一行/linux删除文件某一行 文章目录 sed系列文章一、sed删除某一行内容/删除最后一行二、sed删除多行三、扩展3.1、-i命令 本文主要讲解如何删除txt文件中的某一行内…

瓶装饮用水行业分析:全国市场产量约4789万吨

水根据自身的硬度首先分为软水和硬水两种。水的硬度是指溶解在水中的盐类物质的含量,也就是钙盐与镁盐的含量,硬度单位是ppm,1ppm代表水中碳酸钙含量1毫克/升(mg/L)。低于142的水称为软水,高于285ppm的水称为硬水,介于…

【PTA刷题】 求子串(代码+详解)

【PTA刷题】 求子串(代码详解) 题目 请编写函数,求子串。 函数原型 char* StrMid(char *dst, const char *src, int idx, int len);说明:函数取源串 src 下标 idx 处开始的 len 个字符,保存到目的串 dst 中,函数值为 dst。若 len…

传输层—UDP—校验和

传输层—UDP—校验和 学习一个协议,当然要掌握协议的特性,还需要理解协议报文格式。 UDP UDP 基本特点:无连接、不可靠传输、面向数据报、全双工 UDP报头包含:源端口、目的端口、UDP报文长度、校验和。 UDP载荷中&#xff1a…

微信小程序开始收取短剧保证金

我是卢松松,点点上面的头像,欢迎关注我哦! 从多位短剧从业者处获悉,今日陆续收到微信公众平台发布的保证金缴纳通知,缴费金额从100-1000不等。 有的需要缴纳1000,而有的只需缴纳100元。这个和你GMV来决…

微信小程序:上传图片到别的域名文件下

效果 wxml <!-- 上传照片 --> <view class"addbtn"><view classpic name"fault_photo" wx:for"{{imgs}}" wx:for-item"item" wx:key"*this"><image classweui-uploader_img src"{{item}}"…

VSCode配置记录

1. 修改代码背景颜色 1&#xff09;Shift Command P&#xff0c;搜索框输入&#xff1a;settings.json 2&#xff09;输入配置 {"workbench.colorCustomizations": {"editor.lineHighlightBackground": "#86e9e93d", # 修改鼠标所在行背景色…

[足式机器人]Part2 Dr. CAN学习笔记-数学基础Ch0-8Matlab/Simulink传递函数Transfer Function

本文仅供学习使用 本文参考&#xff1a; B站&#xff1a;DR_CAN Dr. CAN学习笔记-数学基础Ch0-8Matlab/Simulink传递函数Transfer Function L − 1 [ a 0 Y ( s ) s Y ( s ) ] L − 1 [ b 0 U ( s ) b 1 s U ( s ) ] ⇒ a 0 y ( t ) y ˙ ( t ) b 0 u ( t ) b 1 u ˙ ( t…

(1)(1.5) FrSky telemetry

文章目录 前言 1 设置 2 Turnigy 9XR Pro 前言 FrSky 遥测技术允许你显示 ArduPilot 的信息&#xff0c;如飞行模式、电池电量和错误信息&#xff0c;以及来自 OpenTx 兼容遥控发射机上其他 FrSky 传感器的信息&#xff0c;甚至包括较旧的 X9R 发射机&#xff08;尽管功能较…

Tomcat下载及idea中配置Tomcat(详细图文步骤,建议收藏)

1、Tomcat简介 Tomcat的相关概念: Tomcat是Apache软件基金会一个核心项目&#xff0c;是一个开源免费的轻量级Web服务器&#xff0c;支持Servlet/JSP少量JavaEE规范。 概念中提到了JavaEE规范&#xff0c;那什么又是JavaEE规范呢? JavaEE: Java Enterprise Edition,Java企业…

ubuntu22.04 安装nvidia GPU显卡驱动

下载 https://www.nvidia.com/Download/index.aspx 删除原有的NVIDIA驱动程序 sudo apt-get remove –purge nvidia*禁用nouveau 默认情况下&#xff0c;Ubuntu采用开源的nouveau驱动程序作为Nvidia显卡的驱动&#xff0c;需要将其禁用 打开编辑配置文件&#xff1a; sudo …

最好的猫罐头品牌有哪些?精选的5款口碑好的猫罐头推荐!

对于一个刚入门的养猫小白来说&#xff0c;面对市面上琳琅满目的猫罐头选择确实让人头大。我们总想选到营养价值高的罐头&#xff0c;但又怕猫咪不喜欢吃&#xff0c;也担心选到不安全的产品。 最好的猫罐头品牌有哪些&#xff1f;根据我开宠物店7年的经验&#xff0c;今天我将…

探索AI在CRM中的潜力:智能化客户关系的构建

AI人工智能在CRM系统中的应用有&#xff1a;赋能内容生产、客户服务支持、赋能品牌推广、自动化业务流程、数据分析、辅助科学决策、给出最佳客户联系时间。合理运用CRM系统中AI人工智能助手可以让团队工作事半功倍。 1.内容生产 市场营销活动离不开内容生产&#xff0c;持续…

节日气氛拉满的毛衣~你喜欢吗?

节日氛围感毛衣一眼就心动采用北极绒面料厚实软糯有质感拼接彩点正是氛围感的来源 整件穿上超级显白显气质 随便搭件牛仔裤还是休闲裤 来穿都很亮眼&#xff01;&#xff01;

NFTScan | 12.04~12.10 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。 周期&#xff1a;2023.12.04~ 2023.12.10 NFT Hot News 01/ NFTScan 与 MintCore 联合推出适用于 NFT 的 Layer2 网络 Mint 12 月 5 日&#xff0c;根据官方消息&#xff0c;NFT 基础设施服务商 NFTScan …

智慧文旅|故宫文旅运营管理大屏,开启智能旅游新篇章

智慧文旅是旅游业的未来发展趋势&#xff0c;它既有利于文化的传承与传播&#xff0c;又能满足人们对旅游体验的需求。智慧文旅的核心理念是结合现代科技与传统文化&#xff0c;打造独特的旅游目的地&#xff0c;让游客在旅行中获得知识的启迪和文化的享受。智慧文旅是旅游业的…