麻省理工、Meta开源:无需人工标注,创新文生图模型

news2025/2/1 8:52:53

文生图领域一直面临着一个核心难题,就是有条件图像生成的效果,远超无条件的图像生成。有条件图像生成是指模型在生成图像的过程中,会额外使用类别、文本等辅助信息进行指导,这样可以更好的理解用户的文本意图,生成的图像质量也更高。

而无条件图像生成完全基于模型自己学习的数据分布,难以形成有效的指导,所以,我们经常会有的AI平台生成的图像驴唇不对马嘴,或者图像有重大缺陷

为了解决这个问题,麻省理工学院和Meta的AI研究人员开发了RCG模型(Representation-Conditioned imageGeneration)。

RCG是一种创新性的“基于表示条件的图像生成”模型。所谓“表示条件”,就是让模型自己从数据中提取表示来进行指导,而无需任何人工数据标注。所以,RCG能以更小的消耗,生成与有指导模型相媲美的图片。

开源地址:https://github.com/LTH14/rcg

论文地址:https://arxiv.org/abs/2312.03701

图片

从RCG的论文来看,其图片生成流程采用了拟人化思路。先规划出要生成图片的大体轮廓,然后再根据这一构思去绘制图片的细节

就像我们人类画画一样,先在大脑中构思画作的整体思路,例如,想画一匹马,先想象马的形体;想画一个苹果,先想象个大红色的圆球,然后根据整体“表示”画出图像的细节。

图像编码器

图像编码器的作用是从图像中提取有意义的表示。这些表示在保留图像的语义信息的同时,也要比较简单、易于建模。

目前流行的自监督学习算法主要可以分为两大类:1)基于预训练任务,这类方法会人为设计一个预训练任务,让模型去预测一些伪标签。比如旋转预测任务,让模型预测图像被旋转的角度等。

2)基于对比学习,这类方法会构造正样本和负样本。让模型学会区分和拉远它们在表示空间的距离,代表性算法包括MoCo、SimCLR等。

实验证明,基于对比学习方法,可以获得更加有效的图像表示,因此RCG选择了这种方式。并使用了MoCo v3进行预训练,这是图像分类任务上效果最优的自监督对比学习算法之一。

为了使表示维度可控,RCG使用了带有预测头的Transformer模型。预测头会规划成256维的向量,这样就获得了编码器输出的表示。该表示同时还进行了归一化处理,以符合高斯分布。

表示生成模块

在提取到图像的表示之后,下一步就是对这些表示进行采样。通常,我们希望模型可以捕捉表示空间的分布,具有生成各种新颖表示的能力,从而指导下游的图像生成。

为此,RCG提出了表示扩散模型RDM。它使用全连接网络作为主干,包含数个残差块。每个块里面包括激活函数、线性层等。

图片

RDM模块训练时,采用了DDIM算法。即先将真实图像表示加入高斯噪声,让RDM去除噪并重构原始表示;生成时,从完全噪声表示出发,逐步采样清晰的表示。

图片

RDM模块的参数和计算量很小,所以即使增加块数和宽度,也不会带来太大的额外负担。这样我们可以充分发掘表示空间的丰富信息,指导下游生成。

像素生成器

提取表示并对其建模之后,最后一步就是根据表示来生成图像像素。RCG中的像素生成器可以使用任意的条件图像生成模型,只需要将原有的条件(比如类别标签)替换为RDM生成的表示即可。

图片

训练时,MAGE接收带有遮蔽(Mask)的图像作为输入,其中带X的是被遮蔽的,同时也输入对应图像的表示,然后学习重构被遮蔽的内容。

为了验证RCG模型的效果,研究团队基于ImageNet测试平台中的256×256数据集进行了实验。

图片

结果显示,RCG的FID分数为3.56和IS的253.4,超过了之前最好的无条件生成模型MAGE的结果,与当前状态最好的有条件模型CDM差不多。

本文素材来源RCG论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1372315.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MYSQL】MYSQL 的学习教程(十一)之 MySQL 不同隔离级别,都使用了哪些锁

聊聊不同隔离级别下,都会使用哪些锁? 1. MySQL 锁机制 对于 MySQL 来说,如果只支持串行访问的话,那么其效率会非常低。因此,为了提高数据库的运行效率,MySQL 需要支持并发访问。而在并发访问的情况下&…

【LLM的概念理解能力】Concept Understanding In Large Language Models: An Empirical Study

大语言模型中的概念理解:一个实证研究 摘要 大语言模型(LLMs)已经在广泛的任务中证明了其卓越的理解能力和表达能力,并在现实世界的应用中显示出卓越的能力。因此,研究它们在学术界和工业界的值得信赖的性能的潜力和…

buuctf[极客大挑战 2019]BabySQL--联合注入、双写过滤

目录 1、测试万能密码: 2、判断字段个数 3、尝试联合注入 4、尝试双写过滤 5、继续尝试列数 6、查询数据库和版本信息 7、查询表名 8、没有找到和ctf相关的内容,查找其他的数据库 9、查看ctf数据库中的表 10、查询Flag表中的字段名 11、查询表…

C++学习笔记——对象的指针

目录 一、对象的指针 二、减少对象的复制开销 三、应用案例 游戏引擎 图像处理库 数据库管理系统 航空航天软件 金融交易系统 四、代码的案例应用 一、对象的指针 是一种常用的技术,用于处理对象的动态分配和管理。使用对象的指针可以实现以下几个方面的功…

Python GIL 一文全知道!

GIL 作为 Python 开发者心中永远的痛,在最近即将到来的更新中,终于要彻底解决了,整个 Python 社群都沸腾了 什么是GIL? GIL是英文学名global interpreter lock的缩写,中文翻译成全局解释器锁。GIL需要解决的是线程竞…

遥感影像-语义分割数据集:云数据集详细介绍及训练样本处理流程

原始数据集详情 简介:该云数据集包括150张RGB三通道的高分辨率图像,在全球不同区域的分辨率从0.5米到15米不等。这些图像采集自谷歌Earth的五种主要土地覆盖类型,即水、植被、湿地、城市、冰雪和贫瘠土地。 KeyValue卫星类型谷歌Earth覆盖区…

太惨了,又一个程序员被渣的开年大瓜

今天闲暇之余浏览了一下mm,忽然看见一条瓜:某东pdf瓜,一份19页的PDF文件,题为《婚房变赠予,京东渣女出轨连环套设计冤大头程序员》,点进去看了一下,简直炸裂了三观,男同志们一定要保…

EI级 | Matlab实现VMD-TCN-LSTM变分模态分解结合时间卷积长短期记忆神经网络多变量光伏功率时间序列预测

EI级 | Matlab实现VMD-TCN-LSTM变分模态分解结合时间卷积长短期记忆神经网络多变量光伏功率时间序列预测 目录 EI级 | Matlab实现VMD-TCN-LSTM变分模态分解结合时间卷积长短期记忆神经网络多变量光伏功率时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.【E…

【LLM 论文阅读】NEFTU N E: LLM微调的免费午餐

指令微调的局限性 指令微调对于训练llm的能力至关重要,而模型的有用性在很大程度上取决于我们从小指令数据集中获得最大信息的能力。在本文中,我们提出在微调正向传递的过程中,在训练数据的嵌入向量中添加随机噪声,论文实验显示这…

彭博评选2024年50家企业,比亚迪、联发科上榜 | 百能云芯

彭博资讯于9日发布2024年全球50家值得关注的企业名单,该名单由彭博分析师团队从金融到食品等领域追踪了约2,000家企业中挑选出的,根据「观点聚焦」清单,选出50家值得关注的公司,重点考虑了其独特观点、领导层变化、资产出售或并购…

2023年全国职业院校技能大赛(高职组)“云计算应用”赛项赛卷①

2023年全国职业院校技能大赛(高职组) “云计算应用”赛项赛卷1 目录 需要竞赛软件包环境以及备赛资源可私信博主!!! 2023年全国职业院校技能大赛(高职组) “云计算应用”赛项赛卷1 模块一 …

Flask 菜品管理

common/libs/Helper.py getDictFilterField() 方法 用于在web/templates/food/index.html中展示菜品分类 如何能够通过food里面的cat_id获取分类信息呢?只能通过for循环,这样会很麻烦,所以定义了这个方法。 这个方法可以的查询返回结果…

【数据库系统概论】期末复习1

试述数据、数据库、数据库系统、数据库管理系统的概念。试述文件系统与数据库系统的区别和联系。试述数据库系统的特点。数据库管理系统的主要功能有哪些?试述数据库系统三级模式结构,这种结构的优点是什么?什么叫数据与程序的物理独立性&…

玩转QrCode

生成二维码,跳转指定 url 导入模块 npm install --save qrcode.vue1.7.0 引入模块 import QrcodeVue from qrcode.vue编写页面 button 触发 <template><el-button type"primary" click"showQRCode"><svg-icon icon-class"code&quo…

如何在IEC61850的ICD文件中添加新的DO节点

写在前面 恭喜“梅山剑客”粉丝突破1K&#xff0c;为了纪念这一伟大的时刻&#xff0c;今日发表此文&#xff0c; 纪念这神圣的时间节点&#xff0c;愿各位 青春永驻&#xff0c;笔耕不息。 本文参考链接&#xff1a; 1、61850开发知识总结与分享 2、IEC61850建模说明 1 简介…

ELF文件格式解析二

使用objdump命令查看elf文件 objdump -x 查看elf文件所有头部的信息 所有的elf文件。 程序头部&#xff08;Program Header&#xff09;中&#xff0c;都以 PT_PHDR和PT_INTERP先开始。这两个段必须在所有可加载段项目的前面。 从上图中的INTERP段中&#xff0c;可以看到改段…

QT第三天

完善对话框&#xff0c;点击登录对话框&#xff0c;如果账号和密码匹配&#xff0c;则弹出信息对话框&#xff0c;给出提示”登录成功“&#xff0c;提供一个Ok按钮&#xff0c;用户点击Ok后&#xff0c;关闭登录界面&#xff0c;跳转到其他界面如果账号和密码不匹配&#xff0…

内存淘金术:Redis 内存满了怎么办?

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 内存淘金术&#xff1a;Redis 内存满了怎么办&#xff1f; 前言LRU&#xff08;Least Recently Used&#xff09;算法LFU&#xff08;Least Frequently Used&#xff09;算法定期淘汰策略内存淘汰事件…

最新出炉!知乎最牛最全JMeter+Ant+Jenkins接口自动化测试框架(Windows)

一:简介 大致思路&#xff1a;Jmeter可以做接口测试&#xff0c;也能做压力测试&#xff0c;而且是开源软件&#xff1b;Ant是基于Java的构建工具&#xff0c;完成脚本执行并收集结果生成报告&#xff0c;可以跨平台&#xff0c;Jenkins是持续集成工具。将这三者结合起来可以搭…

JNPF低代码是什么,怎么样?

低代码开发平台已经是程序员日常标配效率工具了&#xff0c;曾经我们拿到开发需求后&#xff0c;要先配 Vue & React 等框架环境、再选需要引入的第三方组件库&#xff0c;最后穿针引线&#xff0c;调试搭建起需要的后台工具。这其中无数深坑等着我们去趟&#xff0c;直到低…