CVPR 2024最佳论文分享:文本到图像生成的丰富人类反馈

news2024/10/7 20:28:55

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。

00/ 论文分享

本推文详细介绍了CVPR 2024最佳论文《Rich Human Feedback for Text-to-Image Generation》。该论文的第一作者为梁有为。论文针对文本生成图像的伪影、不可信、低审美等问题,发布了第一个具有丰富人类反馈的数据集RichHF-18K。在此基础上,提出了一个多模态Transformer模型(RAHF)用于预测生成图像的丰富反馈,并进一步证明了RAHF预测的丰富人类反馈对改善图像生成的通用性。本推文由朱旺撰写,审校为李杨和陆新颖。

01 /研究背景与解决的关键问题

文本到图像的生成模型在基于文本描述生成高分辨率图像方面取得了重大进展,并正迅速成为包括娱乐、艺术和广告在内的各个领域内容创作的关键。然而,许多生成的图像仍然存在诸如伪影/不可信、与文本描述不一致以及低审美质量等问题。现有的生成图像的自动评估指标大多都是在图像的分布上计算,难以反映单个图像的细微差别。受基于人类反馈的强化学习在大型语言模型上的成功启发,论文试图通过丰富人类反馈信号来改进文本到图像生成模型,解决生成图像中存在的不真实、不对齐、低审美等问题。

02 /方法

论文提出了一种利用人类反馈信号来改进文本到图像生成模型的方法。首先发布了一个具有丰富人类反馈信息的数据集RichHF-18K,其中包括两个热力图(伪像/不可信和不对齐)、四个细粒度分数(合理性、对齐、美学和总体分数)以及一个文本序列(不对齐的关键字)。然后训练一个多模态Transformer模型来自动预测丰富的人类反馈信号,用以微调和改进生成模型。

图片

图 1 注释图像的图示

2.1 RichHF-18K数据集

论文从 Pick-a-Pic 数据集中选择图像-文本对的子集进行数据注释。考虑到图像的平衡性,首先通过视觉回答模型从数据样本中提取一些基本特征,如是否逼真、种类、场景等。然后对每张图像在不可信/伪影或不对齐的位置进行标注,通过假设每个标记点具有有效半径,从而减少标记点个数。接着针对四种细粒度分数进行打分,生成具有丰富人类反馈的图像。考虑到数据集的可靠性,每张图像融合多人注释的信息,分数采用多人打分取平均的策略。生成图像的图示如图1所示。最后对生成的数据集进行分析,生成的打分符合高斯分布,确保有合理数量的正负样本来训练奖励模型。数据集的总大小为 18K,其中 16K 作为训练集,1K 作为验证集,1K 作为测试集。数据集的地址为:https://github.com/google-research/google-research/tree/master/richhf-18k

2.2 预测丰富的人类反馈

论文提出了一个多模态 Transformer 模型用于自动预测丰富的人类反馈信息,其整体架构如图2所示。该模型基于 ViT 和 T5X 模型,ViT 将生成的图像作为输入,并将图像令牌作为高级表示输出。文本提示符号嵌入到密集向量中。图像标记和嵌入的文本标记由 T5X 中的 Transformer 自关注编码器连接和编码。在编码融合的文本和图像标记之上,论文使用三种预测器来分别预测热图、分数和文本输出。

图片

图 2 模型的整体架构

03 /实验结果

论文在发布的 RichHF-18K 数据集上对模型进行了训练并进行了大量实验。通过线性相关系数和等级相关系数对预测分数进行评估,并通过显著性热图指标对预测热图进行分析。对于不对齐的关键字序列预测,论文采用令牌级精度、召回率等指标进行评估。实验结果表明,论文提出的模型在预测人类反馈方面具有优越表现。此外,论文对预测的丰富人类反馈是否可以用于改进图像生成这一问题进行了验证。实验结果表明,通过 RAHF 微调后的 Muse 模型生成的图像具有更少的伪像和不可信性,并且每个细粒度评分都可以改善生成模型或图像的不同方面。

04 /结论

论文发布了第一个具有丰富人类反馈信号的数据集 RichHF-18,通过数据分析验证了数据集的可靠性和合理性。此外,论文设计并训练了一个多模态 Transformer 模型来预测丰富人类反馈。该模型基于 VIT 和 T5X 模型,在连接图像令牌和文本令牌之间使用自关注模块,将文本信息传播到图像标记,用于文本不对齐评分和热图预测,将视觉信息传播到文本标记,用于更好的视觉感知文本编码,以解码文本不对齐序列。实验表明,模型在预测输出人类反馈信息方面具有优越性能,并进一步验证了生成的预测反馈信息和模型可以用于微调生成模型。

图片

扫码关注我们

微信号:人工智能怎么学

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1870691.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

金融行业专题|某头部期货基于 K8s 原生存储构建自服务数据库云平台

为了进一步提升资源交付效率,不少用户都将数据库应用从物理环境迁移到容器环境。而对于 Kubernetes 部署环境,用户不仅需要考虑数据库在性能方面的需求,还要为数据存储提供更安全、可靠的高可用保障。 近期,某头部期货机构基于 S…

隐秘而又复杂的恶意软件:SSLoad

SSLoad 是一种隐秘的恶意软件,主要通过钓鱼邮件打开突破口,收集各种信息再回传给攻击者。近期,研究人员发现 SSLoad 通过诱饵 Word 文档投递恶意 DLL 文件,最终部署 Cobalt Strike。另一种攻击方式是利用钓鱼邮件诱导受害者到 Azu…

系统性掌握C++17容器四件套:std::optional, std::any, std::variant, std::tuple

昨天在写《深入探讨C的高级反射机制(2):写个能用的反射库》的时候,正好遇到动态反射需要的类型擦除技术。所谓的类型擦除,就是在两个模块之间的接口层没有任何类型信息,实现两个模块之间安全的通信。可以理…

QT控制comboBox切换方法

目录 1. 效果2. 操作 1. 效果 如下图: 点击全切换雨天模式按钮 则 comboBox 文本显示为 “雨天模式”点击全切换正常模式按钮 则 comboBox 文本显示为 “雨天模式” 切换到 雨天模式 切换到 正常模式 2. 操作 使用 “setCurrentIndex” 方法,切换 combo…

# bash: chkconfig: command not found 解决方法

bash: chkconfig: command not found 解决方法 一、chkconfig 错误描述: 这个错误表明在 Bash 环境下,尝试执行 chkconfig 命令,但是系统找不到这个命令。chkconfig 命令是一个用于管理 Linux 系统中服务的启动和停止的工具,通常…

[数据集][目标检测]电力场景下电柜箱门把手检测数据集VOC+YOLO格式1167张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1167 标注数量(xml文件个数):1167 标注数量(txt文件个数):1167 标注…

26、 MySQL数据库基础练习系列股票交易系统基础查询和复杂查询

5、基础查询 -- 1、查询用户信息仅显示姓名与手机号 SELECT username as 姓名,phone as 手机号 from users;-- 2、模糊查询和explain语句 alter table stocks add index stock_name_index(stock_name); explain SELECT * from stocks where stock_name like %东吴证券%; -- 3、…

Attention步骤

一个典型的Attention思想包括三部分:Qquery、Kkey、Vvalue。 Q是query,是输入的信息;key和value成组出现,通常是原始文本等已有的信息;通过计算Q与K之间的相关性a,得出不同的K对输出的重要程度;…

2024年北京市安全员-C3证证模拟考试题库及北京市安全员-C3证理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年北京市安全员-C3证证模拟考试题库及北京市安全员-C3证理论考试试题是由安全生产模拟考试一点通提供,北京市安全员-C3证证模拟考试题库是根据北京市安全员-C3证最新版教材,北京市安全员-C…

【深度学习】机器学习基础

机器学习就是让机器具备找一个函数的能力 带有未知的参数的函数称为模型 通常一个模型的修改,往往来自于对这个问题的理解,即领域知识。 损失函数 平均绝对误差(Mean Absolute Error,MAE) 均方误差(Mea…

送物机器人电子方案定制

这是一款集娱乐、教育和互动于一身的高科技产品。 一、它的主要功能包括: 1. 智能对话:机器人可以进行简单的对话,回答用户的问题,提供有趣的互动体验。 2. 前进、后退、左转、右转、滑行:机器人可以通过遥控器或AP…

秋招突击——6/26~6/27——复习{二维背包问题——宠物小精灵之收服}——新作{串联所有单词的字串}

文章目录 引言复习二维背包问题——宠物小精灵之收服个人实现重大问题 滚动数组优化实现 新作串联所有单词的字串个人实现参考实现 总结 引言 今天应该是舟车劳顿的一天,头一次在机场刷题,不学习新的东西了,就复习一些之前学习的算法了。 复…

SherlockChain:基于高级AI实现的智能合约安全分析框架

关于SherlockChain SherlockChain是一款功能强大的智能合约安全分析框架,该工具整合了Slither工具(一款针对智能合约的安全工具)的功能,并引入了高级人工智能模型,旨在辅助广大研究人员针对Solidity、Vyper和Plutus智…

CentOS安装ntp时间同步服务

CentOS安装ntp时间同步服务 安装ntp 检查服务器是否安装ntp: rpm -q ntp安装ntp: yum install -y ntp服务端配置 配置文件路径:/etc/ntp.conf 设置ntp为开机启动 systemctl enable ntpd查看ntp开机启动状态 enabled:开启, disabled:关闭 …

国际产业园双创孵化空间点亮创业梦想

国际数字影像产业园的双创孵化空间旨在打造一个集创意、技术、资金、市场等资源于一体的综合孵化平台,为初创企业和创新项目提供从创意到产品化、从初创到成长的全方位支持。 主要功能与服务 1、孵化服务:为初创企业提供办公场地、基础设施、技术支持等…

navicat Premium发布lite免费版本了

Navicat Premium发布lite免费版本了,下面是完整功能对比链接 Navicat Premium 功能列表 | Navicat 免费版本下载链接如下: Navicat | 免费下载 Navicat Premium Lite 开发功能完全够用,点赞。 dbeaver该如何应对。

幻兽帕鲁Palworld樱花版本服务器一键开服联机

1、登录服务器(百度莱卡云) 1.1、第一次购买服务器会安装游戏端,大约5分钟左右,如果长时间处于安装状态请联系客服 2、在启动中调整游戏参数 2.1、重启服务器,等待running出现,或者运行时间变为灰色&#x…

MySQL高级-索引-使用规则-前缀索引

文章目录 1、前缀索引2、前缀长度3、查询表数据4、查询表的记录总数5、计算并返回具有电子邮件地址(email)的用户的数量6、从tb_user表中计算并返回具有不同电子邮件地址的用户的数量7、计算唯一电子邮件地址(email)的比例相对于表…

为什么要本地化您的多媒体内容?

当我们访问网站、应用程序和社交媒体时,体验不再局限于陈旧的文本和静态图像。现代处理能力和连接速度提高了快速加载视频、音频和动画的可能性。 这一切都提供了更具沉浸感和互动性的用户体验。多媒体是数字营销中最有效的内容之一,因为它对用户更具吸…

优思学院|工厂的部门架构管理与精益生产

工厂内有不同部门,各部门之间必须协调合作才能发挥整体功能。工厂最主要的部分是制造产品的现场,这里安装了生产工具,还有操作员进行加工或生产制造。 制造时使用的材料或零组件,需要对外采购。对于加工组装型的工厂,…