Google DeepMind最新研究,将视觉语言大模型作为强化学习的全新奖励来源

news2025/1/19 23:02:58

4f0a301365a44f66aabecd2975cb2855.png

论文题目:Vision-Language Models as a Source of Rewards
论文链接:https://arxiv.org/abs/2312.09187

在大型语言模型(LLM)不断发展的进程中,强化学习扮演了重要的角色,ChatGPT就是在GPT-3.5的基础上经过人类反馈的强化学习算法微调得到。而对于强化学习本身而言,如何使其优化算法在各种丰富的开放环境中更好的完成目标是目前研究的主要热点。其中的一个关键限制因素就是需要设计适合多种场景的奖励函数

本文介绍一篇来自Google DeepMind的研究论文,本文探索了使用现成的视觉语言模型(vision-language models,VLM)作为强化学习奖励来源的可行性。具体来说,本文作者选取了CLIP系列模型来对各种不同的语言建模任务进行侧重于视觉模态的奖励,并将其训练各种RL智能体。作者在两个不同的视觉领域中对这种奖励方法进行了实验,实验结果表明,VLM模型生成的奖励质量会随着视觉编码器参数规模的增加而提高。

01. 引言

强化学习(RL)领域的一些里程碑工作很多都发生在奖励函数可以明确定义的领域,例如在一些游戏领域和模拟环境中。这种场景中的奖励功能包括:游戏获胜/失败、游戏得分的变化、基础状态的变化等。随着强化学习的不断发展,研究者们开始对强化学习的通用性提出了更高的要求,例如将其应用到现实世界中,因为在模拟环境中,我们很容易根据模拟对象的状态变化来计算奖励。而在现实世界中,奖励必须根据实际的观察来得到。此外,针对不同目标来设计奖励函数也是一个相当繁重的工作,这也导致了很多RL算法无法泛化到通用领域中

为了解决这些问题,本文作者提议使用一些视觉语言模型(VLM)作为RL模型在视觉环境中的奖励函数,由于VLM通常在配对的图像和文本数据集上进行了预训练,具有开箱即用的视觉检测、分类和问答能力,因此本文提出了一种从预训练CLIP图像和语言嵌入中提取多模态稀疏二元奖励的方法,该方法可以训练各种智能体在Playhouse[1]和 AndroidEnv[2]视觉环境中实现各种语言目标,同时无需针对特定环境对模型进行微调

02. 本文方法

​​​​​​​

03. 实验效果

本文的实验设置类似于标准的在线强化学习设置,agent通过与环境的试错交互来最大化奖励,唯一的区别在于,本文的agent不使用真实奖励或手工设计的奖励函数进行优化,而是根据VLM模型生成的奖励进行训练,为了综合评价本文方法的性能,作者在实验中分别展示了VLM奖励(本文称之为内在奖励)和真实奖励得到的性能。

本文在两个视觉环境中进行了实验,如下图所示:

(1)Playhouse,这是一个基于Unity的模拟环境,可以在程序生成的房间中以第一人称视角行动。在Playhouse环境中,作者设计了寻找、举起、拾取并放置这三种难度递增的任务。

(2)AndroidEnv,这是一个基于Android操作系统的开源环境,允许智能体通过在实时模拟的Android设备上进行触摸屏手势交互。在AndroidEnv环境中,作者设计了两种任务,其一是打开常用应用程序,例如Gmail、Google Sheets、Chrome等,其二是打开一些不太知名的APP。

7a89893169d143b7b259812600fd4ffa.png

作者在训练过程中记录了agent获得的奖励值变化情况,下图展示了本文方法在不同实验环境中的真实奖励和VLM奖励的变化曲线,由于VLM奖励的记录并不精确,因而其与真实奖励之间存在系统性差距,但是从下图中可以看出,模型在训练期间学习到的VLM奖励与真实奖励之间存在很强的相关性

1375b7ff0c084bd9a9d26c1389b28aa1.png

此外,本文作者还对VLM奖励方法的扩展性进行了深入探索,下图中展示了模型在Playhouse环境中评估VLM奖励相对于真实二进制奖励的准确性情况,图中左侧展示了,随着用于奖励模型的VLM参数规模的增加(从200M参数到1.4B参数),模型的精确度-召回率曲线得到了明显的改善。图中右侧表示当使用不同backbone的VLM进行训练时,模型仍然能够获得较为准确的奖励信号。

cf3bd2c7f4c7498595e4bed6b3494873.png

04. 总结

本文介绍了一种将现成的视觉语言模型(VLMs)作为强化学习奖励函数的框架,例如将多模态对齐CLIP模型的文本编码器和视觉编码器部署在强化学习模型中,而无需再特定领域的数据集上进行微调。通过对此类VLM在RL过程中的性能分析,作者发现,VLM模型生成的奖励质量会随着视觉编码器参数规模的增加而提高。这些结果表明,如果社区进一步发展出更大规模,更佳性能的视觉语言大模型,那我们训练更加通用的强化学习智能体的难度也会大大降低。

参考

[1] DeepMind Interactive Agents Team, Josh Abramson, Arun Ahuja, Arthur Brussee, and Rui Zhu. Creating multimodal interactive agents with imitation and self-supervised learning, 2022.

[2] Daniel Toyama, Philippe Hamel, Anita Gergely, Gheorghe Comanici, Amelia Glaese, Zafarali Ahmed, Tyler Jackson, Shibl Mourad, and Doina Precup. Androidenv: A reinforcement learning platform for android. arXiv preprint arXiv:2105.13231, 2021.


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1438714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Stable Diffusion 模型下载:RealCartoon-Pixar - V8

文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八案例九案例十下载地址模型介绍 这个检查点是从 RealCartoon3D 检查点分支出来的。它的目标是在整体上产生更多的“皮克斯”风格。我非常喜欢3D卡通的外观,希望能够创建出具有

Linux死机排查方法——内存日志

一般情况下,Linux系统在死机时会产生一些dump信息,例如oops,通过分析oops信息就可以基本定位问题所在,但有些特殊情况下死机时,没有任何的打印的信息。如果直接使用printk等打印排查问题,有可能会因为print…

ssm+vue的校园一卡通密钥管理系统(有报告)。Javaee项目,ssm vue前后端分离项目。

演示视频: ssmvue的校园一卡通密钥管理系统(有报告)。Javaee项目,ssm vue前后端分离项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系…

240207-3步设置VSCode插件Inline-Bookmarks自定义颜色及名称

Step 1: 插件安装 Step 2: 配置文件 "inline-bookmarks.expert.custom.styles": {"default": {"gutterIconColor": "#157EFB","overviewRulerColor": "rgba(21, 126, 251, 0.7)","light": {"fontW…

使用HCPpipelines分割皮层

前段时间阅读了一篇文献,文章的做法我比较感兴趣,所以打算学习一下文献的做法。文章的最开始一部分是使用HCPpipelines对T1和T2像进行皮层分割,调用的是freesurfer6。https://github.com/Washington-University/HCPpipelines 一、工作环境准备 1.安装好FSL,版本在6.0.2以上…

H2和流行关系型数据库对比

1.H2和SQLite数据库对比 1.1.独特的特点和用途 H2 和 SQLite 是两个流行的轻量级数据库,它们各自有一些独特的特点和用途: H2 数据库: 主要用于 Java 应用,因为它是用 Java 编写的。支持内存模式和磁盘持久化。提供了一个基于浏览器的控制台…

Asp .Net Core 系列:Asp .Net Core 集成 Panda.DynamicWebApi

文章目录 简介Asp .Net Core 集成 Panda.DynamicWebApi配置原理什么是POCO Controller?POCO控制器原理ControllerFeatureProvider实现自定义判断规则IApplicationModelConventionPanda.DynamicWebApi中的实现ConfigureApiExplorer()ConfigureSelector()ConfigurePar…

板块零 IDEA编译器基础:第三节 下载和在IDEA中集成 Tomcat服务器 来自【汤米尼克的JAVAEE全套教程专栏】

板块零 IDEA编译器基础:第三节 下载和在IDEA中集成 Tomcat服务器 一、为什么选择Tomcat(1)常见的JAVA WEB服务器(2)选择Tomcat的理由 二、Tomcat 8.5下载解压三、Tomcat 结构目录四、在IDEA中集成Tomcat 假设我们已经…

基于STM32平台的嵌入式AI音频开发

加我微信hezkz17,可申请加入 嵌入式人工智能开发交流答疑群。 1 stm32芯片AI开发流程 其中模型也可以选择tensorflow ,pytorch 2 FP-AI-SENSING1 SDK开发包介绍 3 声音场景分类项目数据集选择 (1)自己采集数据打标签 (2) 使用专用数据集 4 完整参考

如何使用phpStudy搭建网站并结合内网穿透远程访问本地站点

文章目录 [toc]使用工具1. 本地搭建web网站1.1 下载phpstudy后解压并安装1.2 打开默认站点,测试1.3 下载静态演示站点1.4 打开站点根目录1.5 复制演示站点到站网根目录1.6 在浏览器中,查看演示效果。 2. 将本地web网站发布到公网2.1 安装cpolar内网穿透2…

Nacos(1)

Nacos注册中心 主要解决问题 假如微服务被调用较多,为了应对更高的并发,进行了多实例部署 此时,每个微服务的实例其IP或端口不同,问题来了: 这么多实例,如何知道每一个实例的地址?http请求要…

零基础学编程从哪里入手,编程实例分享,配件进出库管理系统软件

零基础学编程从哪里入手,编程实例分享,配件进出库管理系统软件 一、前言 对于刚学编程的人来说,多看看现有的软件实例对自己学开发软件是很有帮助的。 下面分享的实例以配件进出库管理系统软件为例说明。 软件文件下载可以点击最下方官网…

031-安全开发-JS应用WebPack打包器第三方库JQuery安装使用安全检测

031-安全开发-JS应用&WebPack打包器&第三方库JQuery&安装使用&安全检测 #知识点: 1、三方库-JQuery-使用&安全 2、打包器-WebPack-使用&安全 演示案例: ➢打包器-WebPack-使用&安全 ➢第三方库-JQuery-使用&安全 #为什么…

应用案例 | Softing dataFEED OPC Suite助力挤出机械自动化系统OPC UA升级

某知名挤出机械整体方案供应商在其最新自动化系统中采用了Softing dataFEED OPC Suite作为标准的OPC UA通信方案,不仅可采集多个西门子S7-1200控制器数据,而且为终客户提供了可靠、高性能的挤出机械自动化解决方案。 一 背景 多年前,该挤出机…

寒假漫游记之CSS

一&#xff0c;CSS 1.CSS语法规范 CSS规则由两个主要的部分构成&#xff1a;选择器及一条或多条声明。 &#xff08;选择器是用于指定CSS样式的HTML标签&#xff09; 注&#xff1a;CSS是写在<style></style>里 (style在<head></head>),具体可以书写…

进程状态 | 僵尸进程 | 孤儿进程 | 前台后台进程 | 守护进程

文章目录 1.进程的三种基本状态2.Linux中进程状态查看2.1.进程检测脚本2.2.各种状态查看 3.孤儿进程4.前台、后台、守护进程 1.进程的三种基本状态 进程的在系统当中是走走停停的&#xff0c;「运行 - 暂停 - 运行」的活动规律&#xff1b;进程在活动期间的三种状态&#xff1…

《计算机网络简易速速上手小册》第7章:云计算与网络服务(2024 最新版)

文章目录 7.1 云服务模型&#xff08;IaaS, PaaS, SaaS&#xff09;- 你的技术魔法盒7.1.1 基础知识7.1.2 重点案例&#xff1a;构建和部署 Python Web 应用实现步骤具体操作步骤1&#xff1a;创建 Flask Web 应用步骤2&#xff1a;准备应用部署 7.1.3 拓展案例1&#xff1a;使…

transformer剪枝论文汇总

文章目录 NN Pruning摘要实验 大模型剪枝LLM-PrunerSparseGPT LTPVTPWidth & Depth PruningPatch SlimmingDynamicViTSPViTDynamicBERTViT SlimmingFastFormersNViTUVCPost-training pruning NN Pruning 《Block Pruning For Faster Transformers》 《为更快的transformer…

MPC |模型预测控制的一些基本概念

模型预测控制就是在每个采样点处&#xff0c;根据被控对象的状态和预测模型&#xff0c;预测系统在未来一段时间内的状态&#xff0c;依据某一性能指标&#xff08;成本函数&#xff09;来求解最优的一组控制序列&#xff0c;并将这组控制序列的第一个控制作用作为输出给执行机…

【数据库】Unlogged 表使用

【数据库】Unlogged 表使用 前言普通表和Unlogged 表的写性能比较普通表创建和数据插入Unlogged 表创建和数据插入比较结果 Unlogged 表崩溃和正常关闭测试Unlogged 表特点总结 前言 大神偶像在开会上提及了Unlogged 表&#xff0c;它的特点很不错&#xff0c;很适合实时数据保…