每日学术速递4.14

news2024/11/26 2:38:19

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators

标题:大规模深度强化学习:使用移动机械手对办公楼中的垃圾进行分类

作者:Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho

文章链接:https://rl-at-scale.github.io/assets/rl_at_scale.pdf

项目代码:https://rl-at-scale.github.io/

摘要:

        我们描述了一个用于深度强化学习机器人操作技能的系统,该系统应用于大规模的现实世界任务:分类办公楼中的可回收物和垃圾。深度 RL 策略在现实世界中的部署不仅需要有效的训练算法,还需要引导现实世界训练并实现广泛泛化的能力。为此,我们的系统——大规模强化学习 (RLS)——将来自真实世界数据的可扩展深度强化学习与来自模拟训练的引导相结合,并结合来自现有计算机视觉系统的辅助输入,以此作为促进对新对象的泛化的一种方式,同时保留端到端培训的好处。我们分析了系统中不同设计决策的权衡,并提出了大规模的实证验证,其中包括对在 24 个月的实验过程中收集的真实世界数据的培训,这些数据来自三座办公楼中的 23 个机器人,总计 9527 小时的机器人体验训练集。我们的最终验证还包括跨 240 个垃圾站配置的 4800 次评估试验,以便详细评估设计决策对我们系统的影响、包含更多真实世界数据的缩放效应以及该方法在新颖性上的性能对象。

2.Adaptive Human Matting for Dynamic Videos(CVPR 2023)

标题:动态视频的自适应人类抠图

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2304.06018

项目代码:https://github.com/microsoft/AdaM

摘要:

        视频抠图的最新努力集中在消除 trimap 依赖性上,因为 trimap 注释很昂贵,而且基于 trimap 的方法不太适合实时应用程序。尽管最新的 tripmap-free 方法显示出可喜的结果,但在处理高度多样化和非结构化的视频时,它们的性能往往会下降。我们通过引入动态视频的自适应遮罩(称为 Adam)来解决这一限制,该框架旨在同时区分前景和背景并捕获前景中人类主体的 alpha 遮罩细节。采用两个互连的网络设计来实现这一目标:(1) 一个编码器-解码器网络,它产生 alpha 遮罩和中间掩码,用于指导变换器自适应地解码前景和背景,以及 (2) 一个变换器网络,其中长- 和短期注意力相结合以保留空间和时间上下文,促进前景细节的解码。我们在最近引入的数据集上对我们的方法进行了基准测试和研究,表明我们的模型显着改善了复杂真实世界视频中的消光真实感和时间连贯性,并实现了新的一流泛化能力。此 https URL 提供了更多详细信息和示例。

3.ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

标题:ImageReward:学习和评估人类对文本到图像生成的偏好

作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://github.com/THUDM/ImageReward

摘要:

        我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。在人类评估中,ImageReward 优于现有的评分方法(例如,CLIP 38.6%),使其成为评估和改进文本到图像合成的有前途的自动指标。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/424097.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VS2022编译libui库

libui是一个 C 中简单且可移植(但并非不灵活)的 GUI 库,它使用每个平台原生的GUI技术进行绘制。 官网地址:链接 本文将使用VS2022编译libui库,操作系统为Windows10。 1. 下载源代码 首先在官网下载源代码,由于此代码不依赖第三库,故只需下载源代码即可进行编译。 我下…

R730服务器环境搭建(centos7、lanproxy、docker、k8s)

文章目录前言一、centos7安装1.制作u盘启动盘2.开始装系统:二、环境安装(lanproxy、docker、k8s)1.lanproxy安装2.docker安装(如果通过k8sOfflineSetup安装k8s可以跳过这一步,因为会自动安装docker)3.安装k…

安装 KeyShot 流程

| 安装 KeyShot 流程 KeyShot 安装程序将指导您完成安装过程。 在 Windows 上,安装过程会要求您考虑以下事项终用户协议 为使用计算机的所有人或仅为当前用户安装 KeyShot 安装文件夹的位置 资源文件夹的位置 ——资源文件夹包含许多可以与 KeyShot 一起使用的纹…

NSSCTF doublegame题解

运行一下,是一个贪吃蛇游戏 先玩一玩,蛇的移动速度太快了,玩不了 查壳 64位文件,无壳 进入IDA分析 发现这个EXE文件是开了程序基址随机化,就是每次用IDA打开指令的地址不一样 我们要想使用x64dbg和IDA的时候&#…

Docker的基本操作

文章目录一、 Docker的基本操作1.1 镜像1.1.1 介绍1.1.2 镜像操作1.2 容器1.2.1 介绍1.2.2 容器操作1.3 数据卷1.3 介绍1.3.2 数据卷操作一、 Docker的基本操作 1.1 镜像 1.1.1 介绍 在 Docker 中,镜像(Image)是一种轻量级、可移植的、可扩…

营销平台一站式集成 高效实现自动化

市面上广告投放渠道渠道那么多,图文、动图、短视频等广告形式也越来越多,许多企业都会有这些疑问: 「腾讯广告、百度营销、巨量引擎哪个广告渠道的客户适合我们公司?」 「这么多广告渠道,哪家的点击率、转化率比较高…

1.Antlr4-简介入门

1.简介: ANTLR v4是一款功能强大的语法分析器生成器,可以用来读取、处理、执行和转换结构化文本或二进制文件。它被广泛应用于学术界和工业界构建各种语言、工具和框架。 2 关键字: import, fragment, lexer, parser, grammar, returns, locals, throw…

运维——记一次接口超时的问题与解决方法(HttpException: Read timed out)

前言:近期,一个线上的项目,请求出现了大量接口超时的问题,找了几个小时原因,最终发现是因为数据库服务器的磁盘满了,在此记录一下寻找的过程以及发现的问题,以备后续参考。 环境: 项目服务器(CentOS 64-bit 7.9) OpenJDK 1.8.0_272 数据库服务器(CentO…

打怪升级之FPGA组成原理(LE部分)

FPGA芯片逻辑单元的原理 不论你使用哪一款FPGA芯片,其核心可编程逻辑单元都是从一段内存种按顺序读取执行并执行的过程。具体来说,FOGA芯片内部包括可编程逻辑块(LAB)、可配置输入输出单元(IOE)、时钟管理模块、嵌入式RAM(BRAN,在Cyclone IV…

【堆的使用】【dfs构建数】二叉树遍历

二叉树遍历方法一:方法二:利用堆的性质原题链接 方法一: 利用dfs构建树 因为这个前序遍历给了我们空的叶节点 所以我们可以只根据叶节点 构建树 abc##de#g##f### 构建图如下 我们根据前序 abc##de#g##f### 发现 dfs左子树 和 右子树 当…

mac系统下使用clion调试redis源码

获取源代码 有两种方式,第一种是从官网下载 Redis 源码压缩包,如图 1-1 所示。 图1-1 将压缩包解压得到一个文件夹。 第二种方式,通过 git clone 获取源码。 从 Github 上,使用 git clone https://github.com/redis/redis.git…

第1章-JVM与Java体系结构

1、本系列博客,主要是面向Java8的虚拟机。如有特殊说明,会进行标注。 2、本系列博客主要参考尚硅谷的JVM视频教程,整理不易,所以图片打上了一些水印,还请读者见谅。后续可能会加上一些补充的东西。 3、尚硅谷的有些视频…

业务转包?行为不可控?企业外包如何保护数据安全?

出于人力、设备、开发成本等各种因素考虑,企业会把一部分业务外包出去,比如AI数据标注外包、IT外包、银行部分业务外包等。同时,随着企业不断向外包业务转移,保护数据安全和隐私已成为企业最为关注的问题之一。 来自国外的一份报告…

1.16 从0开始学习Unity游戏开发--人物控制

上一篇我们简单的做了一个玩家不动的情况下,如何控制准心来射击子弹,但是显然正常的游戏需要移动玩家本体,所以本篇我们需要补全这部分玩法所需的功能。 人物移动 在我们之前的篇章里面,讲解了如何通过物理引擎来实现物体的物理…

(学习日记)2023.4.11

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

360虚拟数字展厅vr全景展示实现高度开放空间的深度体验

随着VR虚拟现实技术的不断发展和普及,线上VR全景虚拟展厅逐渐成为了各行各业的展示和推广产品的重要手段之一。相比于传统的展览方式,线上VR全景虚拟展厅打破了许多传统展览的局限性 传统局限性: 1、重体验过于依赖线下,难以实现转…

CloudCompare如何使用基础功能?

文章目录0.引言1.File2.Edit3.Tools4.Display5.Plugins6.3D Views0.引言 CloudCompare是一款优秀的开源点云处理软件,在研究点云的过程中,会用到其中一些点云处理功能。为快速熟悉软件的基础功能,本文介绍相应的功能按键的作用。    1.Fil…

Nginx专题-基于多网卡的主机配置

文章目录Nginx 基于多网卡的主机实现一、虚拟机前置环境准备ifcfg-ens32配置文件的内容参考ifcfg-ens33配置文件的内容二、案例演示修改nginx.conf配置文件解决中文乱码Nginx 基于多网卡的主机实现 一、虚拟机前置环境准备 点击虚拟机右下角的 红色标框按钮,然后右键…

【GC垃圾回收算法】让内存垃圾无处藏身

文章目录概述垃圾对象的判定引用计数可达性分析回收垃圾标记清除复制算法标记整理分代回收概述 垃圾回收就是帮我们把不用的内存垃圾自动释放掉 什么是垃圾呢?就是指不再使用的垃圾 如果不进行垃圾回收就会导致一个严重的问题,内存泄漏 内存泄漏&#x…

【id:34】【20分】D. Point_Array(类+构造+对象数组)

题目描述 上面是我们曾经练习过的一个习题,请在原来代码的基础上作以下修改:1、增加自写的析构函数;2、将getDisTo方法的参数修改为getDisTo(const Point &p);3、根据下面输出的内容修改相应的构造函数。 然后在主函数中根据…