Talk | 清华大学陈晓宇苏黎世联邦理工黄嘉伟 :基于实际应用的强化学习

news2024/11/17 6:34:27

本期为TechBeat人工智能社区455线上Talk!

北京时间11月17(周四)20:00清华大学交叉信息研究院在读博士生——陈晓宇苏黎世联邦理工大学计算机科学在读博士生——黄嘉伟的Talk将准时在TechBeat人工智能社区开播!

他们与大家分享的主题是: “基于实际应用的强化学习”,届时将分别讲解一种针对分段平稳环境的自适应深度强化学习方法 ,以及等级强化学习:悲观面对风险与常数regret。这两项工作成果均在微软亚洲研究院实习期间完成,并均已发表在NeurIPS 2022上。

Talk·信息

主题:基于实际应用的强化学习

嘉宾:清华大学交叉信息研究院在读博士生

陈晓宇

苏黎世联邦理工大学计算机科学在读博士生

黄嘉伟

时间:北京时间 11月17日 (周四) 20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

 点击下方链接,即可观看视频

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。https://www.techbeat.net/talk-info?id=731

Talk·介绍

实际应用给强化学习带来了新的挑战。一方面,我们发现智能体所处的环境总是在变化;另一方面,我们发现不同用户群体对风险的承受能力是不同的。对于前者,我们观察到,在很多现实问题中,环境(例如网络可用带宽,机器人所处地形等)在一段随机的时间内保持不变,然后以不可预测的方式发生突然的跳变,而且这些环境变量往往是不可观测的。为此,我们设计了一种针对分段平稳环境的自适应深度强化学习方法来及时检测这种变化并且快速调整自身策略以适应这样的环境变化。针对后者,我们提出了一个新的Tiered RL 框架来应对这种用户群体有层级结构(Tiered Structure)的情况。

一种针对分段平稳环境的自适应深度强化学习方法 

在现实生活中,智能体所处的环境总在变化,这也是阻碍强化学习算法成功应用的原因之一。我们观察到,在很多现实问题中,环境(例如网络可用带宽、机器人所处地形等)在一段随机的时间内保持不变,然后以不可预测的方式发生突然的跳变,而且这些环境变量往往是不可观测的。因此,智能体需要及时检测到这种变化并快速调整自身策略以适应这种变化。

Talk提纲如下:

  • 背景介绍

  • 问题建模

  • 方法

  • 实验

等级强化学习:悲观面对风险与常数regret

强化学习在很多用户交互的产品中有很多成功的应用,比如医疗领域、推荐系统等等。但是当前的RL框架忽略了不同用户群体对于风险的承受能力是不同的,因此我们提出了一个新的Tiered RL框架来应对这种用户群体有层级结构(Tiered Structure)的情况。

Talk提纲如下:

  • Tiered RL框架的定义与动机

  • Tiered RL框架下取得的理论结果 - 方法和背后的原理

Talk·预习资料

  • https://arxiv.org/abs/2205.12418

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

陈晓宇

清华大学交叉信息研究院在读博士生

清华大学交叉信息研究院陈建宇老师组博士生,主要研究方向为强化学习,曾在ICML、NeurIPS、AIJ等会议期刊上发表多篇论文。

黄嘉伟

苏黎世联邦理工大学计算机科学在读博士生

主要从事强化学习(理论)的研究,之前的工作主要与离线强化学习相关(Offline RL),在ICML,NeurIPS,ICLR等会议上发表过一些文章。

 -The End-

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/30283.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NC发布猕猴大脑皮层多组学细胞图谱,助力神经系统疾病研究 | 时空专辑数据库

近日,杭州华大生命科学研究院(以下简称杭州华大)联合昆明理工大学灵长类转化医学研究院、美国艾伦脑科学研究所等国内外多家单位在国际学术期刊《自然通讯》(Nature Communications)在线发表题为《成年猕猴大脑皮层空间…

PyTorch深度学习实践——线性模型、梯度下降算法、反向传播

1、线性回归 参考资料1:https://blog.csdn.net/bit452/article/details/109627469 参考资料2:http://biranda.top/Pytorch%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0003%E2%80%94%E2%80%94%E7%BA%BF%E6%80%A7%E6%A8%A1%E5%9E%8B/#%E7%BA%BF%E6%80%A7%E6%A8%…

PC_多处理器

文章目录多处理器单指令单数据流SISD结构单指令流多数据流SIMD结构向量处理器多指令流单数据流MISD结构多指令多数据流MIMD结构小结硬件多线程细粒度多线程粗粒度多线程同时多线程多核处理器共享内存多处理器多处理器 常规的单处理器属于SISD常规多处理器属于MIMD 单指令单数…

腾格尔十月天传媒联手《巴林塔娜》,2255万粉丝多少买票支持

曾几何时,木桶原理非常流行,意思就是一个木桶能够盛多少水,取决于最短一块板的长度。可是随着社会的发展,木桶原理已经被淘汰,只要你拥有了团队合作,就可以统协作取长补短。 就拿有着“草原歌神”之称的腾格…

你的知识库能提高工作效率的7个原因

知识就是力量。但到目前为止,光有知识是不够的——你使用这些信息的方式让你领先于竞争对手。如果使用正确,知识库软件可以帮助您提供更好的服务,培训您的员工,并成为您的行业权威。拥有一个有效的知识库不仅会影响你在内部开展业…

Android assets

1.应用程序资源管理器assets assets就是apk工程中的一个普通目录,在每个工程的根目录下都可以发现(或者可以自己创建)一个assets目录。 assets目录用于专门保存各种外部文件,比如图像、音视频、配置文件、字体、自带数据库等。它之所以适合用来管理这些…

数据库mysql操作语言, DDL,DML,DQL

文章目录一. 数据库1. 数据库基本概念2. 数据库管理系统3. 数据库与表的概念二. 连接数据库的方式三. 如何操作DBMSSQL语句分类1. DDL 数据定义语言查看DBMS中已有的数据库数据库相关操作新建一个数据库查看数据库信息删除数据库使用一个数据库(切换一个数据库)表相关操作创建表…

HOOPS/MVO技术概述

更多参见:HOOPS学习笔记 MVO 1.引言 HOOPS/MVO是一个C类库,位于HOOPS 3D图形系统(HOOPS/3DGS)之上。它有一个模型/视图/操作员架构,封装了各种HOOPS/3DGS数据结构和概念,并提供了一系列通用应用程序级逻辑…

【无人机】基于粒子群优化干扰受限下无人机群辅助网络附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

Xception --tensorflow2.x

简介 Xception和SqueezeNet一样,是一种降低参数量的轻量级神经网络,它主要使用了 深度分离卷积(Depthwise separable convolution)结构,该结构替换了原来的Inception中的多尺寸卷积结构。这里需要弄清深度分离卷积(D…

【创建型设计模式-单例模式】一文搞懂单例模式的使用场景及代码实现的7种方式

1.什么是单例模式 在了解单例模式前,我们先来看一下它的定义: 确保一个类只有一个实例,而且自行实例化并且自行向整个系统提供这个实例,这个类称为单例类,它提供全局访问的方法, 单例模式是一种对象的创建型…

微型计算机原理速通期末复习

文章目录微机基础原码、反码、补码、移码溢出实数型功能结构8086/8088内部结构80286内部结构80386/80486内部结构标志寄存器FLAGS寄存器阵列段寄存器寻址标志寄存器EFLAGS分段结构数据寻址方式立即寻址直接寻址寄存器寻址寄存器间接寻址寄存器相对寻址基址-变址寻址基址-变址-相…

Solidity vs. Vyper:不同的智能合约语言的优缺点

本文探讨以下问题:哪种智能合约语言更有优势,Solidity 还是 Vyper?最近,关于哪种是“最好的”智能合约语言存在很多争论,当然了,每一种语言都有它的支持者。 这篇文章是为了回答这场辩论最根本的问题&…

磨金石教育摄影技能干货分享|中国风摄影大师——郎静山

说到中国风摄影,你想到的画面是什么样子的?故宫、长城、苏州园林、大红灯笼高高挂,反正离不开传承了千八百年的古建筑。仿佛没有了这些历史古董的元素就没有中国味道似的。 其实中国风,其内核应该是传统的审美观念和哲学思想。中…

【雷丰阳-谷粒商城 】课程概述

持续学习&持续更新中… 学习态度:守破离 【雷丰阳-谷粒商城 】课程概述该电商项目与其它项目的区别项目简介项目背景电商模式谷粒商城项目技术&特色项目前置要求谷粒商城-微服务架构图谷粒商城-微服务划分图参考该电商项目与其它项目的区别 互联网大型项目…

深入linux内核架构--内存管理

【推荐阅读】 代码大佬的【Linux内核开发笔记】分享,前人栽树后人乘凉! 一文了解Linux内核的Oops 一篇长文叙述Linux内核虚拟地址空间的基本概括 路由选择协议——RIP协议 深入理解Intel CPU体系结构【值得收藏!】 内存体系结构 1. UM…

银行测试人员谈测试需求

今天呢,想用故事说话,先看看啥叫用户需求挖掘。其实看完故事之后,我自己颇为震撼,请看。 故事一: 100多年前,福特公司的创始人亨利福特先生到处跑去问客户:“您需要一个什么样的更好的交通工具…

loganalyzer 展示数据库中的日志

1 实验目标: 利用rsyslog日志服务,将收集的日志记录于MySQL中,通过loganalyzer 展示数据库中的日志 2 环境准备 三台主机: 一台日志服务器,利用上一个案例实现,IP:192.168.100.100一台数据库…

【Java八股文总结】之数据结构

文章目录数据结构一、概念1、时间复杂度与空间复杂度2、常见算法时间复杂度3、Comparable二、常见的排序算法1、直接插入排序2、希尔排序3、选择排序4、堆排序5、冒泡排序6、快速排序7、归并排序8、二分查找算法Q:什么时候需要结束呢?三、线性表1、概念2…

使用 Footprint Analytics, 快速搭建区块链数据应用

Nov 2022, danielfootprint.network 如果你有一个处理 NFTs 或区块链的网站或应用程序,你可以在你的平台上直接向用户展示数据,以保持他们在网站或者应用内的参与,而不是链接以及跳出到其他网站。 对于任何区块链应用或者媒体、信息网站来说…