第三篇：强化学习发展历史

第三篇：强化学习发展历史

news2025/2/23 7:32:19

你好，我是zhenguo（郭震）

这是强化学习第三篇，我们回顾一下它的发展历史：强化学习发展历史

强化学习作为一门研究领域，经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑：

1950年代-1960年代

康奈尔大学的康奈尔Aeronautical Laboratory (CAL) 开展了早期的多智能体强化学习研究，研究目标是训练机器人进行学习和决策。

1970年代-1980年代

学习理论的发展奠定了强化学习的基础。Richard Sutton(他是大名鼎鼎的强化学习奠基人) 和Christopher Watkins等人提出了自适应动态规划（Adaptive Dynamic Programming）和Q-learning等基本方法。

Richard Sutton

1990年代-2000年代

强化学习的研究进入了新的阶段。

Christopher Watkins提出了基于差分学习的Q-learning算法，这被认为是现代强化学习的重要里程碑。

Ronald J. Williams引入了基于梯度的强化学习算法，即策略梯度方法，这为后来的进一步发展奠定了基础。

这里是Ronald曾经发过的论文：（需要手动复制到浏览器查看）

https://www.ccs.neu.edu/home/rjw/pubs.html

2010年代

通过深度神经网络的引入，强化学习得到了重大的推动和突破。

Deep Q-Network (DQN) 是由DeepMind提出的一种结合深度神经网络和Q-learning的算法，首次实现了在Atari游戏中超越人类水平的表现。

Atari游戏

这一时期还涌现出许多重要的深度强化学习算法，如：

Deep Deterministic Policy Gradient (DDPG)
Proximal Policy Optimization (PPO)、
A3C (Asynchronous Advantage Actor-Critic)

2020年代至今

深度强化学习继续得到广泛关注和研究。研究者们致力于解决深度强化学习中的一些挑战，如样本效率、探索与利用的平衡、通用性和可解释性等问题。

在这一时期，强化学习也在现实世界中的应用领域取得了显著的进展，包括机器人控制、自动驾驶、资源管理、游戏智能等。

自动驾驶

总体而言，强化学习经历了从传统方法到深度学习方法的转变，并在理论和应用上取得了重大的突破。随着技术的不断发展和研究的深入，强化学习在解决复杂的决策问题和实现智能化系统方面将继续发挥重要的作用。

以上就是深度强化学习的发展历史总结。

你的点赞和转发，给我更新增加更大动力，感谢你的支持。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/553361.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

前沿重器[33] | 试了试简单的prompt

前沿重器[33] | 试了试简单的prompt

前沿重器栏目主要给大家分享各种大厂、顶会的论文和分享，从中抽取关键精华的部分和大家分享，和大家一起把握前沿技术。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。（算起来，专项启动已经…

阅读更多...

容器简单介绍

容器简单介绍

目录一、容器简介编辑二、容器和虚拟化技术差异三、容器基本概念四、容器技术对企业优势五、容器的工具一、容器简介 docker只是容器工具，真正容器技术是LXC （linux container） 二、容器和虚拟化技术差异虚拟机模式&#xff…

阅读更多...

微服务开发系列第二篇：Nacos

微服务开发系列第二篇：Nacos

总概 A、技术栈开发语言：Java 1.8数据库：MySQL、Redis、MongoDB、Elasticsearch微服务框架：Spring Cloud Alibaba微服务网关：Spring Cloud Gateway服务注册和配置中心：Nacos分布式事务：Seata链路追踪框架…

阅读更多...

【腾讯云 Finops Crane 集训营】云架构成本大，浪费支出太高？何不试试Crane

【腾讯云 Finops Crane 集训营】云架构成本大，浪费支出太高？何不试试Crane

一、前言近年来，很多公司随着业务的发展都开始采用云原生的架构方式来部署服务系统，以便满足系统的弹性需求。但随着业务的进一步增长，k8s的节点数不断的增加，每个月消耗的费用也随之增加，导致了资源的利用率并不平均…

阅读更多...

Python自动化办公对每个子文件夹的Excel表加个表头(Excel同名)

Python自动化办公对每个子文件夹的Excel表加个表头(Excel同名)

点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤玉容寂寞泪阑干，梨花一枝春带雨。大家好，我是皮皮。一、前言前几天在Python粉丝【彩】问了一个Python自动化办公处理的问题&…

阅读更多...

python整合合并两个excel文件，保留各自excel文件的样式，包含字体大小和字体颜色等格式

python整合合并两个excel文件，保留各自excel文件的样式，包含字体大小和字体颜色等格式

一、实现目标现有两个excel文件data1.xlsx和data2.xlsx，要求将这两个excel文件合并为一个excel文件，同时保留这两个excel文件各自带有的样式，包括字体、颜色等格式需要保留。 data1.xlsx: …

阅读更多...

装饰者设计模式解读

装饰者设计模式解读

问题引进星巴克咖啡订单项目（咖啡馆）： 1) 咖啡种类/单品咖啡：Espresso(意大利浓咖啡)、ShortBlack、LongBlack(美式咖啡)、Decaf(无因咖啡) 2) 调料：Milk、Soy(豆浆)、Chocolate 3) 要求在扩展新的咖啡种类时&#x…

阅读更多...

Redis主从集群搭建及其原理

Redis主从集群搭建及其原理

Redis主从集群搭建及其原理 1.Redis主从1.1.搭建主从架构1.2.准备实例和配置1.3.启动1.4.开启主从关系1.5.测试 2.主从数据同步原理2.1.全量同步2.2.增量同步2.3.repl_backlog原理 3.主从同步优化4.小结 1.Redis主从 1.1.搭建主从架构单节点Redis的并发能力是有上限的&#…

阅读更多...

车辆合格证怎么转为结构化excel数据？

车辆合格证怎么转为结构化excel数据？

一、为何要将车辆合格证转为结构化excel？ 车辆合格证是在车辆制造完成后，经过各项检测合格的证明。对于车辆行业来说，车辆合格证是一种重要的合规证明，在车辆的生产制造、售后服务、质量管理等各个环节中都有着重要的作用。同时&…

阅读更多...

【架构】常见技术点--监控告警

【架构】常见技术点--监控告警

导读：收集常见架构技术点，作为项目经理了解这些知识点以及解决具体场景是很有必要的。技术要服务业务，技术跟业务具体结合才能发挥技术的价值。目录 1. 服务监控 2. 全链路监控 2.1 服务拨测 2.2 节点探测 2.3 告警过滤 2.4 告警去重 …

阅读更多...

内网 monorepo 配置指南（PNPM、YARN、Rush.js）

内网 monorepo 配置指南（PNPM、YARN、Rush.js）

此处的内网是指没办法连接互联网进行依赖下载的环境，本文以windows平台为例背景说明绝大部分政府机关、国有企业都是在内网开发，无法从互联网同步依赖，就需要另辟蹊径解决项目依赖的问题。传统的单包项目还好，从互联网机器将…

阅读更多...

音视频技术开发周刊 | 294

音视频技术开发周刊 | 294

每周一期，纵览音视频技术领域的干货。新闻投稿：contributelivevideostack.com。五问「ChatGPT医学影像」：新一代的 AI 能否成为放射科医生的一把利器？ 在医学等专业性较强的领域内，ChatGPT的表现还不够好&#xff0c…

阅读更多...

Linux 防火墙 SNAT DNAT

Linux 防火墙 SNAT DNAT

SNAT原理与应用 SNAT 应用环境局域网主机共享单个公网IP地址接入Internet （私有IP地址不能在Internet中正常路由） SNAT原理修改数据包的源地址 SNAT可以认为是路由器NAT中的easy ip DNAT可以认为是路由器NAT中的 nat server SNAT将内网源地址转化为网…

阅读更多...

【Vue2.0源码学习】虚拟DOM篇-Vue中的DOM-Diff

【Vue2.0源码学习】虚拟DOM篇-Vue中的DOM-Diff

1. 前言在上一篇文章介绍VNode的时候我们说了，VNode最大的用途就是在数据变化前后生成真实DOM对应的虚拟DOM节点，然后就可以对比新旧两份VNode，找出差异所在，然后更新有差异的DOM节点，最终达到以最少操作真实DOM更新…

阅读更多...

FasterRCNN训练自己的数据集

FasterRCNN训练自己的数据集

2016年提出的Faster RCNN目标检测模型是深度学习现代目标检测算法的开山之作，也是第一个真正全流程都是神经网络的目标检测模型。其主要步骤如下： 1，使用CNN对输入图片提取feature map. 2，对feature map上的每个点设计一套不同大…

阅读更多...

Roboflow的使用

Roboflow的使用

文章目录前言一、使用labelimg标注数据集二、导入roboflow1.注册roboflow账户2.导入图片2.1 创建工作区workspace（非必须）2.2 创建项目 project2.3 导入 3、导出图片4、同一个数据集可以导出不同类型前言我自己也是一个小白不是很会，如果…

阅读更多...

ASO优化之怎么做好关键词本地化覆盖

ASO优化之怎么做好关键词本地化覆盖

如果想要我们的应用走向国际化，被多个国家/地区使用，那么做好关键词本地化覆盖至关重要。我们可以主要针对中文和英文进行设置（准备两套元数据），这样能够迅速增加应用商店ASO关键词覆盖数量。那么我们要在哪里设置&a…

阅读更多...

小白也能懂的薛斯通道抄底指标以及公式(附源码)

小白也能懂的薛斯通道抄底指标以及公式(附源码)

什么是薛斯通道？ 上个世纪70年代，美国人薛斯最早发明了薛斯通道。他本人曾是研究火箭运行的。薛斯通道包括两组通道指标，分别是长期大通道指标（100天）和短期小通道指标（10天）。股价实际上是被…

阅读更多...

Netflix 团队解决了 Linux 内核中的 FUSE 死锁

Netflix 团队解决了 Linux 内核中的 FUSE 死锁

Laf 公众号已接入了 AI 绘画工具 Midjourney，可以让你轻松画出很多“大师”级的作品。同时还接入了 AI 聊天机器人，支持 GPT、Claude 以及 Laf 专有模型，可通过指令来随意切换模型。欢迎前来调戏👇 <<< 左右滑动见更多 &…

阅读更多...

Go与神经网络：张量运算

Go与神经网络：张量运算

0. 背景 2023年年初，我们很可能是见证了一次新工业革命的起点，也可能是见证了AGI(Artificial general intelligence，通用人工智能)[1]孕育的开始。ChatGPT应用以及后续GPT-4大模型的出现，其震撼程度远超当年AlphaGo战胜人类顶尖围…

阅读更多...

推荐文章

最新文章