# [0624] Task03 深度学习基础

news2024/7/4 5:11:09
  • joyrl P6

参考链接 :https://datawhalechina.github.io/joyrl-book/
——————
5、深度强化学习基础 ⭐️
开源内容:https://linklearner.com/learn/summary/11
——————————

高维度 复杂问题

深度学习 + 强化学习

根据环境的状态和动作 预测 状态值 和 动作值
根据 状态值 和 动作值 选择 动作

训练:基于 大量样本 对算法进行迭代更新

强化学习 序列决策
深度学习 打标签

线性问题: f θ ( x ) = θ T x f^\theta(\bm x)=\bm \theta^T\bm x fθ(x)=θTx

拟合

动量法: 考虑当前的梯度 和 之前的梯度。

  • 加快梯度下降的速度,减少梯度下降过程中的震荡。

Adam: 当前梯度 和 之前梯度的平方。

批量梯度下降
小批量梯度下降 √
随机梯度下降

线性回归 均方差损失
逻辑回归 交叉熵损失

全连接网络/多层感知机 (multi-layer perceptron,MLP)

神经网络 近似 动作值函数:
输入: 状态
输出: 动作值

连续动作, 汽车方向盘转动角度, tanh 激活函数
输出为 正, ReLU

基于线性模型的神经网络已经足够适用于大部分的强化学习问题。

卷积神经网络 CNN 网格结构 (图像、时间序列数据)
局部感受野、权重共享、池化层、归一化和 Dropout。

循环神经网络 RNN 序列数据
梯度消失、梯度爆炸
LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)

Transformer 序列数据。
自注意力。

逻辑回归
z = x T w + b z=x^Tw+b z=xTw+b
s i g m o i d ( z ) = 1 1 + exp ⁡ ( − z ) {\rm sigmoid}(z)=\frac{1}{1+\exp(-z)} sigmoid(z)=1+exp(z)1
  ~  
l l l 层神经网络:
第 1 层: x ( 1 ) = σ 1 ( W ( 1 ) x ( 0 ) + b ( 1 ) ) {\bm x}^{(1)}=\sigma_1(\bm W^{(1)}{\bm x}^{(0)}+{\bm b}^{(1)}) x(1)=σ1(W(1)x(0)+b(1))
第 2 层: x ( 2 ) = σ 2 ( W ( 2 ) x ( 1 ) + b ( 2 ) ) {\bm x}^{(2)}=\sigma_2(\bm W^{(2)}{\bm x}^{(1)}+{\bm b}^{(2)}) x(2)=σ2(W(2)x(1)+b(2))
⋮ \vdots
l l l 层: x ( l ) = σ l ( W ( l ) x ( l − 1 ) + b ( l ) ) {\bm x}^{(l)}=\sigma_l(\bm W^{(l)}{\bm x}^{(l-1)}+{\bm b}^{(l)}) x(l)=σl(W(l)x(l1)+b(l))

  • 其中 σ i \sigma_i σi 为 激活函数, 一般有 sigmoid, softmax,ReLU,tanh 等
  • 权重矩阵 W \bm W W, 偏置矩阵 b \bm b b

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1858796.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《好内容成就好商单—巨量星图内容洞察全量培训课件》

本报告详细阐述了如何通过优质内容挖掘商业机会,包括平台升级规划、内容营销新机、如何做好内容以及怎么选对达人等关键议题。报告中深入分析了抖音内容生态的繁荣,以及如何利用巨量星图平台进行内容洞察和达人选择,以实现高效种草和转化。报告还介绍了多种选人方式和热点洞察工…

《2024年战略管理趋势报告》

本报告由Quantive发布。 《2024年战略管理趋势报告》这份报告深刻剖析了企业在策略管理上的当前状态、面临的挑战以及未来发展的趋势。报告指出,大多数组织在迅速适应市场变化方面存在困难,并且许多企业未能实现其战略目标,显示出策略制定与执行之间存在脱节。报告中不仅强调了…

000005 - HDFS 读写流程

HDFS 读写流程 1 HDFS 写数据流程1.1 HDFS 写数据流程图1.2 HDFS 写数据之网络拓扑 - 节点距离计算1.3 机架感知(副本存储节点选择) 2 HDFS 读数据流程2.1 HDFS 读数据流程图 3 HDFS 如何做到机架感知 1 HDFS 写数据流程 1.1 HDFS 写数据流程图 &#x…

Latex学习之“usefont”用法

Latex学习之“\usefont”用法 一、通俗的解释 \usefont 是 LaTeX 中的一个命令,用于在文档中临时改变字体,其基本语法如下: \usefont{字体编码}{字体族}{字体系列}{字体形状}这样看起来好像蛮抽象,你可能以及晕了,什…

2024-6-24(沉默Netty,MongoDB)

1.Netty概念 Netty 是一个基于 JAVA NIO 类库的异步通信框架,它的架构特点是:异步非阻塞、基于事件驱动、高性能、高可靠性和高可定制性。 Dubbo,Kafka,ES等框架都是基于Netty开发的,可以把Netty理解为进行网络编程的…

一、Jquery入门(超详)

* [5.3 jQuery 对象和 DOM 对象之间的相互转换](about:blank#53_jQuery__DOM__271)* * [5.3.1 jQuery 对象转换为 DOM 对象](about:blank#531_jQuery__DOM__282)* [5.3.2 DOM 对象转换为 jQuery 对象](about:blank#532_DOM__jQuery__295)六、 解决 jQuery 和其他库的冲…

RT-Thread的Finsh实现学习

学习原因 工作中,使用同事开发的调试软件,输入参数打印的函数名就可以打印参数,但看不到代码实现,只能用自己微薄的知识积累去猜一下,之前尝试过,专门写一个函数,去解析编译生成的map文件&#…

【漏洞复现】脸爱云一脸通智慧管理平台 SystemMng 管理用户信息泄露漏洞(XVE-2024-9382)

0x01 产品简介 脸爱云一脸通智慧管理平台是一套功能强大,运行稳定,操作简单方便,用户界面美观,轻松统计数据的一脸通系统。无需安装,只需在后台配置即可在浏览器登录。 功能包括:系统管理中心、人员信息管理中心、设备…

【TensorRT】TensorRT C# API 项目更新 (2):优化安装方式和代码

1. 项目介绍 NVIDIA TensorRT™ 是一款用于高性能深度学习推理的 SDK,包括深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。基于 NVIDIA TensorRT 的应用程序在推理过程中的执行速度比纯 CPU 平台快 36 倍,使您能够优化在…

【MySQL】数据库——事务

一.事务概念 事务是一种机制、一个操作序列,包含了一组数据库操作命令,并且把所有的命令作为一个整体一起向系统提交或撤销操作请求,即这一组数据库命令要么都执行,要么都不执行事务是一个不可分割的工作逻辑单元,在数…

小白学python(第一天)

在有了C语言的基础后,我们学python会变得相当容易,毕竟c生万物,废话不多说,直接进入我们的正题 课前准备 Python环境的搭建以及Pycharm的安装 python环境安装 Download Python | Python.org 因为我的电脑是windows,…

Idea启动服务报 Command line is too long

一、背景 合不同分支代码后,启动服务报 Error running Application, Command line is too long, Shorten the command line via JAR manifest or via a classpath file and rerun. 没有在意,然后点击了manifest 来进行 二、问题 然后自己在重新启动&…

终于有人说清楚CIF术语了‼️

什么是CIF? CIF,全称Cost, Insurance, and Freight (成本、保险费加运费),是一种国际贸易术语,用于海运和内河运输。按照CIF条款,卖方的交货义务在装运港当货物越过船舷时完成,但卖方需承担将货物运至指定…

Hive基础知识(十八):Hive 函数的使用

1. 系统内置函数 1)查看系统自带的函数 hive (hive3)> show functions; Time taken: 0.085 seconds, Fetched: 289 row(s) 2)显示自带的函数的用法 hive (hive3)> desc function upper; OK tab_name upper(str)- Returns str with all characters…

this.$prompt 提示框增加文本域并修改文本域高度

2024.06.24今天我学习了如何对提示框增加文本域的方法&#xff0c;效果如下&#xff1a; 代码如下&#xff1a; <script>methods:{reject_event(){this.$prompt(驳回内容, 提示, {confirmButtonText: 确定,cancelButtonText: 取消,inputType: textarea,inputPlaceholder…

手工微调embedding模型,让RAG应用检索能力更强

BAAI/bge-small-en 目前HuggingFace的MTEB(海量文本Embedding基准)排行榜上排名第一的Embedding模型是big-large-en&#xff0c;它由北京人工智能研究院(BAAI&#xff0c;智源)开发。它是一种预训练的transformer模型&#xff0c;可用于各种自然语言处理任务&#xff0c;如文本…

Elasticsearch 索引与文档操作实践指南

上节我们部署了elasticsearch8.4.1和kibana8.4.1以及ik分词器&#xff0c;本节我们来学习下elasticsearch的相关索引&#xff0c;文档操作。 首先我们kinana的主界面找到开发者工具在里面我们来编写相关操作。 标题查看集群情况 GET /_cluster/health详细解释&#xff1a; …

一切前端概念,都是纸老虎

4、listener可以通过 store.getState() 得到当前状态。如果使用的是 React&#xff0c;这时可以触发重新渲染 View。 function listerner() { let newState store.getState(); component.setState(newState); } 对比 Flux 和 Flux 比较一下&#xff1a;Flux 中 Store 是…

机器人控制系列教程之串联机器人工作空间

简介 在机器人学领域&#xff0c;对机器人工作空间的精确分析是实现高效、安全操作的关键。工作空间是指机器人末端执行器在不与环境或其他物体发生碰撞的情况下能够到达的所有位置的集合。为了求解这一空间&#xff0c;研究者们发展了多种方法&#xff0c;包括作图法、蒙特卡…

【因果推断python】53_效应异质性和非线性带来的挑战1

目录 Treatment Effects on Binary Outcomes 合成一些数据 由于缺乏基本事实&#xff0c;在单位层面预测治疗效果极为困难。因为我们只能观察到一个潜在结果 T(t) &#xff0c;我们无法直接估计它。相反&#xff0c;我们必须依靠目标变换&#xff08;也可以看作是设计巧妙的损…