零基础强化学习入门分享

news2024/12/28 20:08:23

(一)前言:强化学习入门顺序

        以前主要学习硬件PCB单片机等知识,后来接触的项目也大多与电气相关,从一窍不通到稍微找到点门道,中间走过不少弯路,误打误撞中,也留下了一些经验。

        我的学习顺序:在后面给出评价

(1)学习神经网络

途径:某站的编程培训机构的白嫖课程,通俗易懂,小白能看得进去。

内容:卷积概念,实现原理,激活函数,全连接;bp,cnn,bnn稍微了解一下

(2)深度学习

途径:某站的吴恩达深度学习全套视频,讲的更严谨当然也更加抽象一些,不过是真的好。

内容:梯度下降,激活函数,前向传播和反向传播,局部最优解决方法等,多了解。

这个是深度学习CNN图片特征提取过程

(3)强化学习

途径:某站的李宏毅或王树森的强化学习视频

内容:基本常识,蒙特卡洛,马尔可夫链,SARSA算法,TD算法,DQN算法等基础。

(4)python编程

 途径:莫烦python课程,可以用python在线编辑器先学着。

内容:python的基本语法,调用numpy库等,反正跟着课程走。莫烦的强化学习编程课(我没看)

 

(5)安装强化学习编程环境

途径:某站或者CSDN上就有很多教程,也可某宝直接带下安装,省事。、

内容:pycharm安装,anaconda安装,gym,numpy等常见库,记得学习这个软件怎么用。

 6)找强化学习代码

 途径:不必多说,应该都很多的,不过最恐怖的是,好多代码是不能直接拿来用或者需要代码给的不全,根本就跑不起来,所以在这里需要头疼一下,多费点心思。

 内容:用DQN等算法跑起来的python程序,提醒一下,是要基于pytorch的而不是tensorflow的,前者好像更友好一点,后者我也没接触过。找到代码之后,主要看懂代码复现代码,这个很重要。看不懂代码就跳回去再找理论视频看,弄懂算法原理。

(二)学习感触:

       1.建议先学python,下载强化学习代码调试,再去看视频学习理论知识。因为我看强化学习和深度学习的时间有点早,导致下载代码看代码有困难,忘记算法的原理,又回去回炉重造。

       2.做强化学习(RL)或者深度强化学习(DRL)对于硬件都是有较高要求的。入门阶段可以用普通配置的笔记本电脑跑代码,若想真想投身这个领域,显卡GPU,CPU,运存之类的硬件配置一定要跟上,这时候如果课题组有前期基础,就太棒了。我的代码开始比较晚,一方面是没有完整时间,另一方面是硬件配置跟不上(自己后来更换电脑了)。

       3.看SCI二区及以上的论文,国内论文你稍微多看几篇就明白了,不必多说。一开始我是边看论文边看视频学理论知识,后来发现没啥用,因为没有跑代码,就很容易忘记。如果现在回过头来,我想说,应该先搞定强化学习入门之后,再去看论文,这样才能看明白,别人讲的啥,创新点在哪里,为什么优秀。而不是盲目从众去杠论文,因为,你没有理论基础+实操基础是真看不懂,顶多是认识了一下汉字而已,汉字背后的意思你又可能蒙蔽了。

       4.一定一定要静下心来,学习的东西比较杂比较多,不静下心来,真的很容易崩溃。

       5.可以通过写博客的方式激励自己持续学习,我也是到此刻突然明白自己为啥学起来很苦闷了。将所学的知识输出,这就是最快掌握的方式。

       在后续文章中就不讲解最最基础的知识了,因为这些最最基础的知识可以通过看视频快速学到,用文字表述反而慢半拍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/831685.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【音视频处理】转封装实战,文件转直播流,FFmpeg代码示例讲解

大家好,欢迎来到停止重构的频道。 从本期起,我们正式进入音视频处理的介绍。 本期我们讨论音视频文件转封装,如将MP4转AVI、MP4转RTMP等。 内容中所提及的代码都会放在GitHub,感兴趣的小伙伴可以到GitHub下载。 我们按这样的顺…

数据科学与大数据专业好就业么

好不好就业取决于你个人的学习能力和技术水平能否达到企业应聘的要求,最直观的方法就是可以搜下你想要工作城市的应聘要求,然后对应着技术点进行技能提升 猎聘大数据研究院发布了《2022未来人才就业趋势报告》 从排名来看,2022年1-4月各行业…

最强实战,Web自动化测试Python+Selenium3+PO+Yaml+DDT框架封装(详细)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 设计思路 框架采…

23款奔驰C260 L更换内饰最全发光套件,提升车内氛围感

原厂1:1设计,免编程匹配,无损安装,可升级项目: 1、碳纤维中控氛围灯(阿凡达水滴款) 2、发光前风口; 3、发光后风口; 4、发光座椅背气氛灯; 5、中音发光盖板 6、主动…

LGViT : Dynamic Early Exiting for Accelerating Vision

摘要 近年来,在资源有限的边缘设备上高效部署和加速功能强大的视觉变压器(ViTs)已成为一个很有吸引力的任务。虽然早期退出是加速推理的一个可行的解决方案,但大多数工作都集中在自然语言处理(NLP)中的卷积…

1.Kubernetes

文章目录 KubernetesK8S概述作用为什么使用K8S主要功能Kubernetes 集群架构与组件总结: 核心组件Master组件Kube-apiserverKube-controller-managerKube-scheduler工作 配置存储中心etcd Node组件KubeletKube-Proxydocker 或 containerd 总结: 工作流程K…

【电源专题】电压查表法显示电量的原理与缺点

在文章:【电源专题】电量计估计电池荷电状态方法(开路电压法及库仑计法)的差别中我们讲到电量计估计荷电状态的方法。其中开路电压法实现方法较容易,可借着开路电压对应荷电状态查表而得到。 那么为什么能够使用电压查表法去预估电池容量呢?如下所示如果我们往一个有刻度…

SpringBoot复习:(16)TomcatStarter

直接在idea里运行SpringBoot程序时,内嵌的tomcat容器会调用TomcatStarter这个类的onStartup方法。TomcatStarter继承自ServletContainerInitializer 其onStartup方法会调用ServletContextInitializer(不是ServletContainerInitializer)的onStartup方法.…

你玩过Java实现的猜数字小游戏嘛?Let‘s Go

你玩过Java实现的猜数字小游戏嘛?Lets Go 分析过程代码实现小结Time 分析过程 首先:猜数字得有个数字先是吧,随机数获取用的是Math.random()函数 math.random()函数:是取[0,1)之间的随机数 math.random()*100:表示[0,1…

利用鸿鹄快速构建公司IT设备管理方案

需求描述 相信应该有一部分朋友跟我们一样,公司内部有很多各种各样的系统,比如资产管理、CRM、issue管理等等。这篇文章介绍下,鸿鹄是如何让我们的资产系统,按照我们的需求展示数据的。 我们的资产管理系统,是使用开源…

JVM问题

1. jvm运行时区域划分及每个区域的作用 堆、方法区(元空间)、虚拟机栈、本地方法栈、程序计数器 2. 堆内存分配策略:新生代,老年代,gc时机 • 对象优先分配在Eden区,如果Eden区没有足够的空间进行分配时&am…

消息疯狂堆积!RocketMQ出Bug了?

前言 用过 MQ 的同学,可能会遇到过消息堆积的问题。而肥壕最近也踩上了这个坑,但是发现结果竟然是这么一个意料之外的原因而导致的。 正文 那一晚月黑风高,肥壕正准备踏上回家的路,突然收到告警短信轰炸!“MQ 消息堆…

Redis的基础

一、进入redis 内部 / 关闭 # 方式一: // 进入redis redis-cli // 有密码输入密码 :auth [username] password auth 123456 # 方式二: // 进入redis 并且输入密码 redis-cli -a 123456// 如果在docker 里面的则可以 docker exec -it redis…

【腾讯云 Cloud Studio 实战训练营】云上编程永不宕机,彻底释放电脑物理内存

文章目录 前言一、快速上手1、账号注册2、新建工作空间3、配置工作空间参数4、工作空间展示5、运行飞机大战代码6、运行五子棋代码7、运行贪吃蛇代码 二、空间模板三、应用推荐1、点击 Fork2、等待工作空间启动3、安装 Dependencies4、运行 App 四、注意事项1、openai api key …

【云原生】深入掌握k8s中Pod和生命周期

个人主页:征服bug-CSDN博客 kubernetes专栏:kubernetes_征服bug的博客-CSDN博客 目录 1 什么是 Pod 2 Pod 基本操作 3 Pod 运行多个容器 4 Pod 的 Labels(标签) 5 Pod 的生命周期 1 什么是 Pod 摘取官网: Pod | Kubernetes 1.1 简介 Pod 是可以在 …

基于dockerfile构建sshd、httpd、nginx、tomcat、mysql、lnmp、redis镜像

一、镜像概述 Docker 镜像是Docker容器技术中的核心,也是应用打包构建发布的标准格式。一个完整的镜像可以支撑多个容器的运行,在Docker的整个使用过程中,进入一个已经定型的容器之后,就可以在容器中进行操作,最常见的…

Android四大组件之服务

为什么要使用服务呢? 从上面的文字说,我们知道这个服务是用于执行长期后台运行的操作。有些时候,我们没有界面,但是程序仍然需要工作。比如说,我们播放音乐,在后台播放音乐。比如说,我们下载任…

SLAM精度测评——EVO进阶再进阶

分别观察单个坐标轴差异 1.1 观察x轴差异 evo_ape tum truth.txt pose.txt -r trans_part -va --plot --plot_mode xz

鲁大师7月新机性能/流畅/久用榜:骁龙8 Gen2领先版亮相,性能跑分再破新高

摘要:iQOO 11S突破上限,红魔8S Pro再创新高 继五月六月,搭载天玑9200的机型相继迎来上市之后,高通也终于按耐不住。 本月所有上市的新机均搭载高通骁龙系列芯片,其中骁龙8 Gen2领先版迎来首次亮相,除了主打…

落地数字化管理,提升企业市场竞争力

数字化企业管理方案是一种利用数字技术和信息系统来提升企业管理效率和运营效果的策略。 潜在的数字化企业管理方案 1、企业资源规划(ERP)系统:建立一个集成的ERP系统来统一管理企业的各项业务流程,包括采购、销售、库存管理、财…