【强化学习】强化学习数学基础:贝尔曼公式

news2024/11/18 19:35:56

强化学习数学基础:贝尔曼公式

  • 强化学习的数学原理课程总览
  • 贝尔曼公式(Bellman Equation)
    • 一个示例
    • 状态值
    • 贝尔曼公式:推导过程
    • 贝尔曼公式:矩阵-向量形式(Matrix-vector form)
    • 贝尔曼公式:求解状态值
    • 动作值(Action value)
    • 总结
  • 参考资料

强化学习的数学原理课程总览

强化学习数学基础总览图

贝尔曼公式(Bellman Equation)

  • 一个核心的概念:状态值(state value
  • 一个基础工具:the Bellman equation

一个示例

**为什么return是重要的?**首先我们根据一个轨迹(trajectory)获得rewards的(discounted)sum。如下所示:
trajectory
根据上图所示,有两个问题:

  • 问题1:从s1点出发,哪种policy是“best”?,哪一个是“worst”?
    直观上看,第一个是最优的,第二个是最差的,这是因为第二个经过了forbidden area。

  • 问题2:是否可以用数学公式描述这样一种直观感觉?
    可以,使用return来评估policies。

基于策略1(左边图),从s1开始,the discounted return计算如下:
r e t u r n 1 = 0 + γ 1 + γ 2 1 + . . . = γ ( 1 + γ + γ 2 + . . . ) = γ 1 − γ return_1=0+\gamma 1+\gamma ^21+...=\gamma (1+\gamma +\gamma ^2+...)=\frac{\gamma }{1-\gamma } return1=0+γ1+γ21+...=γ(1+γ+γ2+...)=1γγ
基于策略2(中间图),从s1开始,the discounted return是:
r e t u r n 2 = − 1 + γ 1 + γ 2 1 + . . . = − 1 + γ ( 1 + γ + γ 2 + . . . ) = − 1 + γ 1 − γ return_2=-1+\gamma 1+\gamma ^21+...=-1+\gamma (1+\gamma +\gamma ^2+...)=-1+\frac{\gamma }{1-\gamma } return2=1+γ1+γ21+...=1+γ(1+γ+γ2+...)=1+1γγ
策略3是随机性的,基于第三个策略(右边图),从s1出发,discounted return是:
r e t u r n 3 = 0.5 ( − 1 + γ 1 − γ ) + 0.5 ( γ 1 − γ ) = − 0.5 + γ 1 − γ return_3=0.5(-1+\frac{\gamma }{1-\gamma } )+0.5(\frac{\gamma }{1-\gamma } )=-0.5+\frac{\gamma }{1-\gamma } return3=0.5(1+1γγ)+0.5(1γγ)=0.5+1γγ

基于上面的计算可知,从s1出发, r e t u r n 1 > r e t u r n 3 > r e t u r n 2 return_1>return_3>return_2 return1>return3>return2。因此从结果上看,这是符合之前的直觉的。所以,通过计算return可以评估一个policy的优劣

那么如何计算return?刚才是用return的定义,现在用一个更好的方法来计算它。以如下图为例:
示例

  • 方法1:由定义计算,令 v i v_i vi表示从 s i ( i = 1 , 2 , 3 , 4 ) s_i(i=1,2,3,4) si(i=1,2,3,4)出发得到的return
    by definition
  • 方法2:先看下面式子
    迭代式子
    从上面式子中可以得出结论:return依赖于其他状态,这个思想称为Boostrapping

如何求解这些等式?我们可以将上面的公式写成一个矩阵向量的形式:
矩阵向量形式
可以写为:
v = r + γ P v \mathrm{v}=\mathrm{r}+\gamma \mathrm{Pv} v=r+γPv
这个公式就是一个贝尔曼公式(Bellman equation)(对于这样一个具体的确定性问题):

  • 尽管简单,但是它证明一个关键思想:一个状态的值依赖于其他状态的值
  • 一个矩阵-向量形式可以更加清晰地知道如何求解状态值。

状态值

首先,定义几个概念。考虑这样一个单步(single-step)的过程:
单步过程
其中:

  • t , t + 1 t, t+1 t,t+1:离散时间
  • S t S_t St:在时刻 t t t的状态
  • A t A_t At:在状态 S t S_t St采取的动作
  • R t + 1 R_{t+1} Rt+1:采取动作 A t A_t At之后得到的奖励
  • S t + 1 S_{t+1} St+1:采取动作 A t A_t At之后转移到的状态

注意: S t , A t , R t + 1 S_t, A_t, R_{t+1} St,At,Rt+1都是随机变量(random variables)。

根据下面的概率分布决定后续的步骤:
条件概率
在某一时刻,我们假设我们知道这个模型,即概率分布。

将上面的单步过程推广到一个多步的trajectory上,可以得到:
multi-step
则discounted return计算如下:
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . . . . G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...... Gt=Rt+1+γRt+2+γ2Rt+3+......

  • γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ[0,1)是一个折扣率
  • G t G_t Gt是一个随机变量,因为 R t + 1 , R t + 2 , . . . R_{t+1},R_{t+2},... Rt+1Rt+2...是随机变量。

定义state value: G t G_t Gt被的期望(或者称为期望值或均值)被定义为state-value function或者简单地称为state value:
v π ( s ) = E [ G t ∣ S t = s ] v_\pi(s)=\mathbb{E}[G_t|S_t=s] vπ(s)=E[GtSt=s]
注意:

  • 它是一个关于s的函数。从不同的s出发,得到的期望也是不同的
  • 它是基于策略 π \pi π的,对于不同的策略,state value也可能不同
  • 它表示一个状态的“价值”。如果state value比较大,那么这个策略比较好。

问题:return和state value之间有什么关联?
答:state value是从一个state出发得到的所有可能的return的平均值。如果所有—— π ( a ∣ s ) , p ( r ∣ s , a ) , p ( s ′ ∣ s , a ) \pi(a|s),p(r|s,a), p(s'|s, a) π(as)p(rs,a),p(ss,a)——是确定行的,则state value与return是相同的。

示例:下面三个图分别对应三个策略: π 1 , π 2 , π 3 \pi_1,\pi_2,\pi_3 π1,π2,π3
示例
计算从 s 1 s_1 s1开始得到的returns:return

贝尔曼公式:推导过程

用一句话来说,贝尔曼公式用于描述所有不同状态值之间的关系。
考虑一个随机的trajectory:
trajectory
return G t G_t Gt可以被写为:
Gt
然后,根据state value的定义,用数学形式化:
v(s)
这样就可到了两个部分。然后我们分别计算这两个部分:
首先,计算第一项 E [ R t + 1 ∣ S t = s ] \mathbb{E}[R_{t+1}|S_t=s] E[Rt+1St=s]
E [ R t + 1 ∣ S t = s ] = ∑ a π ( a ∣ s ) E [ R t + 1 ∣ S t = s , A t = a ] = ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r \mathbb{E}[R_{t+1}|S_t=s]=\sum _a \pi (a|s)\mathbb{E}[R_{t+1}|S_t=s, A_t=a]=\sum _a\pi (a|s)\sum _rp(r|s,a)r E[Rt+1St=s]=aπ(as)E[Rt+1St=s,At=a]=aπ(as)rp(rs,a)r
注意:这是得到的一个immediate rewards的均值。
再看第二项 E [ G t + 1 ∣ S t = s ] \mathbb{E}[G_{t+1}|S_t=s] E[Gt+1St=s]
第二项
注意:

  • 第二项是future reward的均值
  • E [ G t + 1 ∣ S t = s , S t + 1 = s ′ ] = E [ G t + 1 ∣ S t + 1 = s ′ ] \mathbb{E}[G_{t+1}|S_t=s, S_{t+1}=s']=\mathrm{E}[G_{t+1}|S_{t+1}=s'] E[Gt+1St=s,St+1=s]=E[Gt+1St+1=s]是由于Markov的无记忆功能,即不需要计算状态s的值。

现在,我们有如下公式:
贝尔曼公式
注意:

  • 上面的公式成为Bellman equation, 其描述了不同状态的state-value functions之间的关系;
  • 它包含两个部分:the immediate reward termthe future reward term,即当前奖励和未来奖励
  • 它是一个等式的集合:所有的state都有这样一个类似的等式
  • v π ( s ) v_\pi(s) vπ(s) v π ( s ′ ) v_\pi(s') vπ(s)是需要被计算的state value,计算方法就是Bootstrapping。
  • π ( a ∣ s ) \pi(a|s) π(as)是一个给定的策略policy,求解这个等式就被称为策略评估(policy evaluation)
  • p ( r ∣ s , a ) p(r|s,a) p(rs,a) p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a)表示动态模型(dynamic model),分为两种情况,即知道和不知道

网格
根据上面网格,再次将Bellman公式根据最终的一般形式写出来:
v π ( s ) = ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] v_\pi(s)=\sum _a\pi(a|s)[\sum _rp(r|s,a)r+\gamma \sum _{s'}p(s'|s,a)v_\pi(s')] vπ(s)=aπ(as)[rp(rs,a)r+γsp(ss,a)vπ(s)]
这里非常简单,因为策略是确定性的。
首先,考虑 s 1 s_1 s1的state value:
s1出发
这时候将上述公式的结果提交到贝尔曼公式里边,得到:
v π ( s 1 ) = 0 + γ v π ( s 3 ) v_\pi(s_1)=0+\gamma v_\pi(s_3) vπ(s1)=0+γvπ(s3)
类似地,我们有如下公式:
v π ( s 1 ) = 0 + γ v π ( s 3 ) v_\pi(s_1)=0+\gamma v_\pi(s_3) vπ(s1)=0+γvπ(s3) v π ( s 2 ) = 1 + γ v π ( s 4 ) v_\pi(s_2)=1+\gamma v_\pi(s_4) vπ(s2)=1+γvπ(s4) v π ( s 3 ) = 1 + γ v π ( s 4 ) v_\pi(s_3)=1+\gamma v_\pi(s_4) vπ(s3)=1+γvπ(s4) v π ( s 4 ) = 1 + γ v π ( s 4 ) v_\pi(s_4)=1+\gamma v_\pi(s_4) vπ(s4)=1+γvπ(s4)
求解上面等式,通过从最后一个到第一个,逐步求解,得到:
v π ( s 4 ) = 1 1 − γ v_\pi(s_4)=\frac{1}{1-\gamma } vπ(s4)=1γ1 v π ( s 3 ) = 1 1 − γ v_\pi(s_3)=\frac{1}{1-\gamma } vπ(s3)=1γ1 v π ( s 2 ) = 1 1 − γ v_\pi(s_2)=\frac{1}{1-\gamma } vπ(s2)=1γ1 v π ( s 1 ) = γ 1 − γ v_\pi(s_1)=\frac{\gamma}{1-\gamma } vπ(s1)=1γγ
假设 γ = 0.9 \gamma=0.9 γ=0.9,带入上面等式中,得到:
v π ( s 4 ) = 10 v_\pi(s_4)=10 vπ(s4)=10 v π ( s 3 ) = 10 v_\pi(s_3)=10 vπ(s3)=10 v π ( s 2 ) = 10 v_\pi(s_2)=10 vπ(s2)=10 v π ( s 1 ) = 9 v_\pi(s_1)=9 vπ(s1)=9
当我们计算完成state value之后呢?需要计算action value和改善policy。

练习如下示例:
不确定性网格
给出一般化的贝尔曼公式:
v π ( s ) = ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] v_\pi(s)=\sum _a\pi(a|s)[\sum _rp(r|s,a)r+\gamma \sum _{s'}p(s'|s,a)v_\pi(s')] vπ(s)=aπ(as)[rp(rs,a)r+γsp(ss,a)vπ(s)]
现在,对于每个state,写出对应的贝尔曼等式,根据上面的贝尔曼公式求解state value,最后比较不同的policy。
对于第一个问题,每个状态的贝尔曼等式如下:
贝尔曼等式
从后往前计算每个state value,有:
state value
然后,将 γ = 0.9 \gamma=0.9 γ=0.9带入上面式子中,得到:
状态值
比较不同的策略,这个策略是比较差的,没有之前的策略好。

贝尔曼公式:矩阵-向量形式(Matrix-vector form)

首先考虑如何求解Bellman公式,
贝尔曼公式
一种unknown依赖于另一种unknown。上面的elementwise form对于每个state s ∈ S s\in S sS都是适用的,这意味着将有 ∣ S ∣ |S| S个类似的公式,如果将这些公式放在一块,将得到一个线性方程组,将它们写为matrix-vector form,这种矩阵-向量形式是优雅而重要(elegant and important)。

Bellman公式的Matrix-vector形式求解如下:
步骤1
假设states可以索引为 s i ( i = 1 , . . . , n ) s_i(i=1,...,n) si(i=1,...,n)。对于状态 s i s_i si,Bellman公式是:
Bellman
将所有states的这样等式放在一起,用矩阵向量的形式写为:
v π = r π + γ P π v π v_\pi=r_\pi+\gamma P_\pi v_\pi vπ=rπ+γPπvπ
其中:
matrix-vector
示例如下,假设有4个状态,上面公式可以写为:
矩阵向量展开
进一步地,以网格为例:
网格实例
可以写为如下形式:
等式
再看一个随机性的网格示例,如下:
随机性的示例
有如下结果:
随机性的例子

贝尔曼公式:求解状态值

为什么要求解state values?

  • 给定一个策略policy,找到对应的state values的过程被称为policy evaluation。这是一个强化学习的基础问题,即找出更好的策略。
  • 这对于理解如何求解Bellman公式很重要

如下是Bellman公式的matrix-vector form: v π = r π + γ P π v π v_\pi=r_\pi+\gamma P_\pi v_\pi vπ=rπ+γPπvπ
其解析表达式(closed-form solution)是 v π = ( I − γ P π ) − 1 r π v_\pi=(I-\gamma P_\pi)^{-1}r_\pi vπ=(IγPπ)1rπ,实际上,我们仍然需要使用数值工具计算矩阵的逆。
因此,在实际中,我们使用迭代算法去求解(iterative solution): v k + 1 = r π + γ P π v k v_{k+1}=r_\pi +\gamma P_\pi v_k vk+1=rπ+γPπvk,这样的算法将得到一个序列 { v 0 , v 1 , v 2 , . . . } \{v_0,v_1,v_2,...\} {v0,v1,v2,...},如下:
迭代算法
当k趋近于无穷的时候,则 v k v_k vk就趋近于 v π v_\pi vπ。证明如下:
证明
示例: r b o u n d a r y = r f o r b i d d e n = − 1 , r t a r g e t = + 1 , γ = 0.9 r_{boundary}=r_{forbidden}=-1,r_{target}=+1, \gamma=0.9 rboundary=rforbidden=1,rtarget=+1,γ=0.9,下面是两个”bad“策略和状态值。the state value不如好的policies。
一个示例

动作值(Action value)

state value和action value的区别:

  • State value: 智能体starting from a state得到的平均return
  • Action value:智能体starting from a state并taking an action得到的平均return

通过action value,可以得到哪个action是更好的。

Action value的定义: q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] q_\pi(s,a)=\mathbb{E}[G_t|S_t=s, A_t=a] qπ(s,a)=E[GtSt=s,At=a],其中 q π ( s , a ) q_\pi(s,a) qπ(s,a)是state-action pair ( s , a ) (s,a) (s,a)的函数, q π ( s , a ) q_\pi(s,a) qπ(s,a)依赖于 π \pi π
于是,基于条件期望的性质,可以有:
条件期望
因此,可以将上面式子写为:
v π ( s ) = ∑ a π ( a ∣ s ) q π ( s , a ) v_\pi (s)=\sum_a\pi(a|s)q_\pi(s,a) vπ(s)=aπ(as)qπ(s,a)
回顾之前的state value公式:
state value
可以得到action-value函数如下:
action-value
示例:
网格示例
针对 s 1 s_1 s1写出action value: q π ( s 1 , a 2 ) = − 1 + γ v π ( s 2 ) q_\pi (s_1, a_2)=-1+\gamma v_\pi (s_2) qπ(s1,a2)=1+γvπ(s2)
除了采取a2动作之外,还可以采取a1, a3, a4动作,那么它们的action value是多少呢?
action value
总的来说

  • Action value是非常重要的,因为我们关注哪一种action会被采用;
  • 我们可以首先计算所有的state value,然后计算action value;
  • can also directly calculate the action values with or without models.

总结

关键概念:

  • State value: v π ( s ) = E [ G t ∣ S t = s ] v_\pi (s)=\mathbb{E}[G_t|S_t=s] vπ(s)=E[GtSt=s]

  • Action value: q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] q_\pi (s,a)=\mathbb{E}[G_t|S_t=s, A_t=a] qπ(s,a)=E[GtSt=s,At=a]

  • 贝尔曼公式(elementwise form):
    贝尔曼公式

  • 贝尔曼公式(matrix-vector form): v π = r π + γ P π v π v_\pi=r_\pi+\gamma P_\pi v_\pi vπ=rπ+γPπvπ

  • 如何求解贝尔曼公式:解析法(closed-form solution),迭代法(iterative solution)

参考资料

[1] 《强化学习的数学原理》赵世钰教授 西湖大学工学院
[2] 《动手学强化学习》 俞勇著

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/370331.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(四)应变度量

本文主要内容包括:1. Hill 应变度量 与 Seth 应变度量2. Hill -Seth 应变度量的 Lagrange 描述2.1. Green-Lagrange 应变张量2.2. 物质 Biot 应变张量/工程应变2.3. 右 Henkey 应变张量/Lagrange 型对数应变2.4. Piola 应变张量3. Hill -Seth 应变度量的 Euler 描述…

Tesla都使用什么编程语言?

作者 | 初光 出品 | 车端 备注 | 转载请阅读文中版权声明 知圈 | 进“汽车电子与AutoSAR开发”群,请加微“cloud2sunshine” 总目录链接>> AutoSAR入门和实战系列总目录 带着对更美好未来的愿景,特斯拉不仅成为有史以来最有价值的汽车公司&…

乐友商城学习笔记(五)

什么是Nginx Nginx是一个高性能的web和反向代理服务器 作为web服务器作为负载均衡服务器作为邮件代理服务 树组件的用法 跨域问题 跨域:浏览器对javastript的同源策略的限制。 以下情况都属于跨域: 域名不同域名相同,端口不同二级域名不…

Python每日一练(20230225)

目录 1. 整数反转 2. 求最大公约数和最小公倍数 最大公约数 最小公倍数 3. 单词搜索 II 附录: DFS 深度优先搜索算法 BFS 广度优先搜索算法 BFS 和 DFS 的区别 1. 整数反转 给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果。…

大型旋转设备滑动轴承X、Y测点振动值说明(转载的)

滑动轴承支撑的大型旋转设备,绝大部分的故障都表现为不平衡引起的1倍频振动,诊断故障原因要根据振动随转速、负荷、温度、时间的变化情况来具体判断。滑动轴承设备的诊断主要依据电涡流传感器测量轴和轴瓦间的相对振动,判断转子相关的各种问题…

基于SpringBoot的共享汽车管理系统

文末获取源码 开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7/8.0 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven包:Maven3.3.9 浏…

Orin安装ssh、vnc教程

文章目录一:ssh远程终端的配置PC的配置MobaXterm的下载二:VNC Viewer远程图形界面终端配置:PC配置:一:ssh远程 终端的配置 1.ifconfig查看终端ip地址 其中的eth是网口,我们需要看的是wlan0下的inet&#…

5M1270ZT144A5N CPLD 980MC 6.2NS 144TQFP /5M1270ZT144C5N

【产品介绍】MAX V系列低成本和低功耗CPLD提供更大的密度和每占地面积的I/O。MAX V器件的密度从40到2210个逻辑元件(32到1700个等效宏单元)和多达271个I/O,为I/O扩展、总线和协议桥接、电源监控和控制、FPGA配置和模拟IC接口等应用提供可编程解决方案。MAX V器件具有…

MYSQL 索引失效的十个场景(二)

六、对索引列运算(如,、-、*、/、%等),索引失效 CREATE TABLE student (id bigint(20) NOT NULL AUTO_INCREMENT,name varchar(50) COLLATE utf8mb4_unicode_ci DEFAULT NULL,score decimal(10,2) DEFAULT NULL,subject varchar(…

【华为OD机试模拟题】用 C++ 实现 - 绘图机器(2023.Q1)

最近更新的博客 华为OD机试 - 入栈出栈(C++) | 附带编码思路 【2023】 华为OD机试 - 箱子之形摆放(C++) | 附带编码思路 【2023】 华为OD机试 - 简易内存池 2(C++) | 附带编码思路 【2023】 华为OD机试 - 第 N 个排列(C++) | 附带编码思路 【2023】 华为OD机试 - 考古…

【Leedcode】环形链表必备的面试题和证明题(附图解)

环形链表必备的面试题和证明题(附图解) 文章目录环形链表必备的面试题和证明题(附图解)前言一、第一题1.题目2.思路3.代码4.延伸问题(1)证明题一:(2)证明题二:二、第二题1.题目2.思路延伸的证明题总结前言 …

【网络原理8】HTTP请求篇

在上一篇文章当中,我们也提到了什么是HTTP。 每一个HTTP请求,都会对应一个HTTP响应。 下面这一篇文章,将聊一下HTTP请求的一些内容 目录 一、URL 第一部分:协议名称 第二部分:认证信息(新的版本已经没有了) 第三部分&#xf…

这款 Python 调试神器推荐收藏

大家好,对于每个程序开发者来说,调试几乎是必备技能。 代码写到一半卡住了,不知道这个函数执行完的返回结果是怎样的?调试一下看看 代码运行到一半报错了,什么情况?怎么跟预期的不一样?调试一…

【教学类-10-03】python单线程下载哔哩哔哩网址(中间字母不同,前面后面相同)的视频

背景需求:最近测试以前的多线程(同时下载5个视频),结果30个视频只下到了3个,于是把“单个下载(单线程下载)”的一个代码进行拓展研究。前一篇介绍了网址尾数递增的遍历程序,本篇介绍…

【华为OD机试模拟题】用 C++ 实现 - 最大报酬(2023.Q1)

最近更新的博客 华为OD机试 - 入栈出栈(C++) | 附带编码思路 【2023】 华为OD机试 - 箱子之形摆放(C++) | 附带编码思路 【2023】 华为OD机试 - 简易内存池 2(C++) | 附带编码思路 【2023】 华为OD机试 - 第 N 个排列(C++) | 附带编码思路 【2023】 华为OD机试 - 考古…

数据结构与算法之[把数字翻译成字符串]动态规划

前言:最近在刷动态规划的算法题目,感觉这一类题目还是有一点难度的,但是不放弃也还是能学好的,今天给大家分享的是牛客网中的编程题目[把数字翻译成字符串],这是一道经典的面试题目,快手,字节跳…

CleanMyMac是什么清理软件?及使用教程

你知道CleanMyMac是什么吗?它的字面意思为“清理我的Mac”,作为软件,那就是一款Mac清理工具,Mac OS X 系统下知名系统清理软件,是数以万计的Mac用户的选择。它可以流畅地与系统性能相结合,只需简单的步骤就…

【机器学习 | 强基计划】开山篇 | 机器学习介绍及其类别和概念阐述

🤵‍♂️ 个人主页: @计算机魔术师 👨‍💻 作者简介:CSDN内容合伙人,全栈领域优质创作者。 机器学习 | 强基计划系列 (一) 作者: 计算机魔术师 版本: 1.0 ( 2022.2.25) 注释:文章会不定时更新补充 文章目录 前言一、机器学习概览1.1 有监督学习和无监督学习1.1.…

Day20【元宇宙的实践构想06】—— 元宇宙与Web3.0

💃🏼 本人简介:男 👶🏼 年龄:18 🤞 作者:那就叫我亮亮叭 📕 专栏:元宇宙 部分资料参考文献: 成生辉教授的《元宇宙:概念、技术及生态》和百度相关…

【数通网络交换基础梳理1】二层交换机、以太网帧、MAC地址数据帧转发原理详解

一、网络模型 万年不变,先从模型结构分析,现在大家熟知的网络模型有两种。第一种是,OSI七层模型,第二种是TCP/IP模型。在实际运用中,参考更多的是TCP/IP模型。 OSI七层模型 TCP/IP模型 不需要全部理解,…