【RL】强化学习理论基础介绍

news2024/10/6 3:05:05

文章目录

    • 背景
    • 理论基础
      • 价值函数
    • 核心强化学习算法
      • 深度 Q-网络
      • Dueling 网络结构
      • 策略梯度
      • Actor-Critic 算法
    • 总结

英文版

背景

强化学习(Reinforcement Learning, RL)是机器学习中一个强大且快速发展的分支,受行为心理学的启发。它主要研究智能体如何在环境中采取行动,以最大化某种累积奖励的概念。与监督学习不同,监督学习中的学习智能体是给定输入-输出对,而强化学习则强调通过交互进行学习。

理论基础

强化学习(RL)问题旨在通过与环境 E \mathcal{E} E 的交互,在多个离散时间步中实现学习以达到某个目标。在每个时间步 t t t,智能体接收环境状态空间 S \mathcal{S} S 中的一个状态 s t {s}_{t} st,并根据策略 π ( a t ∣ s t ) \pi({a}_{t}|{s}_{t}) π(atst) 选择一个动作 a t ∈ A ( s t ) a_t \in \mathcal {A}(s_t) atA(st),其中 A ( s t ) \mathcal{A}(s_t) A(st) 是状态 s t s_t st 下可用动作的集合。策略表示为条件概率 π ( a ∣ s ) \pi(a|s) π(as),即当前状态为 s s s 时智能体采取动作 a a a 的概率。这是从状态和动作到采取某动作概率的映射。之后,智能体会收到一个标量奖励 r t {r}_{t} rt 并将转移存储在智能体的记忆中作为经验。这一过程持续进行,直到智能体达到终止状态。智能体的目标是学习一个策略 π ∗ { \pi }^{ \ast } π,使期望折扣回报 R t = ∑ k = 0 ∞ γ k r t + k { R }_{ t }=\sum _{ k=0 }^{ \infty }{ { \gamma }^{ k }{ r }_{ t+k } } Rt=k=0γkrt+k 最大化,其中折扣因子 γ ∈ ( 0 , 1 ] \gamma \in (0,1] γ(0,1] 用于权衡即时奖励和未来奖励的重要性。

满足马尔可夫性质的强化学习任务可以描述为马尔可夫决策过程(MDPs),其定义为一个五元组 ( S , A , P , R , γ ) (\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R},\gamma) (S,A,P,R,γ),其中 R \mathcal{R} R 是奖励函数 R ( s , a ) \mathcal{R}(s,a) R(s,a) P \mathcal{P} P 是状态转移概率 P ( s t + 1 ∣ s t , a t ) \mathcal{P}({s}_{t+1}|{s}_{t},{a}_{t}) P(st+1st,at)。马尔可夫性质表明,在给定当前状态的情况下,未来状态与过去状态条件独立。因此,在强化学习任务中,决策和价值被假定为仅是当前状态的函数。马尔可夫性质可以定义为 p ( s t + 1 ∣ s 1 , a 1 , . . . , s t , a t ) = p ( s t + 1 ∣ s t , a t ) p({ s }_{ t+1 }|{ s }_{ 1 },{ a }_{ 1 },...,{ s }_{ t },{ a }_{ t }) = p({ s }_{ t+1 }|{ s }_{ t },{ a }_{ t }) p(st+1s1,a1,...,st,at)=p(st+1st,at),这意味着在给定当前状态的情况下,未来状态与过去状态条件独立。满足马尔可夫性质的强化学习任务可以描述为马尔可夫决策过程,其定义为五元组 ( S , A , P , R , γ ) (\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R},\gamma) (S,A,P,R,γ),其中 R \mathcal{R} R 是奖励函数 R ( s , a ) \mathcal{R}(s,a) R(s,a) P \mathcal{P} P 是状态转移概率 P ( s t + 1 ∣ s t , a t ) \mathcal{P}({s}_{t+1}|{s}_{t},{a}_{t}) P(st+1st,at)。在一个情节任务中,每个情节长度结束后状态会重置,一个情节中的状态、动作和奖励序列构成了策略的轨迹或展开。

价值函数

价值函数是强化学习系统的核心组件,它构建了一个函数逼近器,用于估计任一状态的长期奖励。它估计智能体处于给定状态(或在给定状态下采取给定动作)时的好坏程度(预期回报)。通过这种方式,函数逼近器利用状态空间的结构来有效地学习观察到的状态的价值,并推广到类似的、未见过的状态的价值。一个典型的价值函数形式可以定义为:

V π ( s ) = E [ R ∣ s , π ] = E [ ∑ k = 0 ∞ γ k r t + k ∣ s , π ] { V }^{ \pi }(s)=\mathbb{ E }[R|s,\pi ]= \mathbb{E}[\sum _{ k=0 }^{ \infty }{ { \gamma }^{ k }{ r }_{ t+k } }|s,\pi] Vπ(s)=E[Rs,π]=E[k=0γkrt+ks,π]

通常我们将 V π ( s ) { V }^{ \pi }(s) Vπ(s) 称为状态价值函数,它衡量在状态 s s s 开始并遵循策略 π \pi π 时的预期折扣回报。当动作遵循最优策略 π ∗ {\pi}^{\ast} π 时,状态价值函数可以达到最优:

V ∗ ( s ) = max ⁡ π V π ( s ) ∀ s ∈ S { V }^{ \ast }(s)=\max _{ \pi }{ { V }^{ \pi }(s) } \quad \forall s\in \mathcal{ S } V(s)=πmaxVπ(s)sS

除了衡量状态的价值之外,还有一个用于衡量动作选择质量的指标,称为状态-动作价值或质量函数 Q π ( s , a ) {Q}^{\pi}(s,a) Qπ(s,a)。它定义了在给定状态 s s s 下选择动作 a a a 并随后遵循策略 π \pi π 的价值。

Q π ( s , a ) = E [ R ∣ s , a , π ] = E [ ∑ k = 0 ∞ γ k r t + k ∣ s , a , π ] { Q }^{ \pi }(s,a)=\mathbb{ E }[R|s,a,\pi ]= \mathbb{E}[\sum _{ k=0 }^{ \infty }{ { \gamma }^{ k }{ r }_{ t+k } }|s,a,\pi] Qπ(s,a)=E[Rs,a,π]=E[k=0γkrt+ks,a,π]

状态-动作价值与状态价值 V π V^{\pi} Vπ 类似,不同之处在于提供了初始动作 a a a,并且策略 π \pi π 仅从随后的状态开始执行。最优状态-动作价值函数表示为:

Q ∗ ( s , a ) = max ⁡ π Q π ( s , a ) ∀ s ∈ S , ∀ a ∈ A { Q }^{ \ast }(s,a)=\max _{ \pi }{ { Q }^{ \pi }(s,a) } \quad \forall s\in \mathcal{ S } , \forall a\in \mathcal{ A } Q(s,a)=πmaxQπ(s,a)sS,aA

Q ∗ ( s , a ) { Q }^{ \ast }(s,a) Q(s,a) 给出了状态 s s s 和动作 a a a 的最大状态-动作价值,这是任何策略可以达到的值。

这个动作价值函数满足递归性质,这是强化学习设置中价值函数的一个基本属性,它表达了状态值与其后继状态之间的关系:

Q π ( s , a ) = E s ′ [ r + γ E a ′ ∼ π ( s ′ ) [ Q ∗ ( s ′ , a ′ ) ] ∣ s , a , π ] {Q}^{\pi}(s,a)=\mathbb{E}_{{s}^{\prime}}[r+\gamma\mathbb{E}_{{a}^{\prime}\sim{\pi}({s}^{\prime})}[{Q}^{\ast}({s}^{\prime},{a}^{\prime})]|s,a,\pi] Qπ(s,a)=Es[r+γEaπ(s)[Q(s,a)]s,a,π]

与生成绝对状态-动作值 Q π Q^{\pi} Qπ 不同,优势函数表示相对状态-动作值,衡量动作是否比策略的默认行为更好或更差。通常,学习某个动作产生更高奖励比学习采取特定动作的实际回报更容易。优势函数通过以下简单关系表达动作的相对优势:

A π ( s , a ) = Q π ( s , a ) − V π ( s ) { A }^{ \pi }(s,a)={ Q }^{ \pi }(s,a)-{ V }^{ \pi }(s) Aπ(s,a)=Qπ(s,a)Vπ(s)

许多成功的基于值的强化学习算法依赖于优势更新的思想。

核心强化学习算法

深度 Q-网络

深度强化学习(DRL)应用深度神经网络来表示强化学习方法中的价值函数。DRL算法在多个挑战性任务领域取得了超人类表现,这归功于深度学习强大的函数逼近和表示学习能力。DQN算法在Atari系列游戏中通过像素输入达到了人类水平的表现。它使用神经网络 Q ( s , a ; θ ) Q(s,a;\theta) Q(s,a;θ) 参数化质量函数 Q Q Q,从而逼近 Q Q Q 值。DQN算法的两个主要技术,即使用目标网络和经验回放,可以稳定和有效地学习价值函数。在每次迭代中,网络的参数更新通过最小化以下损失函数来实现:

L i ( θ i ) = E s , a , r , s ′ [ ( y i D Q N − Q ( s , a ; θ i ) ) 2 ] {L}_{i}({\theta}_{i})=\mathbb{E}_{s,a,r,{s}^{\prime}}[({y}_{i}^{DQN}-Q(s,a;{\theta}_{i}))^{2}] Li(θi)=Es,a,r,s[(yiDQNQ(s,a;θi))2]

其中

y i D Q N = r + γ m a x a ′ Q ( s ′ , a ′ ; θ − ) {y}_{i}^{DQN}=r+\gamma \underset {{a}^{\prime}}{max}Q({s}^{\prime},{a}^{\prime};{\theta}^{-}) yiDQN=r+γamaxQ(s,a;θ)

在其中, θ − {\theta}^{-} θ 是目标网络的参数。第一稳定方法是固定目标网络的参数,而不是基于其自身快速波动的 Q Q Q值估计来计算TD误差。第二个方法是经验回放,它使用缓冲区存储一定大小的转换 ( s t , a t , s t + 1 , r t + 1 ) ({s}_{t},{a}_{t},{s}_{t+1},{r}_{t+1}) (st,at,st+1,rt+1),可以进行离策略训练,并增强数据采样的效率。

在DQN算法引发这一领域之后,价值基础的强化学习设置经历了一系列改进。为了减少DQN中被高估的 Q Q Q值,van Hasselt等人提出了双重DQN算法。Wang等人提出了一种对抗Q网络架构,用于分别估计状态值函数 V ( s ) V(s) V(s)和相关的优势函数 A ( s , a ) A(s,a) A(s,a)。Tamar等人提出了一种价值迭代网络,能有效地学习规划,并在许多强化学习任务中实现更好的泛化。Schaul等人开发了建立在双重DQN之上的PER方法,它使经验回放过程比统一重播所有转换更加高效和有效。

Dueling 网络结构

与标准的单序列 Q Q Q网络设计不同,对抗网络结构包括两个序列(流)的网络(A网络和V网络),分别学习动作优势函数和状态值函数。这种构造将价值函数和优势函数解耦,并结合这两个流来产生状态-动作值函数的估计,使用特殊的聚合模块。这两个流共享一个公共的特征提取层(或较低层)。深度 Q Q Q网络专注于估计每个状态-动作对的价值。然而,对抗网络的想法是分别估计与动作无关的状态函数和依赖于动作的优势函数,因为在强化学习环境中,并非所有状态都与特定动作相关,有许多状态是与动作无关的,在这些状态下,智能体不需要改变动作来适应新的状态。因此,估计这些状态-动作对的值是无意义且低效的。对抗网络首次由Wang等人提出,通过这一改变,训练效率比单一流 Q Q Q网络大大提高。根据Wang的工作,对抗网络在离散动作空间任务中取得了新的技术成果。简而言之,对抗网络生成的 Q Q Q值对性能提升比深度 Q Q Q网络在强化学习任务中更有优势。

策略梯度

上述方法间接地通过估计值函数学习策略 π ( s ) \pi(s) π(s)。这些基于值的方法在处理离散动作领域的问题时非常有效。然而,当处理具有连续动作空间的问题,如物理控制任务时,基于值的方法不能直接应用,并且很难确保结果的收敛性,因为它依赖于每个动作的 Q Q Q值。将基于值的算法(如DQN)应用于连续域的一个显而易见的方法是将动作空间离散化为若干固定动作。然而,这种方法有许多缺点和局限性,如可能丢失关于动作域结构的重要信息。

在基于策略的方法中不存在这种担忧,因为策略网络直接输出智能体的动作,而无需估计动作值函数。它们直接参数化控制策略 π ( a ∣ s ; θ ) \pi(a|s;\theta) π(as;θ) 并更新参数 θ \theta θ 来优化累积奖励,因此,基于策略的方法比基于值的方法更适用于连续控制问题,如机器人控制任务。

策略梯度(PG)是一种吸引人的基于策略的算法,它优化参数化策略 π θ ( a ∣ s ) = P [ a ∣ s ; θ ] {\pi}_{\theta}(a|s)=\mathbb{P}[a|s;\theta] πθ(as)=P[as;θ],按照策略参数的期望累积奖励梯度 ∇ θ J ( π θ ) {\nabla}_{\theta}J({\pi}_{\theta}) θJ(πθ) 进行优化。策略梯度方法在高维或连续动作空间中非常有效,并且可以学习到随机策略。在强化学习任务中,智能体的目标是找到最大化目标函数 J ( π ) J(\pi) J(π) 的参数 θ \theta θ。一个典型的性能目标是平均奖励函数: J ( π ) = E [ R ∣ π θ ] J(\pi)=\mathbb{E}[R|{\pi}_{\theta}] J(π)=E[Rπθ]。策略梯度定理提供了关于策略 π \pi π 参数 θ \theta θ 的梯度:

∇ θ J ( π θ ) = ∫ S ρ π ∫ A ∇ θ π θ ( a ∣ s ) Q π ( s , a ) d a d s = E s ∼ ρ π , a ∼ π θ [ ∇ θ l o g π θ ( a ∣ s ) Q π ( s , a ) ] {\nabla}_{\theta}J({\pi}_{\theta})=\int _{\mathcal{S}}^{ }{{\rho}^{\pi} }\int_{\mathcal{A}}^{ }{{\nabla}_{\theta}}{\pi}_{\theta}(a|s){Q}^{ \pi}(s,a)dads \\ \quad\quad\quad\quad=\mathbb{E}_{s\sim{\rho}^{\pi},a\sim {\pi}^{\theta}}[{\nabla}_{\theta} log{\pi}^{\theta}(a|s){Q}^{\pi}(s,a)] θJ(πθ)=SρπAθπθ(as)Qπ(s,a)dads=Esρπ,aπθ[θlogπθ(as)Qπ(s,a)]

其中, ρ π ( s ) {\rho}^{\pi}(s) ρπ(s) 是状态分布。未知部分 Q π ( s , a ) {Q}^{\pi}(s,a) Qπ(s,a) 通常通过使用实际回报 R t = ∑ k = 0 ∞ γ k r t + k { R }_{ t }=\sum _{ k=0 }^{ \infty }{ { \gamma }^{ k }{ r }_{ t+k } } Rt=k=0γkrt+k 作为每个 Q π ( s t , a t ) {Q}^{\pi}(s_t,a_t) Qπ(st,at) 的近似来估计。基于这个定理,Silver等人提出了确定性策略梯度(DPG)算法用于梯度估计,它比通常的随机策略梯度方法更有效。O’Donoghue等人提到了一种结合PGQL的新技术,并讨论了在强化学习环境中实现这一技术的实际方法。

Actor-Critic 算法

常规的策略梯度方法由于梯度估计的方差较大,通常表现出收敛缓慢的特点。演员-评论家方法通过引入评论家网络来估计当前策略的值,试图通过这种方式减少方差,并利用这些估计值来更新演员策略参数,以提升性能。

动作选择策略称为演员 π θ : S → A {\pi}_{\theta}:\mathcal{S}\rightarrow \mathcal{A} πθ:SA,它在不需要对值函数进行优化的情况下做出决策,将状态表示映射到动作选择概率上。值函数称为评论家 Q ϕ π : S × A → R {Q}_{\phi}^{\pi}: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R} Qϕπ:S×AR,它估计预期回报以减少方差并加速学习,将状态映射到预期的累积未来奖励上。

演员和评论家是两个独立的网络,共享相同的观察。在每个步骤中,演员网络选择的动作也是评论家网络的输入因子。在策略改进过程中,评论家网络通过DQN估计当前策略的状态-动作值,然后演员网络根据这些估计值更新其策略以改进 Q Q Q值。相比于以前的纯策略梯度方法,使用评论家网络来评估当前策略更有助于收敛和稳定性。状态-动作值评估越好,学习性能的方差就越低。在评论家网络中进行更好的策略评估是重要且有帮助的。

基于策略梯度的演员-评论家算法在许多现实应用中非常有用,因为它们可以使用低方差的梯度估计来寻找最优策略。Lillicrap等人提出了DDPG算法,将演员-评论家方法与DQN的见解结合起来,解决了模拟物理任务,并广泛应用于许多机器人控制任务。该算法使用两个神经网络:演员网络学习确定性策略,评论家网络逼近当前策略的Q函数。

总结

强化学习(RL)代表了机器学习领域的一个强大范式,灵感来自行为心理学,使得智能体能够在复杂环境中做出决策,以最大化累积奖励。作为马尔可夫决策过程(MDP)形式化,RL任务涉及状态、动作、奖励和转移概率。例如,深度 Q 网络(DQN)等算法利用深度神经网络高效逼近 Q 值,从而在离散动作空间中促进决策制定。

基于价值的RL方法,例如DQN,通过估计状态-动作值来优化策略。演员-评论家方法改进了传统的策略梯度方法,引入评论家网络来估计值函数,从而减少方差并增强学习稳定性。这些进展通过像深度确定性策略梯度(DDPG)这样的算法扩展到连续动作空间,结合了确定性策略和 Q 函数逼近。

策略梯度方法直接基于预期奖励的梯度估计优化策略,在连续动作空间中表现出色。对于提高训练效率的一个重要贡献是 dueling 网络结构,它分离了状态值和优势函数,重视依赖于动作的优势。

总体而言,强化学习通过价值估计、策略优化以及在机器人学和游戏玩法等多样领域的应用中的创新不断发展。神经网络架构和学习算法的进步持续推动着强化学习研究和应用的进步。近年来的趋势包括将 RL 适应连续动作空间,与自然语言处理和计算机视觉等领域融合,提高采样效率和训练稳定性。未来的方向包括通过跨学科合作提升 RL 在解决现实挑战中的适用性,并解决部署中的伦理考量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1904032.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pycharm远程连接和conda环境参考博客自用整理

pycharm远程连接 pycharm的连接需要先用xftp把项目上传上去(包括venv),似乎才能连 https://blog.csdn.net/weixin_41174300/article/details/134420981 注意要上传一份一模一样的,然后在deployment里面添加mapping 注意传输文件…

【C语言】操作符--百科全书

目录 一、操作符的分类 二、 ⼆进制和进制转换 三、 原码、反码、补码 四、 移位操作符 五、位操作符:&、|、^、~ 六、单⽬操作符 七、逗号表达式 八、 下标访问[]、函数调⽤() 九、结构体 十、操作符的属性:优先级、结合性 十一、表达式…

P1392 取数

传送门&#xff1a;取数 如若你看完题解后&#xff0c;仍有问题&#xff0c;欢迎评论 首先说一下 我首先想到的思路 &#xff08; 20%通过率 &#xff09;&#xff1a;通过dfs , 将所有的情况放入priority_queue中&#xff08;greater<int>&#xff09;&#xff0c;维持…

【ARMv8/v9 GIC 系列 1.7 -- GIC PPI | SPI | SGI | LPI 中断使能配置介绍】

文章目录 GIC 各种中断使能配置PPIs(每个处理器私有中断)SPIs(共享外设中断)SGIs(软件生成的中断)LPIs(局部中断)GIC 各种中断使能配置 在ARM GICv3和GICv4架构中,不同类型的中断(如PPIs、SPIs、SGIs和LPIs)可以通过不同的方式进行启用和禁用。 下面详细介绍这些中…

java项目总结6

目录 1.双列集合 2.map的三种遍历方式&#xff1a; 1.键找值 2.键值对 3.lambda遍历map 3.HashMap 例子&#xff1a;统计字符出现次数 4.LinkedHashMap 5.TreeMap 6.可变参数 7.Collections: 1.双列集合 双列集合特点&#xff1a; 定义Map<String&#xff0c;St…

【Python】已解决:(paddleocr导包报错)ModuleNotFoundError: No module named ‘paddle’

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决&#xff1a;&#xff08;paddleocr导包报错&#xff09;ModuleNotFoundError: No module named ‘paddle’ 一、分析问题背景 近日&#xff0c;一些使用PaddleOCR库进行文字…

移动校园(3):处理全校课程数据excel文档,实现空闲教室查询与课程表查询

首先打开教学平台 然后导出为excel文档 import mathimport pandas as pd import pymssql serverName 127.0.0.1 userName sa passWord 123456 databaseuniSchool conn pymssql.connect(serverserverName,useruserName,passwordpassWord,databasedatabase) cursor conn.cur…

vue3项目 前端blocked:mixed-content问题解决方案

一、问题分析 blocked:mixed-content其实浏览器不允许在https页面里嵌入http的请求&#xff0c;现在高版本的浏览器为了用户体验&#xff0c;都不会弹窗报错&#xff0c;只会在控制台上打印一条错误信息。一般出现这个问题就是在https协议里嵌入了http请求&#xff0c;解决方法…

拉曼光谱入门:3.拉曼光谱的特征参数与定量定性分析策略

1.特征参数 1.1 退偏振率 退偏振率&#xff08;p&#xff09;是一个衡量拉曼散射光偏振状态的参数&#xff0c;它描述了拉曼散射光的偏振方向与入射光偏振方向之间的关系。退偏振率定义为垂直偏振方向的拉曼散射强度与平行偏振方向的拉曼散射强度之比。退偏振率&#xff08;p&…

逆变器学习笔记(二)

用正点原子示波器看交流220V波形的时候&#xff0c;一定注意先把探头调到X10档位&#xff01;&#xff01;!!!!!!!!!!!!!!!!!!!!!!!!!!! 全桥LLC电路&#xff1a; 1.电感的两种模式——DCM和CCM的区别&#xff1a; DCM&#xff08;Discontinuous Conduction Mode&#xff0c;…

【数据结构】05.双向链表

一、双向链表的结构 注意&#xff1a;这里的“带头”跟前面我们说的“头节点”是两个概念&#xff0c;带头链表里的头节点&#xff0c;实际为“哨兵位”&#xff0c;哨兵位节点不存储任何有效元素&#xff0c;只是站在这里“放哨的”。 “哨兵位”存在的意义&#xff1a;遍历循…

Go语言如何入门,有哪些书推荐?

Go 语言之所以如此受欢迎&#xff0c;其编译器功不可没。Go 语言的发展也得益于其编译速度够快。 对开发者来说&#xff0c;更快的编译速度意味着更短的反馈周期。大型的 Go 应用程序总是能在几秒钟之 内完成编译。而当使用 go run编译和执行小型的 Go 应用程序时&#xff0c;其…

Facebook数据仓库的变迁与启示

❃博主首页 &#xff1a; <码到三十五> ☠博主专栏 &#xff1a; <mysql高手> <elasticsearch高手> <源码解读> <java核心> <面试攻关> ♝博主的话 &#xff1a; <搬的每块砖&#xff0c;皆为峰峦之基&#xff1b;公众号搜索(码到…

昇思学习打卡-10-ShuffleNet图像分类

文章目录 网络介绍网络结构部分实现对应网络结构 模型训练shuffleNet的优缺点总结优点不足 网络介绍 ShuffleNet主要应用在移动端&#xff0c;所以模型的设计目标就是利用有限的计算资源来达到最好的模型精度。ShuffleNetV1的设计核心是引入了两种操作&#xff1a;Pointwise G…

20、matlab信号波形生成:狄利克雷函数、高斯脉冲和高斯脉冲序列

1、名词说明 狄利克雷函数&#xff08;Dirac Delta Function&#xff09; 狄利克雷函数&#xff0c;也称为单位冲激函数或δ函数&#xff0c;是一个在数学和信号处理中常用的特殊函数。狄利克雷函数通常用符号δ(t)表示&#xff0c;其定义为&#xff1a; δ(t) { ∞, t 0{…

美股交易相关知识点 持续完善中

美股交易时间 美东时间&#xff1a;除了凌晨 03:50 ~ 04:00 这10分钟时间不可交易以外&#xff0c;其他时间都是可以交易的。 如果是在香港或者北京时间下交易要区分两种: 美东夏令时&#xff1a;除了下午 15:50 ~ 16:00 这10分钟时间不可交易以外&#xff0c;其他时间都是可…

springboot公寓租赁系统-计算机毕业设计源码03822

摘要 1 绪论 1.1 研究背景与意义 1.2选题背景 1.3论文结构与章节安排 2 公寓租赁系统系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分析 2.4 系…

GRPC使用之ProtoBuf

1. 入门指导 1. 基本定义 Protocol Buffers提供一种跨语言的结构化数据的序列化能力&#xff0c;类似于JSON&#xff0c;不过更小、更快&#xff0c;除此以外它还能用用接口定义(IDL interface define language)&#xff0c;通protoc编译Protocol Buffer定义文件&#xff0c;…

拆分Transformer注意力,韩国团队让大模型解码提速20倍|大模型AI应用开始小规模稳步爆发|周伯文:大模型也有幻觉,全球AI创新指数公布

拆分Transformer注意力&#xff0c;韩国团队让大模型解码提速20倍AI正在颠覆AI上市不到两年&#xff0c;蜗牛游戏可能要退市了&#xff1f;世界人工智能大会结束了&#xff0c;百花齐放&#xff0c;但也群魔乱舞“串联OLED”被苹果带火了&#xff0c;比OLED强在哪里&#xff1f…

赚钱小思路,送给没有背景的辛辛苦苦努力的我们!

我是一个没有背景的普通人&#xff0c;主要靠勤奋和一股钻劲&#xff0c;这十几年来我的日常作息铁打不变&#xff0c;除了睡觉&#xff0c;不是在搞钱&#xff0c;就是在琢磨怎么搞钱。 ​ 可以说打拼了十几年&#xff0c;各种小生意都做过&#xff0c;以前一直是很乐观的&…