文章目录
- 要点
- 元模型和本地模型的关系
- lstm模型更新
- Q-learning
- 选择策略:ϵ-greedy
- 动作空间(𝑎𝑡𝑖−1∈{add,stay,minus}):
要点
The intelligent time slot selector is composed of a meta model on the server and a local model on each device.
论文中介绍了一种智能时隙选择器(Intelligent Time Slot Selector)的设计,该选择器在服务器和设备端分别有一个元模型(Meta Model)和本地模型(Local Model),用于优化设备何时请求新的全局模型并参与联邦学习中的聚合过程
。
我们利用基于长短期记忆(LSTM)的网络,对元模型使用完全连接层,对每个本地模型使用q -学习方法(Watkins and Dayan 1992)。
元模型和局部模型都会生成每个时隙的概率。我们利用ϵ-greedy策略(Xia and Zhao 2015)进行选择。
元模型和本地模型的关系
服务器上的元模型(Meta Model)和每个设备上的本地模型(Local Model)**共同决定设备何时请求全局模型更新。元模型最初为设备提供初始的时隙决策,然后本地模型根据设备自身的情况动态更新时隙。
lstm模型更新
θ t :表示第 𝑡次元模型更新后的参数。
η RL :学习率,用于控制强化学习训练过程的步长。
∑ L l=1 :对 L 个本地训练 epoch 求和,表示在每个 epoch 上累积的梯度贡献。
L:本地训练的最大 epoch 数(局部训练的轮次)。
σ𝑙:表示设备是否在第 𝑙轮次发送了模型请求(1 表示发送,0 表示未发送)。
R:奖励值,用于强化学习的反馈信号。奖励值定义为模型聚合前后的损失差异,用于衡量模型更新的效果。
b t:用于减少模型偏差的基线值。
P(σ𝑙∣σ𝑙-1:1;θ t−1):条件概率,表示在过去几次 epoch 决策的基础上,设备在第 𝑙次训练后选择发送请求的概率。
∇ θ t−1P(σ𝑙∣σ𝑙-1:1;θ t−1):这是一个梯度,表示模型对参数 θ t−1 的更新,它基于设备在第 𝑙次本地训练后是否发送请求(𝜎𝑙是一个决策变量,1 表示发送请求,0 表示不发送请求)。
Q-learning
Q学习是强化学习中的一种无模型的学习算法,旨在帮助智能体通过与环境的交互逐步学习最优的策略,以最大化长期回报。强化学习的基本目标是让智能体在给定状态下选择最优的动作,从而获得最大的累计奖励。
Q学习 是一个强化学习算法,用于根据设备的实际训练表现和奖励(例如聚合前后的损失差异)来学习和优化设备的时隙调整策略。
回报
是智能体在当前时刻之后的未来奖励总和。通常在回报中加入折扣因子
(discount factor, 𝛾),来表示未来奖励相对于当前奖励的重要性。
标准Q学习的公式
:表示在第 𝑡𝑖轮次中,设备 𝑖 的 Q 函数值 H 𝑡𝑖 𝑖 。反映了在第 𝑡𝑖−1 轮本地模型聚合中,当选择了动作 𝑎𝑡𝑖−1 时,设备的表现。Q 函数H 𝑖是决策 𝑎𝑡𝑖−1和奖励之间的映射
:是前一轮次(𝑡𝑖−1)的 Q 函数值。
ϕ:学习率,控制 Q 函数更新的步长
R:奖励值,表示模型聚合前后的损失差异。
ψ:折扣因子,用于调节未来奖励的影响。
在第 𝑡𝑖−1 轮次中,选择最优动作 𝑎 对应的最大 Q 值,用于引导 Q 函数的更新。
设备 𝑖在第 𝑡𝑖−1 轮次选择的本地训练 epoch 数,代表设备在本地训练了多少次后发送模型更新请求。
选择策略:ϵ-greedy
在选择设备何时发送模型更新请求时,算法采用了 ϵ-greedy 策略。这种策略结合了探索(exploration)和利用(exploitation):
𝜖 值:有一部分的概率𝜖 选择随机决策(探索新的可能性),其余时间选择目前最优的决策(利用已有的经验)。