【DAY20240926】智能时隙选择器

news2024/9/28 1:41:56

文章目录

  • 要点
    • 元模型和本地模型的关系
    • lstm模型更新
    • Q-learning
    • 选择策略:ϵ-greedy
    • 动作空间(𝑎𝑡𝑖−1∈{add,stay,minus}):


要点

The intelligent time slot selector is composed of a meta model on the server and a local model on each device.
论文中介绍了一种智能时隙选择器(Intelligent Time Slot Selector)的设计,该选择器在服务器和设备端分别有一个元模型(Meta Model)和本地模型(Local Model),用于优化设备何时请求新的全局模型并参与联邦学习中的聚合过程

我们利用基于长短期记忆(LSTM)的网络,对元模型使用完全连接层,对每个本地模型使用q -学习方法(Watkins and Dayan 1992)。

元模型和局部模型都会生成每个时隙的概率。我们利用ϵ-greedy策略(Xia and Zhao 2015)进行选择


元模型和本地模型的关系

服务器上的元模型(Meta Model)和每个设备上的本地模型(Local Model)**共同决定设备何时请求全局模型更新。元模型最初为设备提供初始的时隙决策,然后本地模型根据设备自身的情况动态更新时隙。


lstm模型更新

在这里插入图片描述
θ t​ :表示第 𝑡次元模型更新后的参数。
η RL​ :学习率,用于控制强化学习训练过程的步长。
∑ L l=1 :对 L 个本地训练 epoch 求和,表示在每个 epoch 上累积的梯度贡献
L:本地训练的最大 epoch 数(局部训练的轮次)。
σ𝑙:表示设备是否在第 𝑙轮次发送了模型请求(1 表示发送,0 表示未发送)。
R:奖励值,用于强化学习的反馈信号。奖励值定义为模型聚合前后的损失差异,用于衡量模型更新的效果
b t:用于减少模型偏差的基线值
P(σ𝑙∣σ𝑙-1:1;θ t−1):条件概率,表示在过去几次 epoch 决策的基础上,设备在第 𝑙次训练后选择发送请求的概率。
∇ θ t−1P(σ𝑙∣σ𝑙-1:1;θ t−1):这是一个梯度,表示模型对参数 θ t−1 的更新,它基于设备在第 𝑙次本地训练后是否发送请求(𝜎𝑙是一个决策变量,1 表示发送请求,0 表示不发送请求)。


Q-learning

Q学习是强化学习中的一种无模型的学习算法,旨在帮助智能体通过与环境的交互逐步学习最优的策略,以最大化长期回报。强化学习的基本目标是让智能体在给定状态下选择最优的动作,从而获得最大的累计奖励

Q学习 是一个强化学习算法,用于根据设备的实际训练表现和奖励(例如聚合前后的损失差异)来学习和优化设备的时隙调整策略

回报是智能体在当前时刻之后未来奖励总和。通常在回报中加入折扣因子(discount factor, 𝛾),来表示未来奖励相对于当前奖励的重要性
标准Q学习的公式
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述在这里插入图片描述
:表示在第 𝑡𝑖轮次中,设备 𝑖Q 函数值 H 𝑡𝑖 𝑖 。反映了在第 𝑡𝑖−1 轮本地模型聚合中,当选择了动作 𝑎𝑡𝑖−1 时,设备的表现。Q 函数H 𝑖是决策 𝑎𝑡𝑖−1和奖励之间的映射

在这里插入图片描述
:是前一轮次(𝑡𝑖−1)的 Q 函数值。

ϕ:学习率,控制 Q 函数更新的步长
R:奖励值,表示模型聚合前后的损失差异。
ψ:折扣因子,用于调节未来奖励的影响

在这里插入图片描述
在第 𝑡𝑖−1 轮次中,选择最优动作 𝑎 对应的最大 Q 值,用于引导 Q 函数的更新。

在这里插入图片描述
设备 𝑖在第 𝑡𝑖−1 轮次选择的本地训练 epoch 数,代表设备在本地训练了多少次后发送模型更新请求。


选择策略:ϵ-greedy

在选择设备何时发送模型更新请求时,算法采用了 ϵ-greedy 策略。这种策略结合了探索(exploration)和利用(exploitation):
𝜖 值:有一部分的概率𝜖 选择随机决策(探索新的可能性),其余时间选择目前最优的决策(利用已有的经验)。


动作空间(𝑎𝑡𝑖−1∈{add,stay,minus}):

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2168493.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

提升并行效率的Python多处理模块指南

在Python中,multiprocessing 模块提供了强大的多进程支持,能够帮助我们充分利用多核CPU资源来实现并行计算。相比传统的多线程模式,Python的多进程模式更加高效,因为它可以避免Python的全局解释器锁(GIL)对…

一个超强大的Python数据探索工具

在数据分析的过程中,快速掌握数据集的基本特征是必不可少的一步。虽然 Pandas 提供了方便的 df.describe() 方法来生成数据摘要,但随着数据类型和分析需求的多样化,这一方法的局限性逐渐显现。Skimpy 作为一个新兴的 Python 包,旨…

基于mybatis-plus创建springboot,添加增删改查功能,使用postman来测试接口出现的常见错误

1 当你在使用postman检测 添加和更新功能时,报了一个500错误 查看idea发现是: Data truncation: Out of range value for column id at row 1 通过翻译:数据截断:表单第1行的“id”列出现范围外值。一般情况下,出现这个…

什么是Agent智能体?

你好,我是三桥君 近期,从各大厂商的年度大会到多个大型AI峰会,三桥君明显感受到行业风气的转变。这些会议不仅展示了众多AI Agent的实际应用案例,还有专家们对未来发展的预测。一时间,“Agent”这个词成为了热门词汇&…

Linux(含麒麟操作系统)如何实现多显示器屏幕采集录制

技术背景 在操作系统领域,很多核心技术掌握在国外企业手中。如果过度依赖国外技术,在国际形势变化、贸易摩擦等情况下,可能面临技术封锁和断供风险。开发国产操作系统可以降低这种风险,确保国家关键信息基础设施的稳定运行。在一…

多态的遗留问题以及C++中杂项,C++面试题

C面试题 1.什么是虚函数?什么是纯虚函数 虚函数:在类的继承中,基类中的函数前加virtual声明的函数就是虚函数。 虚函数实现了运行的多态,同一函数调用在不同对象中表现出不同的行为 纯虚函数:在基类中声明但没有实…

树莓派4B+UBUNTU20.04+静态ip+ssh配置

树莓派4B+UBUNTU20.04+静态ip+ssh配置 1.烧录Ubuntu镜像1.1选择pi 4b1.2选择ubuntu server (服务器版,无桌面)20.041.3选择sd卡1.4 点击右下角 NEXT ,编辑设置,输入密码,wifi选CN, 开启ssh1.5 烧录,依次点击“是”,等待完成2 烧录完成后装入树莓派,上电,等待系统完成配…

软件无线电3-微相E316和HackRF实现FM调制解调

前面介绍了基于Matlab、矢量信号器和HackRF One实现射频下的FM调制解调,今天分享的内容是用微相E316替代矢量信号器完成发射工作。注意本文仅用于科研和学习,私自搭建电台属于违法行为。 1.概述 微相E316和HackRF One实现FM调制解调测试框图如1所示&am…

离散化 ---( 求区间和)

什么是离散化? 离散化是将连续的数值范围映射到有限的、离散的数值集合的过程。在许多情况下,数据可能会存在多个重复值或范围较大的连续值。为了简化处理,尤其是处理区间查询和增量问题时,我们可以将这些值转换为一组有限的、唯一…

【重学 MySQL】四十、SQL 语句执行过程

【重学 MySQL】四十、SQL 语句执行过程 select 语句的完整结构select 语句执行顺序SQL 语句执行原理 select 语句的完整结构 SELECT 语句是 SQL(Structured Query Language)中用于从数据库表中检索数据的核心语句。一个完整的 SELECT 语句结构可以包括多…

Linux系统部署Mysql8.x修改密码并且设置远程连接

配置yum仓库配置yum仓库 # 更新密钥 rpm import https:repo.mysql.com/RPM-GPG-KEY- mysql-2023 # 安装Mysql8.x版本 yum库 rpm -Uvh https:dev.mysql.com/get/mysql80-community-release-el7-2.noarch.rpm 由于MySQL并不在CentOS的官方仓库中,所以我们通过上述rp…

跟李沐学AI:自注意力和位置编码

自注意力 自注意力机制(Self-Attention Mechanism),也被称为内部注意力(Intra-attention)或并行注意力(Parallel Attention),是一种在深度学习模型中用于处理序列数据的机制。它允许…

新版pycharm如何导入自定义环境

我们新的版本的pycharm的ui更改了,但是我不会导入新的环境了 我们先点击右上角的add interpreter 然后点击添加本地编译器 先导入这个bat文件 再点击load 我们就可以选择我们需要的环境了

解决毕业论文难题!推荐7款AI自动生成论文工具网站

在当今学术研究和写作领域,AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿,还能进行内容优化、查重和排版等操作。以下是七款值得推荐的AI自动生成论文工具网站,特别推荐千笔-AIPassPaper。…

arthas简单应用

背景说明 项目上某个接口响应时间过长,需要查看方法耗时情况进行优化 安装配置 访问下载页进行下载:下载 | arthas 调整文件位置进行解压缩 - 查看arthas帮助命令(非必须,官网文档更详细) C:\tools\arthas\4.0.1\b…

移动技术开发:HandlerAsyncTask

1 实验名称 Handler&AsyncTask 2 实验目的 掌握使用Handler消息传递机制和AsyncTask处理后台线程周期性的改变Activity中界面控件的属性 3 实验源代码 布局文件代码&#xff1a; &#xff08;1&#xff09;HandlerTest <?xml version"1.0" encoding&quo…

《深度学习》—— ResNet 残差神经网络

文章目录 一、什么是ResNet&#xff1f;二、残差结构&#xff08;Residual Structure&#xff09;三、Batch Normalization&#xff08;BN----批归一化&#xff09; 一、什么是ResNet&#xff1f; ResNet 网络是在 2015年 由微软实验室中的何凯明等几位大神提出&#xff0c;斩获…

文新智能体开发:省钱有道,智慧选择,属于你的“省钱小诸葛”

开发灵感 在开发购物类智能体“省购小诸葛”时&#xff0c;我的灵感源自于对现代消费者购物行为的深刻洞察与未来科技趋势的展望。想象一个时代&#xff0c;当信息的海洋变得浩瀚无垠&#xff0c;消费者在众多商品与促销活动中遨游&#xff0c;却往往感到迷茫与疲惫。这时&…

在CANoe/CANalyzer中Replay Block“一键发送”一个诊断/命令序列

案例背景&#xff1a; 在博文《在CANoeCANalyzer中“在线回放”CAN Log.asc/blf文件_canoe怎么回放blf文件-CSDN博客https://blog.csdn.net/qfmzhu/article/details/128954931》我们介绍了Replay Block模块的一些典型应用。 下面我们介绍如何使用Replay Block代替IG(Interact…

OJ在线评测系统 后端 使用代理模式编写测试类 并 实现核心业务判题流程

编写测试类(代理模式) 实现示例的代码沙箱 package com.dduo.dduoj.judge.codesandbox.impl;import com.dduo.dduoj.judge.codesandbox.CodeSandbox; import com.dduo.dduoj.judge.codesandbox.model.ExecuteCodeRequest; import com.dduo.dduoj.judge.codesandbox.model.Exec…