【论文笔记 | 异步联邦】PORT:How Asynchronous can Federated Learning Be?

news2024/12/23 8:06:30

1. 论文信息

How Asynchronous can Federated Learning Be?2022 IEEE/ACM 30th International Symposium on Quality of Service (IWQoS). IEEE, 2022,不属于ccf认定

2. introduction

2.1. 背景:

现有的异步FL文献中设计的启发式方法都只反映设计空间中的点解决方案,并且在一些情况下未能激励他们的设计选择。大多数现有的工作使用 the number of gradients, updates, or communication rounds before convergence 作为性能指标,这无法反映收敛到目标精度所需的实际时钟时间

设计空间是所有可能的系统配置和参数选择的集合,包括但不限于:

  • 客户端的最小数量要求
  • 陈旧性界限
  • 聚合算法的设计
  • 客户端选择策略
  • 本地训练设置
  • 通信效率
  • 模型更新的同步性
  • 超参数调整

点解决方案是指只针对一个特定点(即特定的参数集合或配置)的解决方案

这是因为 每次更新或通信所花费的时间可能会大不相同 。因此,不能清楚在冲突的设计决策之间的最佳权衡是什么,以及在同步和异步机制之间的整个范围内的最佳点是什么

2.2. 挑战:

还没有人涉足,没有可以参照的先例;

实验设备计算能力的限制:同时训练的客户端数量存在非常严格的限制;

2.3. 解决的问题:

  1. 现有关于异步联邦学习的文献工作都是点解,提出的每个启发式算法只能代表多维设计空间中的一个操作点。现有作品中的设计选择和权衡,包括超参数设置,没有很好的动机,有效性主要是通过经验评估来说明的。
  2. 现有工作使用 梯度 、更新 或 收敛前的通信轮数 作为性能指标,导致无法反映收敛到目标精度所需的实际时钟时间

2.4. 贡献点:

  1. 在PORT中,server 集成了一种推拉机制:允许快速客户端积极地报告模型更新,并在客户端更新的数量到达总设备数量的最小百分比时进行聚合。在达到 staleness bound 后,server 不需要等待过时客户端,它会通过紧急通知积极地拉取这些陈旧的客户端,收到此类紧急通知的客户必须在完成当前训练阶段后立即报告。
  2. 受现有自适应聚合机制的启发,为模型更新更陈旧、更分散的客户端分配更低的聚合权值。这种设计背后的直觉是,过时的客户端基于全局模型的早期版本,因此它们的模型更新质量较低,相关性较低。
  3. PORT的设计基于对真实世界FL框架的一系列实验评估,与 state-of-the-art 相比,使用 wall-clock time ,而不是通信 round 数作为性能指标,使得结果可复现。由于异步范例天生就是为了最小化挂钟时间而设计的,因此这是评估竞争设计的唯一合适方法。(实验以及理论验证)通过各种数据集和模型,表明PORT能够在文献中超越其所有竞争对手,并且比文献中最接近的最先进的竞争对手高出40%。从理论上证明了该机制具有收敛性保证

3. 提出PORT前做实验验证多个因素:

3.1. 客户端的最小数量要求

服务器 聚合来自客户端的更新,需要的客户端的最小数量

3.2. 陈旧性界限

由过时同步并行机制(SSP)已知,如果在聚合过程中等待超过一定范围的过时客户端,可以保证收敛。然而,目前尚不清楚不同的过期界限将如何影响收敛所需的时间。直觉上不希望只等待那些差异不大的客户,但另一方面,也不希望容纳过于陈旧的客户端,(模型之间差异过大)

实验结果验证了直觉猜测,陈旧边界存在一个最佳点 10

3.3. 设计空间

应该是一个三维立体图,表示目前的一些算法只考虑一个或两个因素,不是最佳解法

4. 解决方法

4.1. PORT

PORT 寻求在异步联邦学习的设计空间的最佳区域中运行。

PORT 的设计目标是最小化FL训练的时钟时间以收敛到目标精度,而不是回合数。

PORT 的设计侧重于基于客户的样本百分比(如联邦平均)聚合客户识别代表客户陈旧的影响因素;一旦确定了失效客户端,PORT就会相应地降低失效客户端的聚合权重

过时因素:

干扰因素:

数学上,可以采用两种方法来量化两个向量之间的相似度或冲突程度:

  • 点积:计算两个向量的点积可以同时反映它们的大小和夹角。
  • 余弦相似度:计算两个向量的余弦相似度,它仅反映两个向量之间的夹角,而不考虑它们的规模。

聚合权重:

聚合公式:

注意:

之和为1

4.2. 推拉机制与紧急通知

4.3. 挑战问题怎么解决:

模拟 wall-clock time ,这个时间不是通过直观观测得来的,是通过推进时间进行计数模拟出来的(但是看的还不是太懂)

  • 服务器从优先队列中提取最快完成训练的客户端,并根据这些客户端的完成时间推进模拟墙钟时间
  • 但如果存在陈旧客户端,服务器可能会进一步推进时间,直到这些客户端的训练完成,以确保它们的更新也被考虑在内。

4.4. 性能保证(performance guarantee):理论分析,使用什么理论,怎么分析/解决

暂时没看

5. 效果:重点是实验设计,每一部分实验在验证论文中的什么结论

5.1. 超参数确定实验

总的来说,α = 3 和 β = 1 相对于其他值对提供了轻微的性能优势。

5.2. 消融实验

5.2.1. 没有紧急通知

5.2.2. 有紧急通知

由于测量训练时间的随机性,在PLATO中没有激活可重复性模式,PORT 和 FedBuff 等竞争对手之间的比较可能会因不同的数据集和运行而有所不同。然而,与 FedAsync (未能收敛)和 FedAvg 相比,PORT 在这两种数据集上的性能优势不言而喻

6. (备选)自己的思考

论文对你的启发,包括但不限于解决某个问题的技术、该论文方法的优缺点、实验设计、源码积累等。

备注:
1. 这篇很奇怪,让我印象比较深刻的是它利用 wall-clock time 替换 round 轮次,从FL 实验的衡量标准重点切入的

  1. 它不像其他算法类文章,没有给出伪代码
  2. 它本质还是等待一定数量的客户端更新再进行聚合,但是比较普适性的是,这个一定数量是占参与训练的设备百分比
  3. 有新的聚合方式,考虑了过时因素和干扰因素(余弦相似)
  4. 另外增加了推拉机制,server 发出指令后,客户端将本 epoch 训练完成后,不管客户端是否更新完毕都上传server
  5. 而且是我第一次接触到推进时间,通过计数模拟 wall-clock 时间

异步联邦需要解决的三个问题:

首先,服务器在开始聚合过程之前应该等待的客户机的最小百分比是多少?等待的客户机越多,通信机制就越同步。

第二,什么是过期界限?过时的界限越宽松,设计就越异步。

最后,当服务器聚合迄今为止接收到的模型更新时(这些更新本质上是基于不同的全局模型的),服务器应该如何将聚合权重分配给每个客户机


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1627938.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue echarts 饼图(环形图)

vue echarts 饼图(环形图) &#xff0c;echarts版本为5.3.3 可以自定义颜色 <template><div><div id"pieChart1" ref"pieChartRef1" style"width: 100%; height: 250px"></div></div></template><scri…

备考2024年小学生古诗文大会:做做10道历年真题和知识点(持续)

根据往年的安排&#xff0c;2024年上海市小学生古诗文大会预计还有一个月就将启动。我们继续来随机看10道往年的上海小学生古诗文大会真题&#xff0c;这些题目来自我去重、合并后的1700在线题库&#xff0c;每道题我都提供了参考答案和独家解析。 根据往期的经验&#xff0c;只…

《ESP8266通信指南》7-Arduino 开发8266的环境配置与示例代码烧录

往期 《ESP8266通信指南》6-创建TCP服务器&#xff08;AT指令&#xff09;-CSDN博客 《ESP8266通信指南》5-TCP通信透传模式(AT指令)-CSDN博客 《ESP8266通信指南》4-以Client进行TCP通信&#xff08;AT指令&#xff09;-CSDN博客 《ESP8266通信指南》3-常用AT指令详解-826…

又重新搭了个个人博客

哈喽大家好&#xff0c;我是咸鱼。 前段时间看到一个学弟写了篇用 Hexo 搭建博客的教程&#xff0c;心中沉寂已久的激情重新被点燃起来。&#xff08;以前搞过一个个人网站&#xff0c;但是因为种种原因最后不了了之&#xff09; 于是花了一天时间参考教程搭了个博客网站&…

LM2576D2TR4-5G 3.0安15伏降压开关稳压器 PDF中文资料_参数_引脚图

LM2576D2TR4-5G 规格信息&#xff1a; 制造商:ON Semiconductor 产品种类:开关稳压器 RoHS:是 装置风格:SMD/SMT 封装 / 箱体:TO-263-5 输出电压:5 V 输出电流:3 A 输出端数量:1 Output 最大输入电压:45 V 拓扑结构:Buck 最小输入电压:7 V 开关频率:52 kHz 最小工作…

设计模式——终止模式之两阶段终止模式

文章目录 1. 错误思路2. 两阶段终止模式2.1 利用 isInterrupted2.2 利用停止标记interrupt-打断park Two Phase Termination 在一个线程 T1 中如何“优雅”终止线程 T2&#xff1f;这里的【优雅】指的是给 T2 一个料理后事的机会。 1. 错误思路 使用线程对象的 stop() 方法停…

在Elasticsearch 7.9.2中安装IK分词器并进行自定义词典配置

Elasticsearch是一个强大的开源搜索引擎&#xff0c;而IK分词器是针对中文文本分析的重要插件。本文将引导您完成在Elasticsearch 7.9.2版本中安装IK分词器、配置自定义词典以及验证分词效果的全过程。 步骤一&#xff1a;下载IK分词器 访问IK分词器的GitHub发布页面&#xf…

Unity打开Android文件管理器并加载文件

1、在AssetStore商店中加入免费插件 2、调用代码 3、使用UnityWebRequest加载路径数据

Jackson 2.x 系列【31】Spring Boot 集成之字典回写

有道无术&#xff0c;术尚可求&#xff0c;有术无道&#xff0c;止于术。 本系列Jackson 版本 2.17.0 本系列Spring Boot 版本 3.2.4 源码地址&#xff1a;https://gitee.com/pearl-organization/study-jaskson-demo 文章目录 1. 场景描述2. 案例演示2.1 修改枚举2.2 定义注解…

总结一下背包里的顺序和是否逆序

1.对于01背包而言&#xff0c;一维压缩态只能物品到背包且需要逆序 2.对应多重背包而言&#xff0c;组合数物品到背包&#xff0c;排列数背包到物品&#xff0c;且都需要正序

军工单位安全内网文件导出,怎样做到严密的安全管控?

军工单位是指承担国家下达的军事装备、产品研制、生产计划任务的企、事业单位&#xff0c;主要包括电子工业部、航空工业总公司、航天工业总公司、兵器工业总公司、核工业总公司、船舶工业总公司、中国工程物理研究院及各省国防工业办公室等。 军工单位的特点主要体现在以下几个…

光伏无人机:巡检无人机解决巡检难题

随着科技的飞速发展&#xff0c;无人机技术已经广泛应用于各个领域&#xff0c;其中光伏无人机在解决光伏电站巡检难题方面发挥了重要作用。光伏无人机以其高效、精准、安全的特点&#xff0c;为光伏电站的巡检工作带来了革命性的变革。 光伏电站通常位于广阔的户外场地&#x…

【问题实操】银河高级服务器操作系统实例分享,配置hugepages启动异常

1.问题现象 某运营商国产服务器操作系统项目&#xff0c;部署Kylin-Server-0524-aarch64服务器系统&#xff0c;内核从4.19.90-24.4升级到4.19.90-25.14。在grub中配置huagepages大页内存后&#xff0c;系统在内核启动阶段黑屏&#xff0c;只显示一个光标。grub配置如下图&…

AI大模型探索之路-训练篇5:大语言模型预训练数据准备-词元化

系列文章目录&#x1f6a9; AI大模型探索之路-训练篇1&#xff1a;大语言模型微调基础认知 AI大模型探索之路-训练篇2&#xff1a;大语言模型预训练基础认知 AI大模型探索之路-训练篇3&#xff1a;大语言模型全景解读 AI大模型探索之路-训练篇4&#xff1a;大语言模型训练数据…

什么样的内外网文档摆渡,可以实现安全高效传输?

内外网文档摆渡通常指的是在内网&#xff08;公司或组织的内部网络&#xff09;和外网&#xff08;如互联网&#xff09;之间安全地传输文件的过程。这个过程需要特别注意安全性&#xff0c;因为内网往往包含敏感数据&#xff0c;直接连接内网和外网可能会带来安全风险。因此会…

12.接口自动化学习-Yaml学习

1.配置文件作用 配置文件项目角度&#xff1a; &#xff08;1&#xff09;现成的应用–第三方组件 mysql–数据库–my.conf tomcat–web服务器–server.xml 修改&#xff1a;连接数/端口 redis–缓存服务器–redis.conf 修改配置 jemeter–压测工具–jemeter.properties–修改…

linux支持vGPU方案

1&#xff0c;查询gpu型号&#xff1a;lspci | grep "NVIDIA\|VGA" PCI Devices 2&#xff0c;下载驱动 官方驱动 | NVIDIA 3&#xff0c;安装 sudo sh NVIDIA-Linux-x86_64-440.118.02.run -no-x-check -no-nouveau-check -no-opengl-files参数说明&#xff1a; …

网盘——进入文件夹

本文主要讲解网盘的文件操作中进入文件夹的部分&#xff0c;具体实现步骤如下&#xff1a; 1、具体步骤如下&#xff1a; A、客户端发送进入文件夹的请求&#xff08;该请求包含目录信息以及要进入的文件夹名字&#xff09; B、服务器收到该请求之后&#xff0c;服务器首先判…

基于springboot的考勤管理系统

文章目录 项目介绍主要功能截图&#xff1a;部分代码展示设计总结项目获取方式 &#x1f345; 作者主页&#xff1a;超级无敌暴龙战士塔塔开 &#x1f345; 简介&#xff1a;Java领域优质创作者&#x1f3c6;、 简历模板、学习资料、面试题库【关注我&#xff0c;都给你】 &…

C#基础之数组

数组 文章目录 数组1、概念2、数组的声明3、数组的使用思考1 找出随机数中的最大值&#xff0c;最小值思考2 数组值前后交换思考3 输入成绩&#xff0c;比较出最大、最小值思考4 生成一个5X5的花格子 二维数组交错数组 1、概念 数组是存储一组相同类型数据的集合 数组分为一维…