联邦学习(三只决策和大数据分析)(学习笔记)

news2024/10/1 7:53:22

联邦学习模型按照数据重叠形式分成了三类,分别是横向联邦学习、纵向联邦学习和联邦迁移学习。

横向联邦学习模型针对特征一致但ID不一致的数据;

纵向联邦学习模型针对ID一致但特征不一致的数据;

联邦迁移学习模型针对ID和特征都不一致的数据。

纵向联邦树模型算法

纵向联邦树模型算法基于两种不同的集成方式——Bagging和Boosting,因此分成了两种算法,即纵向联邦随机森林算法纵向联邦梯度提升算法

树模型最显著的特点有两个:

  • 模型能够非常直观地展现因果关系,对于理解内在决策逻辑的难度较低,从而在可解释性方面有较大的优势;
  • 模型的基础结构和决策路径非常简练,对计算资源需求很低,因此实际应用中深受好评。

花样繁多的树模型变种基本都是从决策树模型演变而来的。使用决策树建模的核心步骤是在每个待决策的节点上对特征进行排序。

纵向联邦线性回归算法

通过从多个视角对对象进行建模,并联合优化所有函数,这种方法往往能够更准确地挖掘不同子空间中数据间的相关性,提高模型效果。

纵向联邦线性回归算法的损失函数预测函数与普通的线性回归算法并无太大差异,它们的损失函数相同且均可采用梯度下降法进行训练。不同之处在于训练数据分布在不同的参与方,为了通过梯度下降法进行训练,梯度的计算需要由多方共同完成。因此,在纵向联邦线性回归中计算梯度时,每一个参与方通过利用自己拥有的那部分数据,计算出梯度的中间结果,在一个可信第三方的参与下完成梯度汇总并得到最终的梯度值,从而进行参数的更新。为了防止梯度和原始数据泄露,对传输到其他参与方的所有数据进行了半同态加密,因此在其他参与方上进行的计算将全部在半同态加密下完成。

纵向联邦核学习算法

对于真实世界中的数据挖掘任务而言,多个参与方常常保存有一个公共数据的多个不同特征部分。这种类型数据一般称为纵向划分数据。伴随着隐私保护的巨大需求,我们很难通过传统的机器学习算法对这种纵向划分数据进行数据挖掘。

在机器学习算法中,我们使用核方法一般是为了将低维的线性不可分数据转换到高维空间的线性可分情形,从而学习到更好的分类器。又因为数据经过高维映射后,输入数据和输出结果的函数关系将是非线性的,这样的核方法分类器一般称为非线性分类器。而我们知道,常用的非线性分类器是深度神经网络,然而深度神经网络过大的参数量使其无法很好地应用到实际的场景中,特别是联邦学习场景。基于核方法的支持向量机是除深度神经网络外,性能最好的非线性分类器之一

如何通过核方法对纵向划分数据进行高效、可扩展的训练,同时又不泄露隐私,仍具有挑战。

异步纵向联邦学习算法

作为新兴的多方联合建模应用的解决方案,基于纵向划分数据的隐私保护协调学习已展现出颇具前景的结果。其中,数据持有方(例如,政府部门、隐私金融和电子商务公司)在整个建模过程中保持协调,而不是依赖可信的第三方来保存数据。然而,现有的针对纵向划分数据的联邦学习算法都局限于同步计算。为了提高纵向联邦学习系统在各参与方计算/通信资源不均衡情况下的效率,在保证数据隐私的前提下,设计异步纵向联邦学习算法是有必要的。

异步更新的纵向联邦学习算法比同步算法具有更高的效率,在强凸条件下就有理论收敛速度。该算法包含普通的基于SGD的算法和两个分别基于SVRG、SAGA的变体算法,可以抵御精准推理攻击和近似推理攻击。

从算法设计的角度,目前有大量的相关研究针对纵向划分数据。而且针对不同的应用有许多保护隐私的联邦学习算法,例如协同统计分析、线性回归、关联规则挖掘、逻辑回归、XGBoost、随机森林、支持向量机等。然而,这些针对纵向划分数据的联邦学习算法都局限于同步计算,而同步计算的效率比异步计算低的多,因为它浪费了大量的空闲计算资源。

数据价值是数据交易流通的基础,因此,数据价值评估成为数据要素市场化配置的重要环节。

现有关于科技大数据价值的研究通常面向科技大数据全生命周期中的单一主体或聚焦于全生命周期的特定阶段,科技大数据价值评估的系统框架尚未建立。

基于科技大数据核心价值链,构建了科技大数据价值评估指标体系,并针对其中难以量化的关键指标,提出了基于社交网络分析和动态主题模型的指标测度方法。

科技大数据价值评估的研究尚处于探索阶段。

联邦学习情境下数据价值评估模型的求解算法

Algorithm 1 Truncated Monte Carlo Shapley(截断式沙普利算法)

我们可以根据V中的引导变化来定义一个“性能容差”。当我们扫描抽样排列并计算边际贡献时,当V (S)在V (D)的性能容忍范围内时,我们截断抽样排列中边际贡献的计算,并将该排列中其余数据点的边际贡献设置为零。截断会导致大量的计算节省,而不引入显著的估计偏差。

对于每一个S⊆D,计算V (S)需要A来学习一个新的模型。对于一个小的D和一个快速的a-,例如逻辑回归,套索,可以使用TMC-Shapley方法。然而,在数据点数量较大或预测模型需要高计算能力(例如深度神经网络)的情况下,应用TMC-Shapley可能相当昂贵。

Algorithm 2 Gradient Shapley()

对于一个广泛的预测模型家族,a涉及到随机梯度下降的变化,其中随机选择的D批次迭代地更新模型参数。在这些情况下,一个完全训练过的模型的一个简单近似是考虑只通过一次训练数据来训练模型;换句话说,我们为D的一个“时代”训练模型。

对于数据点的采样排列,通过每次对一个数据点进行梯度下降来更新模型;边际贡献是模型性能的变化。细节在算法2中描述,我们称之为梯度Shapley或G-Shapley。为了得到最佳的近似,我们对学习算法进行超参数搜索,以找到只经过一次数据训练的模型的最佳性能,在我们的实验中,学习率大于多时代模型训练的模型。(与算法1相比,节约成本)

Algorithm 3: Estimating the ComFedSV

提高水平联邦学习中数据评估的公平性;

FedSV在实践中在大规模联邦学习中面临挑战——这可能会造成不公平。为了降低通信成本,许多被广泛使用的联合学习算法在每一轮中只选择一个客户端子集来上传他们的本地模型。在FedSV的设计中,未被选择的客户在那一轮中被分配为零信用。这种设计造成了不公平。

公平评估数据所有者在联邦学习中的贡献的基本挑战是,我们必须在追求效率时保持公平。

有了效用矩阵,即使是FedSV也可以对所有客户端进行公平的评估。然而,效用矩阵只能部分观察,因为在每一轮中只选择客户端的子集。FedSV的缺点是它只直接使用效用矩阵中观察到的项来计算夏普利值。我们的想法是尝试完成效用矩阵的缺失条目,从而消除不公平。

当效用矩阵可以很好地恢复时,ComFedSV满足某些理想的公平性。当效用矩阵的大小太大时,我们提出了一种蒙特卡罗型抽样方法来减小相应的矩阵补全问题的大小。

Algorithm 4 Efficient computation algorithm for Beta(α, β)-Shapley

Data Shapley最近被提出作为一个有原则的框架来量化单个数据在机器学习中的贡献。它可以有效地识别学习算法中有用或有害的数据点。在本文中,我们提出了Beta Shapley,这是Data Shapley的一个实质性的推广。Beta Shapley通过放松Shapley值的效率公理而自然产生,而这对机器学习设置并不重要。Beta Shapley统一了几种流行的数据估值方法,并包括Data Shapley作为一个特例。此外,我们证明了Beta Shapley具有几个理想的统计特性,并提出了有效的算法来估计它。我们证明了Beta Shapley在几个下游ML任务上优于最先进的数据评估方法,例如: 1)检测错误标记的训练数据;2)使用子样本学习;3)识别添加或删除对模型有最大正面或负面影响最大的点。

Data Shapley被定义为边际贡献的函数,当从具有给定基数的集合中去除特定点时,测量训练模型性能的平均变化。边际贡献是许多数据估值方法的一个基本组成部分。例如,常用的分离分离(LOO)分析等价于在从整个训练集中移除时估计一个点的边际贡献。如果一个给定集合的基数发生变化,则一个点的边际贡献可能会发生变化,并且数据Shapley取了所有不同基数的边际贡献的简单平均值。通过这种方式,Data Shapley可以避免对特定基数的依赖,但尚不清楚这种均匀的权重是否对于量化单个数据的影响是最优的。正如我们将通过理论和实验来证明的那样,这实际上是次优的。均匀平均产生于Shapley值的效率公理,这在ML设置中并不是必要的。该公理要求数据值的总和等于总效用,但它在实践中可能不是明智的,也不是可验证的。

我们提出了Beta Shapley,这是一个自然产生的统一数据估值框架,通过放宽效率公理来实现。我们的理论研究显示,与数据Shapley相比,Beta Shapley具有降低的噪音,并且可以用来找到子采样的最优重要性权重。我们基于蒙特卡洛方法开发了一个有效算法来估计它。我们证明了,在包括噪声标签检测、使用子样本学习和点添加及移除实验等多个下游机器学习任务中,Beta Shapley超越了现有的最先进的数据估值方法。

Algorithm 5 : Group Testing Based SV Estimation

由于计算上的挑战,SV迄今为止在数据估值中的应用仅限于程式化的例子,其中游戏的底层效用函数很简单,所得到的SV可以表示为一个封闭形式的表达式。估计黑盒实用函数SV的最新方法是基于蒙特卡罗模拟,它仍然需要对超线性重新训练ML模型,因此显然是不可行的。

我们提出的近似算法是受之前将群测试理论应用于特征选择的启发。回想一下,组测试是一个组合搜索范式,在它中,人们希望通过执行一系列测试来确定集合中的每个项目是“好的”还是“有缺陷的”。

算法5给出了基于组测试的算法的伪代码,该算法首先估计了沙普利差异,然后通过求解一个可行性问题从沙普利差异中推导出SV。

Algorithm 6 : Compressive Permutation Sampling.(对应算法5)

我们现在提出了一个算法,灵感来自于我们的经验观察的SV的大数据集

当效用函数定义为增量训练模型时,只需要log log (N)全模型训练就可以实现误差保证。

Algorithm 7 : Federated SV Estimation

与规范的SV类似,计算联邦的SV是很昂贵的。

Algorithm 8 . One-Round (OR) (1)

OR的一个缺点是,它在每一轮训练中都混合了梯度,这可能不能捕捉到关键的梯度。这是因为随着训练的继续,全局模型和梯度越来越受到所有数据集的影响。因此,在某些回合中的梯度就变得不那么有价值了。为此,我们提出在不同的轮中区分梯度,并设计了第二种CI估计方法,即λ-多轮构造(λ-MR)。

Algorithm 9 . λ-Multi-Rounds (λ-MR) (改进2)

Algorithm 1 0 . Truncated Multi-Rounds (TMR) (改进3)

算法3解释了TMR的细节。第1-6行表示全局模型的计算结果,与算法1和算法2相同。与λ-MR的关键区别在于第7行和第17行。在第7行中,一旦圆ci到最终结果可以忽略不计,我们就不构造或评估模型。在第17行中,我们使用衰减因子λ和不同轮的精度来控制最终结果中圆ci的权重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2181876.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux网络操作命令与函数全面总结

1. 引言 Linux作为服务器和开发平台,网络操作是其核心功能之一。本文旨在全面总结Linux系统中的网络操作方法,包括命令行工具和编程接口,帮助读者深入理解Linux网络管理的机制。 2. 命令行工具 2.1 ping 命令 ping 命令用于测试网络连接和…

实验OSPF路由协议(课内实验)

实验1:OSPF路由协议 实验目的及要求: 通过实验,能够理解链路状态型路由协议OSPF协议的工作原理,掌握如何实现单区域 OSPFv2配置指令,能够熟练的应用各种OSPF协议相关的配置指令完善网络设计。掌握验证OSPFv2网络连接…

软件开发人员绩效考核方案(参考)

1、产品&运营绩效考核表 2、开发绩效考核表 3、测试绩效考核表 4、CPI指标库 软件全套资料部分文档清单: 工作安排任务书,可行性分析报告,立项申请审批表,产品需求规格说明书,需求调研计划,用户需求调查…

像AI一样思考

我感觉每个人都应该通过Coze平台 https://www.coze.cn/ 创建一个属于自己的Bot。 为什么要创建Bot? 很多时候我们的思维会受各种因素的影响,如感情、知识盲区、心态等,最终导致我们做的决定缺乏逻辑或者考虑不全面。但AI不一样,…

armbian安装docker

最近又搞了台瑞莎Radxa 3E ,从零开始部署unbuntu环境,发现是真曲折啊,虽然有点前车之鉴了 在Armbian上安装Docker,可以按照以下步骤操作: 1、更新软件包列表: sudo apt-get update 2、安装必要的软件包…

leetcode|刷算法 线段树原理以及模板

线段树出现的题目特征 线段树使用的题目。每次操作都要得到返回结果的。 比如 699. 掉落的方块 - 力扣(LeetCode) 2286. 以组为单位订音乐会的门票 - 力扣(LeetCode) 1845. 座位预约管理系统 - 力扣(LeetCode&#…

【韩顺平Java笔记】第4章:运算符

文章目录 61. 上一章总结62. 算术运算符介绍62.1 运算符介绍62.2 算术运算符介绍62.3 算术运算符一览 63. 算术运算符使用64. 算术运算符练习165. 算术运算符练习266. 67. 算术运算符练习3,468. 关系运算符介绍68.1 关系运算符介绍68.2 关系运算符一览 69. 关系运算符使用70. 逻…

2024暄桐“静定的滋养”|静坐篇之林曦老师聊静坐

我们都喜爱“静”,它是一种因能量充足而带来的稳定放松的状态。 正在报名中的暄桐《2024书法课程 第五阶“静定的滋养” | 从书法之美到生活之美——林曦老师的线上直播书法课》,除了书法进阶部分的内容之外,读书部分正是帮助我们加强对静定的…

Windows应急响应-PcShare远控木马

文章目录 应急背景木马查杀1.查看异常连接2.查看进程3.查看服务定位到注册表 开始查杀 入侵排查1.账户排查2.开机自启3.服务4.计划任务5.网络情况6.进程排查重启再排查一遍 应急背景 曲某今天想要装一款软件,通过网上搜索看到非官方网站进入后直接下载下来后进行安…

毕业设计选题:基于ssm+vue+uniapp的购物系统小程序

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…

DSPy101

DSPy 介绍 DSPy(Declarative Self-improved Language Programs in Python) 是一个用于系统化和增强在流水线内使用语言模型的框架,它通过数据驱动和意图驱动的系统来优化大型语言模型(LLM)的使用。 DSPy 的核心是模块…

我的笔记本电脑之前可以直接用音量键调节音量,后来需要fn键加音量键才能调节,这是为什么?

我的笔记本电脑之前可以直接用音量键调节音量,后来需要fn键加音量键才能调节,这是为什么? 直接按 FnEsc就能解除Fn的锁定

信息安全数学基础(24)模为奇数的平方剩余与平方非剩余

前言 在信息安全数学基础中,模为奇数的平方剩余与平方非剩余是数论中的一个重要概念,特别是在密码学和安全协议中扮演着关键角色。当模数为奇数时,我们通常关注的是模为奇素数的平方剩余与平方非剩余,因为奇合数的情况更为复杂且…

【数学分析笔记】第4章第2节 导数的意义和性质(2)

4. 微分 4.2 导数的意义与性质 4.2.3 单侧导数 f ′ ( x ) lim ⁡ Δ x → 0 f ( x Δ x ) − f ( x ) Δ x lim ⁡ x → x 0 f ( x ) − f ( x 0 ) x − x 0 f(x)\lim\limits_{\Delta x\to 0}\frac{f(x\Delta x)-f(x)}{\Delta x}\lim\limits_{x\to x_0}\frac{f(x)-f(x_0)…

Golang | Leetcode Golang题解之第448题找到所有数组中消失的数字

题目&#xff1a; 题解&#xff1a; func findDisappearedNumbers(nums []int) (ans []int) {n : len(nums)for _, v : range nums {v (v - 1) % nnums[v] n}for i, v : range nums {if v < n {ans append(ans, i1)}}return }

OceanBase企业级分布式关系数据库

简介 OceanBase 数据库是阿里巴巴和蚂蚁集团不基于任何开源产品&#xff0c;完全自研的原生分布式关系数据库软件&#xff0c;在普通硬件上实现金融级高可用&#xff0c;首创“三地五中心”城市级故障自动无损容灾新标准&#xff0c;具备卓越的水平扩展能力&#xff0c;全球首…

使用微服务Spring Cloud集成Kafka实现异步通信(消费者)

1、本文架构 本文目标是使用微服务Spring Cloud集成Kafka实现异步通信。其中Kafka Server部署在Ubuntu虚拟机上&#xff0c;微服务部署在Windows 11系统上&#xff0c;Kafka Producer微服务和Kafka Consumer微服务分别注册到Eureka注册中心。Kafka Producer和Kafka Consumer之…

Ajax ( 是什么、URL、axios、HTTP、快速收集表单 )Day01

AJAX 一、Ajax是什么1.1名词解释1.1.1 服务器1.1.2 同步与异步1. 同步&#xff08;Synchronous&#xff09;2. 异步&#xff08;Asynchronous&#xff09;3. 异步 vs 同步 场景4. 异步在 Web 开发中的常见应用&#xff1a; 1.2 URL 统一资源定位符1.2.1 URL - 查询参数1.2.2 ax…

经典RCU锁原理及Linux内核实现

经典RCU锁原理及Linux内核实现 RCU锁原理 RCU锁第一个特点就是适用于读很多写很少的场景&#xff0c;那它和读写锁有什么区别呢&#xff1f;区别就是RCU锁读者完全不用加锁&#xff08;多个写者之间仍需要竞争锁&#xff09;&#xff0c;而读写锁&#xff08;不管是读优先、写…

https://www.aitoolpath.com/ 一个工具数据库,目前储存了有2000+各种工具。每日更新

AI 工具爆炸&#xff1f;别怕&#xff0c;这个网站帮你整理好了&#xff01; 哇塞&#xff0c;兄弟们&#xff01;AI 时代真的来了&#xff01;现在各种 AI 工具跟雨后春笋似的&#xff0c;噌噌噌地往外冒。AI 写作、AI 绘画、AI 代码生成……简直是要逆天啊&#xff01; 可是…