深入理解联邦学习——联邦学习的分类

news2024/10/3 4:41:51

分类目录:《深入理解联邦学习》总目录


在实际中,孤岛数据具有不同分布特点,根据这些特点,我们可以提出相对应的联邦学习方案。下面,我们将以孤岛数据的分布特点为依据对联邦学习进行分类。

考虑有多个数据拥有方,每个数据拥有方各自所持有的数据集 D i D_i Di可以用一个矩阵来表示。矩阵的每一行代表一个用户,每一列代表一种用户特征。同时,某些数据集可能还包含标签数据。如果要对用户行为建立预测模型,就必须要有标签数据。我们可以把用户特征叫做 X X X,把标签特征叫做 Y Y Y。比如,在金融领域,用户的信用是需要被预测的标签 Y Y Y;在营销领域,标签是用户的购买愿望 Y Y Y;在教育领域,则是学生掌握知识的程度等。用户特征 X X X加标签 Y Y Y构成了完整的训练数据 ( X , Y ) (X, Y) (X,Y)。但是,在现实中,往往会遇到这样的情况:各个数据集的用户不完全相同,或用户特征不完全相同。具体而言,以包含两个数据拥有方的联邦学习为例,数据分布可以分为以下三种情况:

  • 两个数据集的用户特征 ( X 1 , X 2 , ⋯   ) (X_1, X_2, \cdots) (X1,X2,)重叠部分较大,而用户 ( U 1 , U 2 , ⋯   ) (U_1, U_2, \cdots) (U1,U2,)重叠部分较小
  • 两个数据集的用户 ( U 1 , U 2 , ⋯   ) (U_1, U_2, \cdots) (U1,U2,)重叠部分较大,而用户特征 ( X 1 , X 2 , ⋯   ) (X_1, X_2, \cdots) (X1,X2,)重叠部分较小
  • 两个数据集的用户 ( U 1 , U 2 , ⋯   ) (U_1, U_2, \cdots) (U1,U2,)与用户特征重叠 ( X 1 , X 2 , ⋯   ) (X_1, X_2, \cdots) (X1,X2,)部分都比较小。

为了应对以上三种数据分布情况,我们把联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习,如下图所示:
联邦学习的分类

横向联邦学习

在两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。这种方法叫做横向联邦学习。比如有两家不同地区银行,它们的用户群体分别来自各自所在的地区,相互的交集很小。但是,它们的业务很相似,因此,记录的用户特征是相同的。此时,就可以使用横向联邦学习来构建联合模型。GoogIe在2017年提出了一个针对安卓手机模型更新的数据联合建模方案:在单个用户使用安卓手机时,不断在本地更新模型参数并将参数上传到安卓云上,从而使特征维度相同的各数据拥有方建立联合模型的一种联邦学习方案。

横向联邦学习步骤如下:

  1. 参与方各自从服务器下载最新模型
  2. 每个参与方利用本地数据训练模型,加密梯度上传给服务器,服务器聚合各参与方的梯度更新模型参数
  3. 服务器返回更新后的模型给各参与方
  4. 各参与方更新各自模型
  5. 重复步骤1~4至模型收敛或达到预期

在传统的机器学习建模中,通常是把模型训练需要的数据集合到一个数据中心然后训练模型再进行预测。在横向联邦学习中,可以看作是基于样本的分布式模型训练,分发全部数据到不同的机器,每台机器从服务器下载模型,然后利用本地数据训练模型,之后返回给服务器需要更新的参数。服务器聚合各机器上的返回的参数,更新模型,再把最新的模型反馈到每台机器。在这个过程中,每台机器下都是相同且完整的模型,且机器之间不交流不依赖,在预测时每台机器也可以独立预测,可以把这个过程看作成基于样本的分布式模型训练。谷歌最初就是采用横向联邦的方式解决安卓手机终端用户在本地更新模型的问题的。

纵向联邦学习

在两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法叫做纵向联邦学习。比如有两个不同机构,一家是某地的银行,另一家是同一个地方的电商。它们的用户群体很有可能包含该地的大部分居民,因此用户的交集较大。但是,由于银行记录的都是用户的收支行为与信用评级,而电商则保有用户的浏览与购买历史,因此它们的用户特征交集较小。纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力的联邦学习。目前,逻辑回归模型,树型结构模型和神经网络模型等众多机器学习模型已经逐渐被证实能够建立在这个联邦体系上。

联邦迁移学习

在两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况,这种方法叫作联邦迁移学习。比如有两个不同机构,一家是位于中国的银行,另一家是位于美国的电商。由于受到地域限制,这两家机构的用户群体交集很小。同时,由于枳构类型的不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦学习,就必须引入迁移学习,来解决单边数据规模小和标签样本少的问题,从而提升模型的效果。

参考文献:
[1] 杨强, 刘洋, 程勇, 康焱, 陈天健, 于涵. 联邦学习[M]. 电子工业出版社, 2020
[2] 微众银行, FedAI. 联邦学习白皮书V2.0. 腾讯研究院等, 2021

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/983002.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

0013Java程序设计-springboot教材图文内容审核系统

摘 要目 录第1章 绪论1.1 研究背景与意义1.2 研究内容1.3 论文组成结构 系统实现用户登录模块的实现后台管理系统登录模块的实现投稿信息的实现 开发环境 摘 要 《教材图文内容审核系统》课程案例库研究系统系统主要功能模块包括投稿信息、打卡记录、新闻资讯等,采…

USBCodec芯片的工作原理以及应用

USBCodec芯片通过USB接口从计算机中获取数字音频信号,并将其进行AO3401A采样处理。采样率通常为44.1kHz或48kHz,这是CD音质的标准采样率。高质量的USBCodec芯片还可以支持更高的采样率,例如96kHz或192kHz,以提供更好的音频体验。 …

matlab相机标定求得相机内参

素材下载 可以去官网下载标定板,然后使用我们的相机进行拍照(10~15张即可): 下载请点击这里:here 在拍摄照片之前,先量取对应的每个方格的长度: 如下: 使用MATLAB标定 打开MATLAB的命令行: 输入 cameraCalibrator #调用标定的工具箱 添加的是刚刚我们拍照标定板的…

「2024」预备研究生mem-分析推理强化:多对多画表格(下)

一、分析推理强化:多对多画表格(下) 选修:

入栏需看——学习记忆

记忆方法千千种,本栏意在梳理其中道道来,旦有小得,肥肠幸耶。从不同角度分析学习记忆。 逻辑篇 有逻辑 用思维导图 思维导图记忆有逻辑的文本/内容 理论 巧记书本结构–思维导图 模仿 HCIE-Cloud Computing LAB备考第一步&#xff1a…

Java 日志技术

所以说,要学Logback! 配置文件 Logback提供了一个核心配置文件logback.xml,日志框架在记录日志时会读取配置文件中的配置信息,从而记录日志的形式。 可以配置日志输出的位置是文件还是控制台可以配置日志输出的格式还可以配置日…

Vert.x 源码解析(4.x)——Local EvnentBus入门使用和源码解析

Vert.x 源码解析(4.x)——Local EvnentBus入门使用和源码解析 目录 1.简介 Vert.x EventBus是一个分布式事件总线,用于在Vert.x应用程序内或跨多个Vert.x应用程序之间实现异步通信。它允许不同的组件、模块或服务之间通过消息进行交互,从而实现松耦合和…

判断一个点是否在一个多边形内部

如下图所示, 四边形ABCD, P在四边形内部,Q在四边形外部。 通过观察可以发现, 当点在四边形内部时, 如果按顺时针方向的话, 点P在四条边AB, BC, CD, DA的右侧。 当然如果按逆时针的话, 点P在四条…

python—9个基础常识

1. 注释 1)单行注释:****# #注释内容print(123) #123print(abc) #abcprint("abc") #abc2)多行注释:****‘’’ 或 “”" (1) 第一种注释方式    code  code  ...(2)第二种注释方式 ""&…

web网站性能测试怎么做?常见指标怎么写?

Web性能测试 一、网站web性能测试是什么意思?比如我们在打开一个网站的时候,网站打开时间很慢,或者总是打开失败,这都与网站性能有关系。那么网站性能测试就是通过各种自动化测试工具对系统的指标进行测试,通过模拟正…

使用Apache Doris自动同步整个 MySQL/Oracle 数据库进行数据分析

Flink-Doris-Connector 1.4.0 允许用户一步将包含数千个表的整个数据库(MySQL或Oracle )摄取到Apache Doris(一种实时分析数据库)中。 通过内置的Flink CDC,连接器可以直接将上游源的表模式和数据同步到Apache Doris&…

Nature揭示记忆与食欲的大脑连接与肥胖风险相关

根据最新研究,调节记忆的大脑回路和调节食欲的大脑回路间的连接中断程度与体重指数(BMI)成正比,这在患有导致肥胖的紊乱或暴饮暴食行为比如暴食症(BED)的患者中关联更显著。该研究指出,肥胖者的…

华为mate60 上线 媒介盒子多家媒体报道

为什么你的品牌营销不见效?如何能推动品牌破圈?让媒介盒子给你一些启发。本期盒子要跟大家分享地新机上市,数码科技行业企业该如何做线上宣传。 HUAWEI Mate 60系列8月29日官宣发布,出色的拍照功能、强大的性能表现和持久的续航能…

OpenCL编程指南-10.1C++包装器API

C包装器API概述 CAPI划分为多个类,分别映射到一个OpenCL C类型,例如,cl::Memory类就映射到OpenCL C中的cl_mem。不过,C API会尽可能使用继承提供额外的一层类型抽象;例如,类cl::Buffer派生自基类cl::Memor…

短视频转化率是什么意思,怎么计算,多少算正常?

短视频转化率是指在短视频平台上,观看短视频的用户中,实际进行某种转化行为的比例。转化行为可以是各种具体行动,例如点击链接、访问网站、购买产品等。 一、短视频转化率怎么算,计算公式是什么? 短视频转化率的计算…

Shell命令操作Linux文件系统

Shell命令操作Linux文件系统 文件夹介绍 文件夹常规命令 文件夹权限控制⭐ 文件类型和权限 修改文件权限 移动、复制、删除文件夹 文件夹介绍 Linux文件系统是计算机操作系统中的一个关键组成部分,它用于管理和组织计算机上的数据和信息。先到根目录&#xf…

开学什么牌子的电容笔比较好?便宜好用的触控笔

苹果原装的电容笔和国内的平替电容笔最大的不同之处,就是平替电容笔只有一个倾斜压感功能,而不是像苹果原装的电容笔一样,同时具有着倾斜压感功能与重力压感功能。不过,如果你很少用电容笔作画,那么你也不用选择昂贵的…

【2023集创赛】国家集创中心杯全国二等奖:运算放大器

本文为2023年第七届全国大学生集成电路创新创业大赛(“集创赛”)国家集创中心杯二等奖作品分享,参加极术社区的【有奖征集】分享你的2023集创赛作品,秀出作品风采,分享2023集创赛作品扩大影响力,更有丰富电…

OpenCV(二十六):边缘检测(二)

目录 1.Laplacian算子边缘检测 原理: Laplacian边缘检测函数Laplacian() 示例代码: 2.Canny算子边缘检测 原理: Canny算法函数Canny() 示例代码: 1.Laplacian算子边缘检测 原理: Laplacian算子的原理基于图像…

IAST百科全书第16期:IAST与RASP的区别

Hello 大家好,欢迎来到新一期IAST百科全书,之前有同学提问IAST和RASP是不是非常类似,今天就专门给大家展开讲讲。 如果说SAST是从“内部”测试应用程序,DAST是从“外部”测试,那IAST就是“从内到外”进行测试&#xf…