一、是什么
概念
- 联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果,实现联合建模。联邦学习兼顾 AI 应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
- 大白话
- 举个简单的例子来说,有10个团队要做同样的任务,各自都有自己业务上的数据集,它们都希望可以借助别人的数据提升模型性能,但不愿意把自己数据都暴露出去;联邦学习的解决方案就是不共享对方的数据,但是共享对方的模型参数,实现云端的分布式模型训练。这样一来大家都可以保护自己的数据,并且共享更多数据带来的模型性能提升
- 举个简单的例子来说,有10个团队要做同样的任务,各自都有自己业务上的数据集,它们都希望可以借助别人的数据提升模型性能,但不愿意把自己数据都暴露出去;联邦学习的解决方案就是不共享对方的数据,但是共享对方的模型参数,实现云端的分布式模型训练。这样一来大家都可以保护自己的数据,并且共享更多数据带来的模型性能提升
法律与合规
- 目前,《中华人民共和国密码法》、《中华人民共和国网络安全法》、《信息安全技术个人信息安全规范》等一系列法律法规的正式生效,规范了信息安全和隐私保护的具体要求,隐私保护的重要性和迫切性不言而喻。
- 2020年4月,国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》把数据列为生产要素,并要求”加强数据资源整合和安全保护”,”制定数据隐私保护制度和安全审查制度”。
- 2020年5月,国务院印发《关于新时代加快完善社会主义市场经济体制的意见》中明确提出:“加强数据有序共享,依法保护个人信息”。
- 2020年12月,国家发改委联合3部委发布《关于加快构建全国一体化大数据中心协同创新体系的指导意见》,以深化数据要素市场化配置改革为核心,优化数据中心建设布局
联邦学习体系
- 横向联邦学习(样本联合):特征重叠多,用户重叠少
- 纵向联邦学习(特征联合): 特征重叠少,用户重叠多
- 联邦迁移学习(迁移学习): 特征重叠少,用户重叠少
二、名字解释
- 数据孤岛:各个企业收集到的数据不一样,且数据没有利用起来,企业之间数据不共享
- 分布式机器学习:用户各自在本地训练模型,最后统一更新到服务器上,使用各个用户的资源训练实现分布式
- 数据加密:希望通过数据加密,对数据用户数据进行隐私化,这样既保证数据共享又能保证数据私密性
- 联合建模:将企业数据进行加密共享来训练一个联合模型(大家只是共用模型,无法知道对方使用数据的细节)
三、学习过程
3.1 横向联邦学习
基本概念
- 横向联邦学习的本质是样本的联合,适用于参与者间业态相同但触达客户不同,即特征重叠多,用户重叠少时的场景,比如不同地区的银行间,他们的业务相似(特征相似),但用户不同(样本不同),典型案例是来自微众银行的FATE:后面我们将进行实操WEBank开源联邦学习框架FATE
学习过程
- step1:参与方各自从服务器A下载最新模型;
- step2:每个参与方利用本地数据训练模型,加密梯度上传给服务器A,服务器A聚合各用户的梯度更新模型参数;
- step3:服务器A返回更新后的模型给各参与方;
- step4:各参与方更新各自模型。
3.2 纵向联邦学习
基本概念
- 纵向联邦学习的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,比如同一地区的商超和银行,他们触达的用户都为该地区的居民(样本相同),但业务不同(特征不同)。
学习过程
- 纵向联邦学习的本质是交叉用户在不同业态下的特征联合,比如商超A和银行B,在传统的机器学习建模过程中,需要将两部分数据集中到一个数据中心,然后再将每个用户的特征join成一条数据用来训练模型,所以就需要双方有用户交集(基于join结果建模),并有一方存在label。其学习步骤如上图所示,分为两大步:
- step1:加密样本对齐。是在系统级做这件事,因此在企业感知层面不会暴露非交叉用户。
- step2:对齐样本进行模型加密训练:
- step3:由第三方C向A和B发送公钥,用来加密需要传输的数据;
- step4:A和B分别计算和自己相关的特征中间结果,并加密交互,用来求得各自梯度和损失;
- step5:A和B分别计算各自加密后的梯度并添加掩码发送给C,同时B计算加密后的损失发送给C;
- step6:C解密梯度和损失后回传给A和B,A、B去除掩码并更新模型
3.3 联邦迁移学习
基本概念
-
当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习,迁移学习,是指利用数据、任务、或模型之间的相似性,将在源领域学习过的模型,应用于 目标领域的一种学习过程,例如:人类学会了打乒乓球,也可以尝试学会网球等,这种迁移学习的能力
学习过程
-
整个学习过程是利用A、B之间共同样本来学习两者间各自的特征不变量表示 ,同时利用A的所有样本label 和A的不变量特征学习分类器。
四、应用场景
金融机构同运营商合作营销–理财产品客户营销
金融政务数据联合风控–小微贷款产品风控
实际案例
微众银行:多方大数据隐私计算平台 WeDPR—PPC
- 2020年1月,微众银行发布了即时可用场景式隐私保护高效解决方案WeDPR。WeDPR 融合了区块链技术与隐私计算技术,使得实际商业场景中的敏感数据在区块链上可以得到更好的隐私保护。2021年5月,结合区块链和安全多方计算的优势,微众银行又推出多方大数据隐私计算平台WeDPR-PPC
蚂蚁链:区块链网络平台 FAIR
- 2021年10月22日,在云栖大会上,蚂蚁集团旗下蚂蚁链推出全新区块链网络平台FAIR。目前,FAIR 平台已经开始在政务领域、大型企业中落地,并且在金融等更多领域的探索正在进行当中
趣链科技:金融业数据共享平台
- 趣链科技与央行分支机构、银行开展合作,运用区块链+隐私计算技术设计了数据报送模式,在江西南昌成功落地金融业数据共享平台,建立了融资联合征信平台,解决了机构数据共享的问题。
八分量:政府税务数据平台
- 税务部门在监管各个企业汇总的税务数据时,无法准确识别税务信息(如发票)是否造假,其背后有没有真实交易行为发生。八分量提供基于隐私计算及跨链的税务数据平台,来解决各企业间的数据安全、数据共享、数据流通和数据验证问题。
星云基因:Oasis Network 框架
- 医疗行业里的病人数据具有高度隐私性,目前缺乏一套记录患者完整医疗信息的数据系统。星云基因使用 Oasis Network 的框架,客户可以保留其基因组数据的所有权,而星云基因可以在不查看客户原始信息的情况下对数据进行分析。