[TIFS 2022] FLCert:可证明安全的联邦学习免受中毒攻击

news2025/1/19 20:36:48

FLCert: Provably Secure Federated Learning Against Poisoning Attacks | IEEE Journals & Magazine | IEEE Xplore

摘要

由于其分布式性质,联邦学习容易受到中毒攻击,其中恶意客户端通过操纵其本地训练数据和/或发送到云服务器的本地模型更新来毒害训练过程,从而使中毒的全局模型错误地分类许多不分青红皂白的测试输入或攻击者选择的输入。现有的防御主要利用拜占庭式的联合学习方法或检测恶意客户端。但是,这些防御措施没有针对中毒攻击的可证明的安全保证,并且可能容易受到更高级的攻击。在这项工作中,我们的目标是通过提出FLCert来弥合差距,FLCert是一个集成的联合学习框架,可以证明可以安全地抵御有限数量的恶意客户端的中毒攻击。我们的主要思想是将客户划分为组,使用任何现有的联邦学习方法为每组客户端学习全局模型,并在全局模型中获得多数票以对测试输入进行分类。具体来说,我们考虑了两种对客户端进行分组的方法,并相应地提出了两种 FLCert 变体,即 FLCert-P 在每个组中随机采样客户端,以及 FLCert-D 确定性地将客户端划分为不相交组。我们在多个数据集上的大量实验表明,我们的 FLCert 为测试输入预测的标签可证明不受有限数量的恶意客户端的影响,无论它们使用何种中毒攻击。

一、引言

联邦学习(FL)[18],[23]是一种新兴的机器学习范式,它使客户(例如,智能手机,物联网设备和组织)能够协作学习模型,而无需与云服务器共享其本地训练数据。由于其承诺保护客户本地培训数据的隐私以及新兴的隐私法规,如通用数据保护条例(GDPR),FL已被行业部署。例如,谷歌已经在Android Gboard上部署了FL用于下一个单词预测。现有的FL方法主要遵循单一全局模型范式。具体来说,云服务器维护一个全局模型,每个客户端维护一个本地模型。全局模型通过客户端和服务器之间的多次通信迭代进行训练。在每次迭代中,执行三个步骤:1)服务器将当前全局模型发送给客户端;2)客户端根据全局模型和本地训练数据更新本地模型,并将模型更新发送到服务器;3) 服务器聚合模型更新并使用它们来更新全局模型。然后使用学习的全局模型来预测测试输入的标签。

然而,这种单一全局模型范式容易受到中毒攻击。特别是,攻击者可以将假客户端注入 FL 或破坏正版客户端,我们称假客户端为恶意客户端。例如,攻击者可以使用功能强大的计算机来模拟许多假冒智能手机。此类恶意客户端可以通过仔细篡改发送到服务器的本地训练数据或模型更新来破坏全局模型。因此,损坏的全局模型对于正常测试输入 [6]、[10](称为非靶向中毒攻击)或某些攻击者选择的测试输入 [2]、[3](称为靶向中毒攻击)的准确性较低。例如,在非目标中毒攻击中,恶意客户端可以通过操纵其本地模型更新来偏离全局模型,使其与在没有攻击的情况下更新的方向相反[10]。在有针对性的中毒攻击中,当学习图像分类器时,恶意客户端可以在其本地训练数据中将带有某些条带的汽车重新标记为鸟类,并扩展发送到服务器的模型更新,以便全局模型错误地将带有条带的汽车预测为鸟 [2]。

已经提出了各种拜占庭稳健的FL方法来防御来自恶意客户端的中毒攻击。[4], [5], [32]。这些方法的主要思想是减轻客户模型更新中统计异常值的影响。它们可以绑定在没有恶意客户端的情况下学习的全局模型参数与在某些客户端变得恶意时学习的全局模型参数之间的差异。但是,这些方法无法证明测试输入的全局模型预测的标签不受恶意客户端的影响。事实上,研究表明,恶意客户端仍然可以通过仔细篡改发送到服务器的模型更新来大幅降低拜占庭鲁棒方法学习的全局模型的测试准确性[3],[6],[10]。

A. 我们的工作

在这项工作中,我们提出了FLCert,这是第一个可以证明对中毒攻击安全的FL框架。具体来说,给定n 客户,我们定义N 组,每个组都包含客户端的一个子集。特别是,我们设计了两种对客户端进行分组的方法,对应于FLCert的两个变体,即FLCert-P和FLCert-D,其中P和D分别代表概率确定性。在 FLCert-P 中,每个N 组包括k 从n 客户端统一随机。请注意,总共有(nk) 可能的组,因此N 可以和(nk) 在 FLCert-P.在 FLCert-D 中,我们将n 客户进入N 确定性地不相交组。

对于每个组,我们使用任意 FL 算法(称为基本 FL 算法)与组中的客户端学习全局模型。总的来说,我们训练N 全球模型。给定测试输入x ,我们使用每个N 预测其标签的全局模型。我们表示n我 作为预测标签的全局模型的数量我 为x 并定义p我=n我n 哪里i=1,2,⋯,L .

我们的集成全局模型预测标签频率/概率最大的标签x .换句话说,我们的集成全局模型在N 用于预测标签的全局模型x .由于每个全局模型都是使用客户端子集学习的,因此当大多数客户端是良性的时,大多数全局模型都是使用良性客户端学习的。因此,多数票标签中的N 测试输入的全局模型不受有限数量的恶意客户端的影响,无论它们使用何种中毒攻击。

B. 理论

我们的第一个主要理论结果是,FLCert 可证明地预测了测试输入的相同标签x 当恶意客户端的数量不大于阈值时,我们称之为认证安全级别。我们的第二个主要理论结果是,我们证明了我们派生的认证安全级别是严格的,即,当没有对基础FL算法做出假设时,不可能推导出比我们更大的认证安全级别。请注意,对于不同的测试输入,认证安全级别可能不同。

C. 算法

计算我们认证的安全级别x 需要其最大和第二大标签频率/概率。对于 FLCert-P,当(nk) 很小(例如,n 客户是数十个组织[17]和k 很小),我们可以通过训练精确地计算最大和第二大标签概率N=(nk) 全球模型。但是,在以下情况下准确计算它们具有挑战性(nk) 很大。为了应对计算挑战,我们开发了一种随机算法,通过训练以概率保证来估计它们N≪(nk) 全球模型。由于这种随机性,FLCert-P实现了概率安全保证,即FLCert-P为测试输入输出不正确的认证安全级别,其概率可以设置为任意小。对于FLCert-D,我们训练N 全局模型并确定性地获取标签频率,使FLCert-D的安全保证具有确定性。

D. 评价

我们在来自不同领域的五个数据集上实证评估了我们的方法,包括三个图像分类数据集(MNIST-0.1 [20],MNIST-0.5 [20]和CIFAR-10 [19]),人类活动识别数据集(HAR)[1]和下一个单词预测数据集(Reddit)[2]。我们将MNIST和CIFAR中的训练示例分发给客户端以模拟FL场景,而HAR和Reddit数据集代表真实世界的FL场景,其中每个用户都是一个客户端。我们还评估了五种不同的基本FL算法,即FedAvg [23],Krum [4],Trimmed-mean[32],Median [32]和FLTrust [5]。此外,我们使用认证的准确性作为我们的评估指标,这是无论恶意客户端使用何种中毒攻击,方法都可以证明达到的测试准确性的下限。例如,我们的FLCert-D与FedAvg和N=500 当训练示例均匀分布在 81,1 个客户端且其中 000 个是恶意客户端时,可以在 MNIST 上达到 100% 的认证准确率。

总之,我们的主要贡献如下:

  • 我们提出了FLCert,一个具有可证明的安全保证的FLCert框架,可以防止中毒攻击。具体来说,FLCert-P 提供概率安全保证,而 FLCert-D 提供确定性保证。此外,我们证明我们派生的认证安全级别是严格的。

  • 我们提出了一种随机算法来计算FLCert-P的认证安全级别。

  • 我们在来自不同领域的多个数据集和多个基本 FL 算法上评估 FLCert。我们的结果表明,FLCert在理论上和经验上都对中毒攻击是安全的。

二、相关工作

A. 联邦学习

客户端和服务器协作以迭代方式解决优化问题。具体来说,在训练过程的每次迭代中,执行以下三个步骤:1)服务器将当前全局模型广播给(子集)客户端;2)客户端将其本地模型初始化为接收的全局模型,使用随机梯度下降训练局部模型,并将本地模型更新发送回服务器;3)服务器聚合本地模型更新并更新全局模型。

B. 对FL的中毒攻击

最近的研究[2],[3],[6],[10],[24],[27]表明FL容易受到中毒攻击。 根据攻击者的目标,对FL的中毒攻击可以分为两类:非靶向中毒攻击[6],[10],[24],[27]和有针对性的中毒攻击[2],[3]。

1)非针对性中毒攻击:

非靶向中毒攻击的目标是降低学习到的全局模型的测试准确性。这些攻击旨在尽可能提高全局模型的不分青红皂白的测试错误率,这可以被视为拒绝服务(DoS)攻击。根据攻击的执行方式,非靶向中毒攻击有两种变体,即数据中毒攻击 [27] 和本地模型中毒攻击 [6]、[10]。数据中毒攻击会篡改恶意客户端上的本地训练数据,同时假设计算过程保持完整性。他们注入虚假的训练数据点,删除现有的训练数据点,和/或修改现有的训练数据点。本地模型中毒攻击篡改恶意客户端的计算过程,即直接篡改恶意客户端的本地模型或发送到服务器的模型更新。请注意,在 FL 中,任何数据中毒攻击都可以通过本地模型中毒攻击来实现。这是因为在每个恶意客户端上,我们始终可以将使用篡改的本地训练数据集训练的本地模型视为被篡改的本地模型。

2)有针对性的中毒攻击:

针对性中毒攻击旨在强制全局模型预测目标测试输入的目标标签,而其在非目标测试输入上的性能不受影响。目标中毒攻击中的目标测试输入可以是特定的测试输入 [3]、具有某些属性 [2] 的某些测试输入或嵌入了特定触发器的测试输入 [2]。如果目标测试输入是触发器嵌入的测试输入,则有针对性的中毒攻击也称为后门攻击。后门攻击旨在破坏全局模型,以便为嵌入预定义触发器的任何测试输入预测攻击者选择的目标标签。

C. 防御对FL中毒攻击

已经提出了许多防御措施[8],[14],[15],[16],[21],[22],[26],[28],[29],[30],以应对集中学习场景中的数据中毒攻击。 但是,它们不足以防御对FL的中毒攻击。特别是,经验防御[8],[22],[30]需要有关训练数据集的知识,出于隐私考虑,FL服务器通常无法使用这些知识。此外,可证明安全的防御 [14]、[15]、[16]、[21]、[26]、[28]、[29] 可以保证为测试输入预测的标签不受有限数量的中毒训练示例的影响。 但是,在 FL 中,单个恶意客户端可以毒害任意数量的本地训练示例,从而打破其假设。

拜占庭稳健的FL方法[4],[5],[32]利用拜占庭稳健的聚合规则来抵抗中毒攻击。他们分享了在聚合本地模型更新时减轻中毒攻击引起的统计异常值的影响的想法。例如,Krum [4] 选择具有最小平方欧几里得距离分数的单个模型更新作为新的全局模型更新;修剪平均值 [32] 计算修剪后模型更新参数的坐标平均值,并使用相应的平均值更新全局模型;中位数 [32] 通过计算局部模型更新的坐标中位数来更新全局模型;FLTrust [5] 利用一个小型干净数据集来计算服务器更新,并将其用作基线来引导对本地模型更新的信任。这些方法都有一个关键限制:它们无法提供可证明的安全保证,即,当存在中毒攻击时,它们无法确保用于测试输入的全局模型的预测标签保持不变。

另一种类型的防御侧重于检测恶意客户端并在聚合之前删除其本地模型 [10], [25], [33]。Shen等人[25]建议在本地模型上执行聚类以检测恶意客户端。Fang et al. [10] 提出了两种防御措施,即使用验证数据集根据它们对验证数据集上评估的错误率或损失值的影响来拒绝潜在的恶意本地模型。Zhang等人[33]提出通过检查模型更新的一致性来检测恶意客户端。这些防御在检测恶意客户端方面显示出一些经验有效性。但是,它们也无法提供可证明的安全保证。

Wang等人[28]提出了一种经过认证的后门攻击防御措施。最近的一项工作[31]将这种方法扩展到FL,并称之为CRFL。CRFL旨在证明针对特定后门攻击的鲁棒性[2],其中所有恶意客户端都使用后门本地训练数据集训练其本地模型,并在一次FL迭代中同时将其模型更新发送到服务器之前扩展其模型更新。他们表明,如果恶意客户端本地训练数据的变化幅度有限,则可以证明在这种特定攻击下学习的全局模型的准确性。但是,恶意客户端可以任意更改其本地训练数据。因此,单个恶意客户端可以通过使用中毒攻击而不是被视为特定的后门攻击来破坏其防御。相反,无论恶意客户端执行何种攻击,我们的 FLCert 都是可证明安全的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/427840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里“通义千问”大模型上线!让生成式AI更贴近中国人生活

阿里版的 ChatGPT 语言大模型来了。 张勇在峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。他认为,面向AI时代,所有产品都值得用大模型重新升级。 目前,钉钉、天猫精灵等产品已接入通义千问测…

PYQT5学习笔记00——Pycharm环境搭建以及配置项目虚拟环境教程

1、安装基本环境 需要的基本环境有python3.x的解释器、pip包管理工具以及pipenv虚拟环境管理工具。   我们安装了python后,pip包管理工具会自带安装,pipenv虚拟环境管理工具我们使用pycharm即可,无需使用python自带的。 python解释器下载地…

【Git代码仓库托管】上海道宁为您提供构建、扩展和交付安全软件的完整开发人员平台

GitHub是用于 构建、扩展和交付安全软件的 完整开发人员平台 通过提高开发人员速度的工具 推动创新 加快高质量软件开发 GitHub提供无限的存储库 一流的版本控制和 世界上强大的开源社区 因此您的团队可以 更高效地协同工作 开发商介绍 GitHub归属于微软公司&#xf…

Java EE企业级应用开发(SSM)第6章

第6章Spring MVC应用一.预习笔记 1.Spring MVC的请求参数 项目的基础配置 web.xml springmvc-config.xml jar包资源引入: 1-1:获取默认参数 jsp页面如下: Controller如下: 1-2:简单数据类型(获取数据不…

sqlplus / as sysdba无法登陆

dba你快用你无敌sysdba登陆数据库! 导言:as sysdba属于特殊的数据库权限,使用的是系统认证,sqlplus sys/passtns as sysdba用的才是你的密码文件中的设置 #认证设置问题 配置在sqlnet.ora文件 在linux下 #sqlnet.authenticati…

MySQL-binlog+dump备份还原

目录 🍁binlog日志恢复 🍂binlog介绍 🍂Binlog的用途 🍂开启binary log功能 🍂配置binlog 🍁mysqldump 🍂数据库的导出 🍂数据库的导入 🍁mysqldumpbinlog 🦐…

小程序系统API调用

目录: 1 网络请求API和封装 2 展示弹窗和页面分享 3 设备信息和位置信息 4 小程序Storage存储 5 页面跳转和数据传递 6 小程序登录流程演练 小程序的网络请求,不管是post还是get的请求的数据都是写在data里面的。 网络请求一般写在onLoad()的页面生…

debian部署docker(傻瓜式)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 debian10部署dockerdebian10部署docker(傻瓜式)一、准备工作二、**使用 APT 安装,注意要先配置apt网络源**1.配置网络源2.官方下载三、安装…

复旦微ZYNQ7020全国产替代方案设计

现在国产化进度赶人,进口的芯片只做了个功能验证,马上就要换上国产的。国内现在已经做出来zynq的只有复旦微一家,已经在研制的有上海安路,还有成都华微(不排除深圳国威也在做,毕竟这个市场潜力很大&#xf…

尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

视频地址:尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】尚硅谷大数据技术Ha…

代码优雅化进阶学习(三)

代码优雅化进阶学习(三) 文章目录代码优雅化进阶学习(三)需求详情难点最佳实现效果实现优点需求详情 如下图: 实现类似结构,首先按照 status 状态的值,分为全部 已实现 和 未实现;再…

Spring Cloud之一:注册与发现-Eureka工程的创建

系列目录(持续更新。。。) Spring Cloud:什么是微服务 Spring Cloud之一:注册与发现-Eureka工程的创建 Spring Cloud之二:服务提供者注册到Eureka Server Spring Cloud之三:Eureka Server添加认证 Spr…

FPGA采集AD7606数据UDP网络传输 提供工程源码和技术支持 附带上位机接收软件

目录1、前言2、我这里已有的UDP方案3、AD7606采集详解4、UDP设计方案5、AD7606 UDP传输详细设计方案UDP应用的设计思路获取FPGA网卡信息获取数据UDP发送数据组包UDP发送流程6、vivado工程详解7、上板调试验证并演示8、福利:工程代码的获取1、前言 目前网上的fpga实…

如何将音频文件转换为MP3格式?

音频文件有很多种格式,如 WAV、FLAC、AAC 等,其中 MP3 是最为常见的一种格式,因为它具有压缩比高、音质损失少、兼容性强等优点,适合在各种设备上播放。如果你想将一个音频文件转换为 MP3 格式,可以采用以下几种方法&a…

实现mini智能助理—模型训练

背景 距离上篇打带你实现自己迷你chatgpt文章,到现在已经过去快两个月。自制mini chatgpt文章一直没有更新,原因有二:1.一直在找合适体量表现不错模型 2.公司内部太卷了,没太多时间好好梳理文章。这篇文章会给大家介绍一些大模型…

踩坑:IDEA中Junit、Test模块无法使用Scanner

今天在做作业,在一个测试功能需要输入数据,于是想起了Scanner,运行之后发现控制台无法输入。 然后打开我心爱的浏览器,开始搜索,网上很多关于“IDEA中Test模块无法使用Scanner”的解决方法,基本上都是修改I…

Pandas入门实践2 -数据处理

为了准备数据进行分析,我们需要执行数据处理。在本节中,我们将学习如何清理和重新格式化数据(例如,重命名列和修复数据类型不匹配)、对其进行重构/整形,以及对其进行丰富(例如,离散化…

rebar3安装-windows篇

rebar3是erlang的包管理工具,虽然不是官方出品,但它已经成为事实上的官方包管理工具了,github地址如下: https://github.com/erlang/rebar3 已经不难看出它的地位了。 rebar官网地址是http://rebar3.org/,上面有安装…

使用Socks5代理加强爬虫的网络安全

网络爬虫是获取互联网上数据的重要手段,但也会因为访问频率过高或其他不当行为,导致被网站封禁或IP被屏蔽。此时,使用代理服务器是解决这一问题的常用方法。本文介绍了Socks5代理的使用方式,以及如何将其应用到爬虫中,…

记录:解决with invalid types() or values()...问题【亲测有效】

👨‍🎓作者:bug菌✏️博客:CSDN、掘金、infoQ、51CTO等🎉简介:CSDN博客专家,C站历届博客之星Top50,掘金/InfoQ/51CTO等社区优质创作者,全网粉丝合计10w,对一切…