「隐语小课」LDP和CDP在联邦学习中对于隐私性以及鲁棒性的作用

news2024/10/6 14:25:07

本次分享内容为NDSS收录的一篇文章:《Local and Central Differential Privacy for Robustness and Privacy in Federated Learning》。这篇论文主要分析了LDP和CDP在联邦学习中对于隐私性以及鲁棒性的作用。围绕这篇论文的分享将分为以下4个部分:

  • 动机与方法

  • 背景知识

  • 针对FL的攻击方法与防御方法

  • 总结

一、动机与方法

1.动机:

现有防御手段只能针对隐私性以及鲁棒性两个维度中的一个进行保护,因此抛出两个问题:

  • 是否能同时对上述两个维度进行保护?

  • 如何衡量保护效果与模型可用性之间的trade-off?

2.方法及达到的效果:

总结了针对FL的两个维度,即鲁棒性和隐私性的现有攻击以及防御手段,分析了分析LDP和CDP对于FL中的鲁棒性和隐私性的保护效果,其可行性的Intuition在于:LDP 是sample-level,CDP是participant-level,能够不同程度的降低‘poisonous data or gradients’在训练中的影响,同时能够提供不同程度的隐私保护。此外,在实际的数据集上进行了大量的实验比较,验证了LDP和CDP的作用。

二.背景知识

1.联邦学习

图片

图片来源:https://air.tsinghua.edu.cn/info/1008/1312.htm

联邦学习最早由Google提出,主要的思想是各个数据方本地迭代训练模型,得到模型的梯度,再交由中心服务器进行梯度的聚合,并将聚合后的梯度发送给各个数据方。为了保护模型的梯度以及抵御恶意攻击,中心服务器会采用不同的聚合方法或者同态加密的技术,提高安全性以及鲁棒性。

2.差分隐私

差分隐私提供了一种方式来量化隐私泄露的程度,其标准定义为:

图片

而用于机器学习领域,可以用于在发送或者聚合梯度是对包含隐私信息的梯度加噪:

图片

3.差分隐私+联邦学习

加噪的常见位置有:

  • Loss Function:修改模型的损失函数

  • Model:对训练好的模型参数加噪

  • Gradients:对模型训练过程中的梯度加噪

目前使用最多的为对梯度加噪,修改损失函数需要分析模型的收敛性,而对最终模型加噪可能会导致严重的精度损失。

加噪的常见方式有如下两种,基于DP-SGD [1]

  • LDP:local differential privacy。即由各方本地对还未聚合的梯度加噪

图片

  • CDP:central differential privacy。即由中心服务器对聚合的梯度加噪

图片

上述两种加噪方式都是在计算梯度的时候,根据梯度的二范数添加噪声。

三.针对FL的攻击方法与防御方法

鲁棒性(Robustness)

1.攻击方法

投毒攻击(注意,此种攻击假设的adversary只有client),有如下分类

  • Random: 构造一些随机样本/梯度,或者错分类的样本来降低最终模型的Acc

  • Target (Backdoor): 构造特定的样本/梯度,使得特定sample的分类结果为指定值

此篇文章针对的是Target,即Backdoor后门攻击。

图片

后门攻击中 [2,3],模型参数使用[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZmyxZvJk-1683356837955)(null)]表示,backdoored version 用 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Nt9jBuQ0-1683356837842)(null)]表示,

在聚合时使用model-replacement的方式实现攻击:

图片

因此有:

图片

2.防御方法

  • Byzantine-robust 防御:Krum,Trimmed Mean…

  • 这里没有分析对于Bzyzantine 相关的defense,claim是这些方案并没有提供privacy相关保护

  • Sun et al.[2] 提出Norm Bounding 和 Weak DP 来防御攻击

  • Norm Bounding:通过对梯度进行限制,减弱恶意攻击方的梯度对于模型训练的影响

图片

  • Weak DP:类似CDP,但是没有考虑Total Privacy Budget,即会导致添加的噪声过多,影响模型的可用性

  • Small noise, large privacy loss

3.实验结果

实验设置:选取两个数据集上的实验为例

  • EMNIST- 5-layer CNN. 2400 clients

  • CIFAR10 – ResNet18 100 clients

评估的metrics为Main Task Accuracy 以及 Backdoor Accuracy。前者代表了模型的可用性(越高说明可用性越好),后者代表了抵御攻击的能力(越低说明Backdoor成功的几率越小)。

Setting 1:使用[2]中的攻击方法,每轮迭代中只有一个攻击方

图片

图三可以看到如果没有加任何防御手段,虽然Main Task Accuracy很高,但是相应的 Backdoor Accuracy也很高,说明后门攻击的效果很好。

Norm Bounding和Weak DP都能带来一定程度的抵御,但是Norm Bounding在训练多轮之后仍然会导致较高的Backdoor Accuracy。

LDP和CDP对于后门攻击的抵御效果显著,但是epsilon的增加会导致utility的下降,Main Task Accuracy对比Weak DP较低。

Setting 2: 增加每一轮迭代中攻击方的数量,并且攻击方可以选择是否按照协议执行LDP defense

图片

LDP和CDP相较Norm Bounding和Weak DP能够起到很好的防御效果,然而也导致utility下降。值得注意的是,LDP防御中只需要10%的攻击方不添加噪声,能够比没有defense起到更强的attack 效果。这是因为没有加DP的梯度对聚合的模型梯度有更大影响。

单从robustness上来看的话,LDP和CDP没有显著的优势。此外,CDP会对server有安全假设,而LDP对于攻击的防御很弱(假设client为攻击方)

隐私性(Privacy)

1.攻击方法

注意,此种攻击假设的adversary可以是client,也可以是server

  • Membership Inference Attack [4]:
  1. Gradient Ascent

  2. Isolating

  3. Isolating Gradient Ascent

  • Property Inference Attack [5]:(需要有数据)
  1. Passive:通过使用不同数据的梯度,根据梯度判断训练数据是否包含特定属性

  2. Active:修改local model使得模型学习的数据表示和property相关

  3. 图片

2.防御方法

  • Dropout

  • Gradient Sampling

不过这篇文章并没有针对现有的这些方案进行实验对比,仍然选择Norm Bounding 和Weak DP进行实验对比。

3.实验结果

Membership Inference Attack

图片

LDP和CDP能够显著抵御membership inference attack,而Norm Bounding 和 Weak DP的防御效果很弱。LDP和CDP的缺点在于,同样会导致更高的utility loss,模型Main Task Accuracy相比不加defense下降了十几个点。因此这是utility和privacy的一个trade-off。

Property Inference Attack

主要任务是性别分类,property inference的目的是判断种族

图片

实验结果可以看到LDP和CDP均不能很好的抵御Property Inference Attack。

四.总结

相较现有的分别针对鲁棒性和隐私性的防御方法,LDP和CDP能够同时抵御这两类攻击。但是也存在utility和privacy的显著trade-off,并且不能低于property inference attack。未来需要考虑将LDP、CDP和现有的防御手段进行结合,在提高鲁棒性和隐私性的同时,减少可用性的损失。此外,作者指出需要设计出更加合理实际的方法来比较CDP和LDP所提供的隐私保护程度。

Ref

[1]: Deep Learning with Differential Privacy. CCS 2016

[2]: Can You Really Backdoor Federated Learning.

[3]: How To Backdoor Federated Learning.

[4]: Comprehensive privacy analysis of deep learning. S&P 2019

[5]: Exploiting unintended feature leakage in collaborative learning. S&P 2019

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/508426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mac录屏软件推荐!相信我,看完你不会后悔

有粉丝后台问小编,自己的电脑是mac电脑,不知道如何使用mac电脑录屏,有没有mac录屏软件推荐?小编之前也是用的Windows电脑进行录屏,后来换了mac,经过多年的摸索,熟练掌握了录屏方法。今天小编就带…

在facebook上最容易开展的营销活动是什么?如何开展?

在Facebook上最容易开展的营销活动包括社交媒体广告、社群互动、社交内容分享以及活动与促销。这些活动可以帮助企业吸引目标受众、增加品牌曝光度、提高用户参与度和促进销售。下面让我们详细了解一下如何开展这些活动,并给出相应的案例。 1.社交媒体广告&#xff…

全景丨0基础学习VR全景制作,平台篇第20章:热点功能-文章

大家好,欢迎观看蛙色VR官方——后台使用系列课程! 功能说明 应用场景 热点,指在全景作品中添加各种类型图标的按钮,引导用户通过按钮产生更多的交互,增加用户的多元化体验。 文章热点,即点击热点后会嵌入…

Java EE--多线程(二)

目录 四、多线程案例之--单例模式 3.1 单例模式 3.2 怎么去设计一个单例? 饿汉模式 懒汉模式 3.3 两种模式的总结 四、多线程案例之--单例模式 4.1 单例模式 是校招中最常考的设计模式之一. 啥是设计模式? 设计模式好比象棋中的 " 棋谱 &quo…

Cookie的使用

1.Cookie的工作原理 Web应用程序中使用的是HTTP.HTTP是无状态协议,客户端与服务器完成业务交互后,它们之间的联系会关闭.由于交互式Web应用的需求增加,管理会话和识别用户的身份应运而生.比如,用户A登录一个网站后,在第二次登录的时候会免登录,自动进入用户A的个人主页. 服务…

哪种蓝牙耳机戴着最舒服?佩戴最舒服的真无线蓝牙耳机

无论在地铁、咖啡厅、商场甚至是机场,佩戴蓝牙耳机可以让我们尽情地享受音乐,戴上耳机可以避免影响他人的同时也能避免隐私的泄露。因此这几年真无线蓝牙耳机也受到了广大网友的追捧。,下面分享几款佩戴舒适的蓝牙耳机给大家。 一、南卡小音…

修改文章的软件-有没有自动修改文章的软件

自动修改文章神器 自动修改文章神器是一种利用人工智能和自然语言处理技术,帮助用户快速修改和优化文章的工具。该软件能够检测文章的语法和拼写错误、表达不当的问题,并自动提供修改和优化建议。用户只需根据软件的提示进行修改,就能得到高…

三子棋游戏的实现

前言:相信大家都玩过三子棋吧,曾想经常和同学在考试之后玩一个晚自习的三子棋。那么,如何自己编写一个三子棋游戏呢,请看下面的分析; 1.游戏设计思路 在写任何代码时,最好先有个大致的框架,然后…

二维数组---C语言(行列抽象思维)

目录 前言: 1.数组 1.1数组的初始化 1.2数组的访问方法 2.二维数组 2.1二维数组的创建和初始化 2.2二维数组的访问 2.3内存中的二维数组 ❤博主CSDN:啊苏要学习 ▶专栏分类:C语言◀ C语言的学习,是为我们今后学习其它语言打好基础&am…

探索 Elasticsearch 8.X Terms Set 检索的应用与原理

1、Terms Set 检索简介 Terms Set查询是Elasticsearch中一种强大的查询类型,主要用于处理多值字段中的文档匹配。 其核心功能在于,它可以检索至少匹配一定数量给定词项的文档,其中匹配的数量可以是固定值,也可以是基于另一个字段的…

快速排序、希尔排序、归并排序、堆排序、插入排序、冒泡排序、选择排序(递归、非递归)C语言详解

1.排序的概念及其运用 1.1排序的概念 排序:所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。 稳定性:假定在待排序的记录序列中,存在多个具有相同的关键字的记录&…

postman 的 console 窗口,助力 http 请求错误时的问题排查

postman 是个很不错的 http 请求测试工具,有时我们使用它发送 http 请求,但是因为各种原因,导致请求失败,没有 response 返回,可能只有一个状态码,这让我们排查起来非常困难,比如下图所示&#…

GitLab + Jenkins 实现持续集成CI

1 软件版本 2 基础环境安装 2.1 docker 安装 yum install -y docker-ce-20.10.16 systemctl start docker && systemctl enable docker docker version 2.2 docker-compose 安装 curl -L https://get.daocloud.io/docker/compose/releases/download/1.29.2/docker-c…

虚拟化无法开启

虚拟化无法开启 开启虚拟机,突然出现以下报错: 此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态。 如果已在 BIOS/固件设置中禁用 Intel VT-x,或主机自更改此设置后从未重新启动,则 Intel VT-x 可能被禁用。 (1…

modbus 协议地址

modbus 仿真软件 modbus slave: 用作 modbus 服务器(也叫做modbus从站), 通常用于仿真PLC设备.modbus poll: 用作 modbus 客户端(也叫做modbus主站), 用于仿真上位机程序, 通常使用它在现场验证PLC设备的modbus通讯是否OK 理解 modbus 寻址 modbus 分4个数据区, 实际因为第4区可…

【Redis】Redis 高性能IO模型原理

前言 在面试的时候遇到Redis肯定会问,Redis单线程为什么那么快呀?你可以说下你对IO多路复用的机制嘛。但是仔细一想Redis真的是单线程在运行处理嘛,其实这个单线程主要指的Redis的网络IO和键值对读写是由一个线程来完成的,Redis在…

深度学习—卷积神经网络简单理论及实践

卷积神经网络 传统意义上的多层神经网络只有输入层、隐藏层和输出层。其中隐藏层的层数根据需要而定,没有明确的理论推导来说明到底多少层合适。 卷积神经网络CNN,在原来多层神经网络的基础上,加入了更加有效的特征学习部分,具…

Docker 安装 elasticsearch、kibana、ik

一、安装elasticsearch 1. 拉取 elasticsearch 镜像 docker pull elasticsearch:7.6.2 2. 创建 elasticsearch 容器 docker run --name elasticsearch7.6.2 -d -e ES_JAVA_OPTS"-Xms512m -Xmx512m" --net host -e "discovery.typesingle-node" -p 92…

SpringCloud踩坑系列:Mybatis的Mapper报错

500错误&#xff0c; 报错信息如下&#xff1a; org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): org.cyf.serviceDriverUser.mapper.DriverUserMapper.select1 at org.apache.ibatis.binding.MapperMethod$SqlCommand.<init>(M…

判断两个时间段是否有交集

判断两个时间段是否有交集 前言&#xff1a;项目中遇到了类似会议室预约的时间段被占用&#xff0c;预约车辆时间段被占用等。 start&#xff1a;预约开始时间。 end&#xff1a;预约结束时间。 思考&#x1f914;&#xff1a; 那几种情况&#xff0c;可以正常预约&#x…