Federated Unlearning for On-Device Recommendation

news2024/11/24 12:22:05

WSDM 2023
CCF-B

Federated Unlearning for On-Device Recommendation

本文工作的主要介绍

本文主要介绍了一种名为FRU(Federated Recommendation Unlearning)的联邦学习框架,用于在设备端的推荐系统中实现用户数据的有效擦除和模型重建。FRU通过存储用户的历史更新并校准这些更新,实现了有效的用户数据擦除和模型重建,从而保护用户隐私并提高系统的安全性。文章提出了重要性基础的更新选择策略和一种新颖的负采样方法,以在资源受限的设备上高效存储历史更新。通过实验证明,FRU能够消除特定用户的影响,并以至少7倍的速度加快模型的恢复过程。

本文的主要研究方法

这篇文章的主要研究方法是提出一种名为FRU(Federated Recommendation Unlearning)的联邦忘记框架,用于在设备上的推荐系统。FRU通过存储每个用户的历史模型更新,然后通过校准这些更新来重建联邦推荐系统。为了在资源受限的设备上有效存储历史更新,作者提出了一种基于重要性的更新选择策略和一种新颖的负采样方法。为了评估FRU的忘记能力,作者提出了一种攻击方法,使用一组被破坏的客户端来干扰联邦推荐系统的训练过程,然后应用FRU来消除这些恶意用户的影响。FRU与模型无关,可以应用于大多数联邦推荐系统。作者使用两个流行的推荐器在两个真实世界推荐数据集上进行了实验。结果表明,FRU可以消除特定用户的影响,并在7倍的速度上有效地恢复联邦推荐系统。

论文中的实验是如何设计的,详细描述各实验方法并概括总结:

实验设计主要包括以下几个方面:

  • 基线方法:构建了两个基线方法,Retrain(从头开始重新训练)和FedRemove(仅删除目标用户的全局参数更新,然后直接聚合剩余客户端的更新)。
  • 评估指标:使用广泛使用的Hit Ratio at rank 10(HR@10)和Normalized Discounted Cumulative Gain at rank 10(NDCG@10)来衡量推荐性能。
  • 数据集:使用了两个常用的联邦推荐数据集,MovieLens-100k和Steam-200k。
  • 参数设置:对于NCF,用户和项目嵌入的维度为64。采用4个神经层,分别为128、256、128和64,处理连接的用户和项目嵌入。对于LightGCN,用户和项目嵌入的维度为64,使用1层进行图传播。
  • 实验结果分析:从以下两个方面评估所提出的FRU方法的性能:
    • (1)FedRec是否恢复;(2)遗忘效率。

实验结果表明,FRU可以恢复受到恶意用户影响的FedRec并实现与Retrain相当甚至更好的性能,同时具有更高的效率。此外,FRU在不同的FedRec模型上具有有效且通用的遗忘能力。在MovieLens-100k和Steam-200k数据集上,FRU能够成功地消除特定用户的影响并在7倍的速度上恢复FedRec。最后,通过消融研究分析了FRU不同组件的贡献。

这篇论文的主要贡献是啥?

  • 首次提出了一个用于设备推荐的联邦遗忘框架(FRU),该框架可以有效地删除特定用户/客户的影响,并在较短的时间内完成恢复。
  • 提出了一种基于重要性的更新选择机制,仅存储客户端交互项目和采样负项目的嵌入更新,从而降低存储成本。
  • 提出了一种用户-项目混合半硬负采样策略,通过从用户和项目两侧选择半硬负样本来降低更新参数的大小。
  • 通过在两个真实世界推荐数据集(MovieLens-100k和Steam-200k)上进行实验,证明了FRU在删除恶意用户影响方面的有效性和效率,与从头开始重新训练的方法相比,其速度提高了至少7倍。
  • 通过消融研究和超参数分析,展示了FRU不同组件的贡献。

作者提出了哪些待未来进一步探究探索的问题?

  • 如何在不同的联邦推荐系统中应用FRU,以及如何优化FRU以适应更复杂的模型。
  • 研究更有效的负采样方法,以进一步减少存储和计算成本。
  • 探讨如何在保持隐私的同时实现更高效的联邦推荐。
  • 研究如何在恶意攻击下提高联邦推荐的稳定性和鲁棒性。
  • 在不同的应用场景下,如何平衡效果、效率和安全性,以实现更实用的联邦推荐。

这篇文章的数据支持了哪些观点?

  • 提出的联邦忘记框架(FRU)能够有效地从设备推荐系统中删除特定用户的影响,并以至少7倍的速度恢复联邦推荐模型。
  • 通过用户-项目混合的半硬负采样策略,FRU可以在资源受限的设备上更有效地存储历史更新,从而减少每次迭代中项目嵌入更新的数量。
  • 在MovieLens-100k和Steam-200k两个真实世界推荐数据集上进行的实验结果表明,FRU可以成功地恢复受到攻击的联邦推荐系统,同时与完全重新训练的方法相比,它在时间成本和空间成本方面具有更高的效率。

作者的研究思路是什么?是怎样论述和解决的?

  • 提出了一种名为FRU(Federated Recommendation Unlearning)的方法,该方法通过修改FedRec的历史更新并利用修改过的更新来加速FedRec的重构,从而实现对目标用户的影响进行有效的清除。

  • 为了在每个客户端设备上有效地存储历史更新,作者设计了两个创新组件:基于重要性的更新选择机制和用户-项目混合半难负采样方法。前者在每个训练周期动态选择重要更新存储在每个客户端设备上,而后者通过利用高质量的负样本来训练FedRec,从而达到比传统采样方法使用更少的负样本数量,同时实现相当的模型性能。

  • 为了评估FRU的反学习能力,作者提出了一种攻击方法,通过一组被损坏的客户端来干扰FedRec的训练过程。然后,他们使用FRU来恢复被这些恶意用户影响损害的FedRec。

  • 通过在两个真实世界的推荐数据集(MovieLens-100k和Steam-200k)上进行实验,以及使用两个常用的联邦推荐器(NCF和LightGCN),作者展示了所提出方法的效率和有效性。

    总之,作者通过提出FRU方法、设计创新的组件以有效存储历史更新,并通过实验评估了FRU的反学习能力,从而解决了在联邦推荐系统中如何有效地清除特定用户影响的问题。

这篇文献和同主题的其他文献相比如何?有什么优点,又有哪些局限?

优点:

  • 首次提出了针对联邦推荐系统的联邦忘记方法(FRU),使得联邦推荐系统能够有效地擦除特定用户/客户的影响,并高效地完成恢复。
  • FRU采用了重要性更新选择策略和用户-项目混合半硬负采样方法,有效地减少了设备上存储的历史更新数据量,提高了存储效率。
  • 通过引入攻击方法来评估FRU的忘记能力,实验结果表明FRU能够消除特定用户的影响并高效地恢复联邦推荐系统,比完全重新训练快7倍。

局限性:

  • 文章中提到的FRU方法主要针对基于嵌入的联邦推荐系统,可能不适用于其他类型的联邦推荐模型。
  • 实验部分仅使用了两个真实世界推荐数据集(MovieLens-100k和Steam-200k)以及两种常用的联邦推荐算法(NCF和LightGCN)来评估方法的有效性和效率,可能不够全面。
  • FRU方法在处理用户隐私和数据保护方面具有一定优势,但在面对恶意攻击时,可能需要进一步优化以提高系统的鲁棒性和抵抗力。

什么是重要性更新选择策略以及用户-项目混合硬负采样方法?

重要性更新选择策略和用户-项目混合硬负采样方法是一种在联邦推荐系统(FedRecs)中提高存储效率和模型性能的方法。

  • 重要性更新选择策略:
    该策略仅存储客户端交互项目和抽样负项目的嵌入更新,这些项目占整个项目集的一小部分。然后,FRU进一步减少存储成本,忽略非显著更新。对于一个客户端/用户,FRU仅存储其更新的前几个项目嵌入更新,这些更新基于其更新的显著性。
  • 用户-项目混合硬负采样方法:
    该方法从用户和项目两个方面选择半硬负样本。从用户角度选择硬负样本,计算用户嵌入与候选池中的每个项目嵌入之间的相关性,为每个客户选择硬负样本。为了弥补早期用户嵌入的不可靠性,我们从项目方面整合负样本。具体来说,我们使用用户交互项目的嵌入中心作为早期模型训练阶段的伪用户嵌入,因为在FedRecs中,项目嵌入比用户嵌入更频繁地更新,因此在训练的非常早期阶段更可靠。我们采用元素级平均计算项目嵌入中心。接着,我们通过计算相关性得分选择硬负项目。
    这两种方法结合起来,可以在保持模型性能的同时,提高联邦推荐系统中每个客户端设备上存储空间的利用率。

该领域目前存在什么问题?这篇文章需要解决什么问题?

领域目前存在的问题主要有以下几点:

  • 如何在联邦推荐系统中有效地删除特定用户的影响,以满足用户隐私保护要求。
  • 如何在有限的存储空间和计算资源下,高效地存储和处理历史模型更新。
  • 如何在联邦推荐系统中找到高质量的负采样数据,以提高模型训练效果和收敛速度。

这篇文章需要解决的问题是:提出一种联邦反学习方法(Federated Unlearning),用于在设备上的推荐,以便在保持用户隐私的同时实现高效的模型更新存储和恢复。具体来说,文章提出了以下方法:

  • 利用重要性更新选择机制,仅存储与用户交互项目和采样负项目相关的嵌入更新,从而减少存储成本。
  • 提出一种用户-项目混合半硬负采样策略,从用户和项目两个方面挑选半硬负样本,以提高负采样质量,从而加速模型训练。
  • 通过修复历史模型更新,实现快速的联邦推荐模型恢复,从而有效地消除特定用户的影响。

对于论文所提出的创新点通俗的解释?

  • 1.联邦忘记框架
    这篇论文首次提出了一种新的概念,称为“联邦忘记”,特别是在设备推荐系统中的应用。这个框架,被称为FRU,它像数据库中的回滚机制一样,能够“记住”所有用户在推荐系统中所做的更改(比如他们的偏好或评分)。
    当需要撤销(或忘记)某些用户的数据时,FRU通过调整这些历史更改来重新构建推荐系统,就好像这些用户的数据从未存在过一样。

  • 2.基于重要性的更新选择和新颖的负采样方法:
    为了使FRU在那些存储空间有限的设备上也能有效运行,论文设计了一种特殊的方法来选择哪些用户数据是最重要的,以及一种新的负采样方法。这样可以在有限的空间里有效地存储和管理用户的历史数据。

  • 3.攻击方法和对策:
    论文还提出了一种攻击方法,即利用一些被破坏的客户端(恶意用户)来干扰推荐系统的正常学习过程。
    使用FRU,可以消除这些恶意用户的影响,使推荐系统恢复到没有受到攻击前的状态。

4.FRU的模型无关性和效果验证:

  • FRU框架的一个重要特点是它不依赖于特定的模型,这意味着它可以应用于多种不同的联邦推荐系统。
    在两个真实世界的推荐系统数据集上的实验显示,FRU能够有效地“忘记”特定用户的影响,并且在恢复推荐系统时比传统方法快7倍。

5.消融研究
为了展示FRU的不同部分(比如数据存储方式、更新选择机制等)对其整体性能的贡献,论文进行了消融研究。这是一种研究方法,通过移除系统的某些部分来观察对性能的影响。

FRU算法的伪代码:

图片中描述的是“联邦推荐忘记”(FRU)算法的伪代码,它是一个用于联邦学习环境的算法。FRU旨在使得联邦学习系统能够从模型中移除特定用户的数据,类似于“忘记”这些用户的历史交互信息。以下是对该算法步骤的通俗解释:
在这里插入图片描述
在这里插入图片描述
总结:
FRU算法允许联邦学习系统在不重新训练整个模型的情况下忘记特定用户的数据。它通过在本地更新用户参数,并在必要时加速本地更新来响应忘记请求。这种方法旨在维护用户隐私,同时保持系统的灵活性和效率。在实际操作中,FRU可以帮助联邦学习系统适应用户数据的变化,例如当用户要求删除他们的数据或由于隐私政策需要移除特定信息时。

在不重新训练模型而忘记特定用户对模型的影响,通常意味着去除或减少该用户数据对模型的影响?

在联邦学习的上下文中,这种“忘记“的实现通常包括以下步骤

  • 识别影响:首先,需要识别特定用户的数据在模型中的影响。这可能涉及到追踪用户的数据在模型训练过程中的贡献。
  • 反向操作:接下来,执行一系列操作来逆转这些影响。理论上,这可能涉及到使用用户数据时应用的相同更新步骤的“逆操作”。
  • 参数更新:然后,通过调整模型参数来减少或消除该用户数据的影响。这可能需要精心设计的算法,以确保其他用户的数据和模型的有效性不会受到负面影响。
  • 模型校准:最后,可能还需要在剩余的数据上对模型进行一些校准,以补偿移除数据后的变化。

将一个客户端的数据进行干扰后,是否可以干扰主模型的训练结果?

这种干扰可能表现为以下几种方式:

  • 数据中毒攻击:恶意客户端可能故意发送错误的模型更新,这被称为数据中毒攻击。如果服务器没有有效的检测和缓解措施,这些恶意更新可能被纳入全局模型中。
  • 模型性能下降:错误的更新会导致模型在特定任务上的性能下降,因为模型可能会学习到错误的模式。
  • 泛化能力受损:由于错误的数据反映了不正确的用户行为或偏好,全局模型的泛化能力可能会受到损害。
  • 系统可信度降低:系统的整体可信度和可用性可能会因为包含了干扰数据而降低。
  • 隐私风险:如果干扰涉及到揭露其他客户端的隐私信息,可能还会产生隐私泄露的风险。

因此,为了保证联邦学习系统的健壮性,通常需要实施一些机制,例如:

  • 异常检测:对客户端的更新进行异常检测,以识别和过滤掉可能的恶意更新。
  • 数据验证:验证客户端的数据质量和完整性。
  • 差分隐私:应用差分隐私技术,确保单个更新不会对全局模型产生过大影响。
  • 鲁棒聚合算法:使用如联邦平均(FedAvg)的改进版本,增加对异常值的鲁棒性。
  • 模型修正和更新策略:设计能够纠正或忽略错误更新影响的模型修正策略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1372917.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Web 缓存代理—— Nginx、CDN

代理的工作机制 代替客户机向网站请求数据,从而可以隐藏用户的真实IP地址。将获得的网页数据(静态 Web 元素)保存到缓存中并发送给客户机,以便下次请求相同的数据时快速响应。 代理服务器的概念 代理服务器是一个位于客户端和原始…

Kafka之集群搭建

1. 为什么要使用kafka集群 单机服务下,Kafka已经具备了非常高的性能。TPS能够达到百万级别。但是,在实际工作中使用时,单机搭建的Kafka会有很大的局限性。 ​ 消息太多,需要分开保存。Kafka是面向海量消息设计的,一个T…

徐怀钰巡演将开启,巡回22城上演全民金曲盛宴

1月10日下午,天后徐怀钰空降成都,现身“徐怀钰2024倒数3秒巡回演唱会”新闻发布会,在行业大咖、百余名歌迷的陪伴与在线数万直播观众的见证下,正式揭晓22座巡演城市,宣告巡演璀璨开启。主办方今夕何夕文化表示&#xf…

系列十、Java中的八种基本数据类型

一、Java中的八种基本数据类型 1.1、概览 1.2、备注 byte最大值:127 ,byte最小值:-128 short最大值:32767 ,short最小值:-32768 int最大值:2147483647 ,int最小值:-2147483648 long最大值:9…

云上攻防--云原生Docker逃逸--特权逃逸--危险挂载--漏洞逃逸

云上攻防–云原生&&Docker逃逸–特权逃逸–危险挂载–漏洞逃逸 目录标题 云上攻防--云原生&&Docker逃逸--特权逃逸--危险挂载--漏洞逃逸Docker介绍判断Docker环境容器逃逸-特权模式容器逃逸-危险挂载挂载DockerSocket逃逸挂载宿主机procfs逃逸 容器逃逸-Docker…

【前端素材】bootstrap4实现在线蛋糕甜品店网页Tehzeeb

一、需求分析 在线蛋糕甜品店的网站通常包含以下几个方面的内容和功能: 主页:网站的主页是用户进入网站的第一个页面,通常会展示一些精选蛋糕和甜品的图片和介绍,以吸引用户的注意力。主页还可能包含一些特别促销或最新的产品信息…

Matlab 分段函数(piecewise)

语法 pw piecewise(cond1,val1,cond2,val2,...) pw piecewise(cond1,val1,cond2,val2,...,otherwiseVal)描述 pw piecewise(cond1,val1,cond2,val2,...) 返回分段表达式或函数pw,当cond1为True时,其值为val1,当cond2为True时&#xff0…

超维空间M1无人机使用说明书——61、ROS无人机yolo识别与投放

引言:使用yolo进行物体识别,根据返回的目标位置信息,控制无人机全向移动,当无人机到达目标物的正上方,满足一定的误差阈值后,ROS发布控制控制将舵机挂载的物体抛下,紧接着无人机前往起飞点上方寻…

Java中异常处理-详解

异常(Exception) JVM 默认处理方案 把异常的名称,异常的原因,及异常出错的位置等信息输出在控制台程序停止执行 异常类型 编译时异常必须显示处理,否则程序会发生错误,无法通过编译运行时异常无需显示处理…

灵活实现主题切换 —— 白天、黑夜等主题

1、上代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><style>/* 默认的CSS变量集合 */:root {--pr…

光伏方案设计有什么注意点?

光伏方案设计是实现光伏发电系统高效运行的关键环节。在进行光伏方案设计时&#xff0c;有几个重要的注意点需要特别关注。 首先&#xff0c;要充分考虑地理位置和气候条件。不同地区的日照时数、太阳辐射强度和日照角度都有所不同&#xff0c;这些因素直接影响光伏发电系统的发…

85.乐理基础-记号篇-力度记号

内容来源于&#xff1a;三分钟音乐社 上一个内容&#xff1a;78.乐理基础-非常见拍号如何打拍子-CSDN博客 85-78之间的内容观看索引&#xff1a; 腾讯课堂-三分钟音乐社-打拍子&#xff08;20&#xff09;-总结、重点、练习与检验方法开始看 力度记号&#xff1a;p、f、mp、…

网络协议攻击与模拟_02ARP协议

一、arp协议简介 一个工作在二层的三层协议&#xff0c;事一个2.5层协议 ARP协议地址解析协议&#xff0c;将一个已知的Ip地址解析为MAC地址&#xff0c;从而进行二层数据交互 二、工作流程 1、两个阶段 ARP请求ARP响应 两台主机IP地址主机A和主机B&#xff0c;IP地址和MAC…

2024年AI红利:抓住AI内容写作、绘画、数字人、等四大变现机遇

2023年见证了人工智能大模型的爆发&#xff0c;其影响力超出了科技界范畴&#xff0c;成为推动社会进步的重要力量。大模型的突破性进展引起了全球关注&#xff0c;被视为科技发展4.0时代的革命性创新。而每一次革命性创新都是一把双刃剑&#xff0c;随之而来的互联网大裁员事件…

RocketMQ 消费重试

消费者出现异常&#xff0c;消费某条消息失败时&#xff0c; Apache RocketMQ 会根据消费重试策略重新投递该消息进行故障恢复。本文介绍消费重试机制的原理、版本兼容性和使用建议。 一、应用场景​ Apache RocketMQ 的消费重试主要解决的是业务处理逻辑失败导致的消费完整性…

Web开发SpringBoot SpringMVC Spring的学习笔记(包含开发常用工具类)

开发框架学习笔记 一.Spring SpringMVC SpringBoot三者的联系SpringMVC工作原理 二.SpringBoot的学习2.1 注解2.1.1 SpringBoot的核心注解2.1.2 配置导入注解(简化Spring配置写XML的痛苦)Configuration和Bean(人为注册Spring 的 Bean)Import(补)ImportResource(补)AutowiredQua…

盖子的c++小课堂——第二十四讲:差分数组

前言 嗨嗨嗨&#xff0c;这里是盖子的小课堂哟&#xff0c;这次更新主要是因为快放假了&#xff0c;时间多了&#xff0c;好嘞&#xff0c;废话不多说&#xff0c;点赞评论拿来吧你~ 差分数组 一维差分数组 假设给你一个数组 nums &#xff0c;先对区间 [a,b] 中每个元素加…

深兰科技AI医疗健康产品获3000台采购订单

12月6日&#xff0c;武汉某企业与深兰科技签署协议&#xff0c;一次性采购3000台深兰科技AI生理健康检测仪——扁鹊。 深兰科技AI生理健康检测仪——扁鹊是深兰科技推出的人体生理指标检测产品。基于AI生物技术、融合互联网医疗及AIoT技术&#xff0c;深兰科技AI生理健康检测仪…

STM32入门教程-2023版【3-4】按键控制制LED

关注 点赞 不错过精彩内容 大家好&#xff0c;我是硬核王同学&#xff0c;最近在做免费的嵌入式知识分享&#xff0c;帮助对嵌入式感兴趣的同学学习嵌入式、做项目、找工作! 这篇文章以项目代码的形式实现GPIO输入 一、按键控制LED &#xff08;1&#xff09;搭建面包板电…

Java中输入和输出处理(三)二进制篇

叮咚&#xff01;加油&#xff01;马上学完 读写二进制文件Data DataInputStream类 FilFeInputStream的子类 与FileInputStream类结合使用读取二进制文件 DataOutputStream类 FileOutputStream的子类 与FileOutputStream类结合使用写二进制文件 读写二进制代码 package 面…