机器学习:争取被遗忘的权利

news2024/12/23 22:20:33

随着越来越多的人意识到他们通过他们经常访问的无数应用程序和网站共享了多少个人信息,数据保护和隐私一直在不断讨论。看到您与朋友谈论的产品或您在 Google 上搜索的音乐会迅速作为广告出现在您的社交媒体提要中,这不再那么令人惊讶。这让很多人感到担忧。

最近的政府举措,如欧盟的《通用数据保护条例》(GDPR),旨在保护个人的数据隐私,其核心概念是“被遗忘的权利”。

坏消息是,通常很难撤销已经在线共享的内容或正确删除此类数据。例如,Facebook最近推出了一款“Off-Facebook Activity”工具(以前称为“Clear History”),该公司表示,该工具使用户能够删除第三方应用程序和网站与Facebook共享的数据。但正如《麻省理工科技评论》(MIT Technology Review)所指出的那样,“这有点误导——Facebook并没有从第三方删除任何数据,它只是将其与自己的数据脱钩。

机器学习(ML)越来越被视为加剧了这一隐私问题。数据是驱动 ML 应用程序的燃料,这可能包括收集和分析个人电子邮件甚至医疗记录等信息。一旦输入ML模型,这些数据就可以永久保留,使用户面临各种隐私泄露的风险。

从研究人员的角度来看,一个问题是,如果数据点实际上从 ML 训练集中移除,则可能需要从头开始重新训练下游模型。

在一篇新论文中,来自多伦多大学,矢量研究所和威斯康星大学麦迪逊分校的研究人员提出了SISA训练,这是一种新框架,通过减少删除数据点时需要计算的更新数量来帮助模型“忘记”信息。

“ML在个人数据上的应用规模空前,促使我们研究如何在ML系统中有效地实施这种被遗忘的权利,”研究人员在论文Machine Unlearning中解释道。

让模型忘记某些知识需要使某些特定的训练点对模型的贡献为零。但数据点通常是相互依赖的,很难独立删除。现有数据还会持续使用新添加的数据来优化模型。

一种解决方案是了解各个训练点如何对模型参数更新做出贡献。但正如之前的研究表明,这种方法只有在学习算法按照学习开始之前确定的顺序查询数据时才实用。因此,如果对数据集进行自适应查询(这意味着给定的查询取决于过去所做的任何查询),这种方法将变得更具挑战性,因此很难扩展到深度神经网络等复杂模型。

因此,研究人员提出了一个名为分片、隔离、切片和聚合(SISA)训练的框架,他们提出可以通过对现有管道进行最少的修改来实现。

在SISA培训期间,培训时间A 首先被划分为多个分片,以便每个训练点仅包含在少量分片中——理想情况下是单个分片。然后在每个分片上隔离训练模型,这限制了任何一个数据点对在包含该点的分片上训练的模型的影响。最后,当请求取消学习训练点时,只需要重新训练受影响的模型。这个过程还减少了实现忘却的重新训练时间,因为每个分片当然都比整个训练集小。

每个分片也可以进一步划分为切片,这些切片可以在训练期间逐步呈现。研究人员在引入每个新切片之前保存模型参数的状态,这允许他们从最后一个已知参数状态开始重新训练,该状态不包括要取消学习的点。切片进一步有助于大幅减少模型忘记数据所需的时间。

2023-08-30T04:43:07.png

研究人员在来自不同应用领域的两个数据集上评估了SISA。结果显示,仅通过分片,该框架在Purchase数据集上就将再培训过程加快了3.13倍,在街景门牌号数据集上加快了1.66倍。根据该论文,通过进一步的切片,可以在两台机器上实现额外的加速。

通过展示SISA加速模型解学和在不同场景中泛化的能力,研究人员希望为ML中的实用数据治理提供解决方案,并帮助缓解日益增长的个人数据问题。

论文《Machine Unlearning》发表在arXiv上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/948763.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

响应式营销型H5建站平台系统源码 可视化后台+自助建站+搭建部署教程

分享一个响应式营销型H5建站平台系统源码,含700多套多行业模板,含完整代码包和详细的搭建部署教程。 自助建站是响应式营销型H5建站平台系统的特色功能之一,用户可以通过简单的操作,自主搭建网站。常规自助建站的步骤&#xff1a…

Flutter 苹果审核被拒2.1

1、拒绝原因 Guideline 2.1 - Performance - App Completeness We were unable to review your app as it crashed on launch. We have attached detailed crash logs to help troubleshoot this issue. Review device details: Device type: iPadOS version: iOS 16.6 Nex…

Invalid bound statement (not found) 报错

常规的问题都检查了&#xff0c;还是报错。 用mp代码生成器的目录结构如下&#xff1a; xml文件没有放在resources路径下 这样会导致xml文件不在target目录下&#xff0c;解决的方式是在pom.xml文件中加入&#xff1a; <build><resources><resource><…

C语言练习题第三弹!!!绝对典中典!!!

目录 1.单身狗1 1.1 题目 1.2 分析推理 1.3 代码实现 2.单身狗2 2.1 题目 2.2 分析推理 2.3 代码实现 3.字符串左旋 3.1 题目 3.2 分析推理 3.3 代码实现 3.3.1 方法一 3.3.2 优化一 3.3.2.1 思路分析 3.3.2.2 strcpy函数和strncat函数 3.3.2.3 代码实现 3.3.…

国产操作系统开放麒麟安装

国产操作系统 开放麒麟 银河麒麟 中科方德 统信UOS 红旗Linux 深度系统 优麒麟系统 开放麒麟操作系统 “开放麒麟1.0”是通过开放操作系统源代码的方式、由众多开发者共同参与研发的国产开源操作系统&#xff0c;系统的发布将有助于推动面向全场景的国产操作系统迭代更新&…

iOS 推送证书 Apple Push Services:不受信任的解决办法

2022年1月27日需要请求中间G4证书 ​​​​​​​ 链接 Apple PKI - Apple​​​​​​​

软件测试面试题:压测时,QPS一直上不去,如何排查?

在进行系统压测时&#xff0c;QPS&#xff08;Queries Per Second&#xff09;即每秒查询数&#xff0c;无法达到预期值是一个常见的问题&#xff0c;本文就来介绍下QPS一直上不去时应该如何排查。 一. 检查硬件资源 CPU使用率 使用top或nmon命令来查看CPU使用率。如果CPU使…

.netcore grpc日志记录配置

一、日志记录配置概述 通过配置文件appsettings.json进行配置通过Program.cs进行配置通过环境变量进行配置客户端通过日志通道进行配置 二、实战案例 配置环境变量:Logging__LogLevel__GrpcDebug配置Appsettings.json配置Program.cs配置客户端工厂以上截图是目前为止已知的可…

QT基础教程之六布局管理器和常用控件

QT基础教程之六布局管理器和常用控件 布局管理器 所谓 GUI 界面&#xff0c;归根结底&#xff0c;就是一堆组件的叠加。我们创建一个窗口&#xff0c;把按钮放上面&#xff0c;把图标放上面&#xff0c;这样就成了一个界面。在放置时&#xff0c;组件的位置尤其重要。我们必须…

C++ deque底层原理

deque底层原理 一、目的二、底层实现三、原理图四、类结构五、push_back六、pop_back 一、目的 实现双端数组 二、底层实现 双向开口的连续线性空间 三、原理图 四、类结构 class deque : protected Deque base _Deque_base._Deque_impl M_map 指针数组 _M_map_size …

java JUC并发编程 第五章 volatile与JMM

系列文章目录 第一章 java JUC并发编程 Future: link 第二章 java JUC并发编程 多线程锁: link 第三章 java JUC并发编程 中断机制: link 第四章 java JUC并发编程 java内存模型JMM: link 第五章 java JUC并发编程 volatile与JMM: link 文章目录 系列文章目录1 volatile 2大特…

KVM虚拟化ubuntu

KVM&#xff08;Kernel-based Virtual Machine&#xff09;是一种基于Linux内核的虚拟化技术&#xff0c;它将Linux内核作为虚拟机的底层操作系统&#xff0c;利用硬件虚拟化支持创建和管理虚拟机。KVM虚拟化技术被广泛应用于云计算、虚拟化服务器、虚拟化桌面等场景。 KVM虚拟…

最新无代码排名出炉,哪个平台最适合你?

随着无代码技术的迅速发展&#xff0c;国内外涌现出许多优秀的无代码平台提供商&#xff0c;企业在选择合适的无代码平台时可能会感到困惑&#xff0c;无从下手。为了帮助大家更好地了解国内真正的无代码平台厂商&#xff0c;本文将为您介绍几家具有代表性的厂商。 1.云表平台&…

数组中的第K个最大元素

题目链接 数组中的第K个最大元素 题目描述 注意点 需要找的是数组排序后的第 k 个最大的元素&#xff0c;而不是第 k 个不同的元素 解答思路 本题可以使用快速排序、堆排序或优先队列解决&#xff0c;快排可以比较快速找到某个元素在数组中排序后的位置&#xff0c;所以找…

Redis——》Redis的部署方式对分布式锁的影响

推荐链接&#xff1a; 总结——》【Java】 总结——》【Mysql】 总结——》【Redis】 总结——》【Kafka】 总结——》【Spring】 总结——》【SpringBoot】 总结——》【MyBatis、MyBatis-Plus】 总结——》【Linux】 总结——》【MongoD…

ToBeWritten之针对 Car ATTCK 的攻防矩阵

也许每个人出生的时候都以为这世界都是为他一个人而存在的&#xff0c;当他发现自己错的时候&#xff0c;他便开始长大 少走了弯路&#xff0c;也就错过了风景&#xff0c;无论如何&#xff0c;感谢经历 转移发布平台通知&#xff1a;将不再在CSDN博客发布新文章&#xff0c;敬…

有时间窗车辆路径问题(vehicle routing problems with time windows,VRPTW)学习实践与base案例代码开发

有时间窗车辆路径问题&#xff08;Vehicle Routing Problems with Time Windows&#xff0c;VRPTW&#xff09;是一类著名的组合优化问题&#xff0c;涉及在有限时间窗口约束下&#xff0c;有效地安排多个车辆的路径&#xff0c;以满足客户需求。 在VRPTW中&#xff0c;假设有…

what(): NCCL Error 1: unhandled cuda error解决方法

文章目录 遇到问题解决方法参考 遇到问题 运行项目&#xff1a;ACL2021的一篇工作&#xff0c;LM-BFF (Better Few-shot Fine-tuning of Language Models) https://github.com/princeton-nlp/LM-BFF 遇到环境问题。 我的机器环境如下&#xff1a; 服务器上CUDA版本为11.4 GPU…

为什么要参加浙大MPA提面申请?你看看AB资格的弃考率

时间即将来到九月份&#xff0c;在这个时间点依然能够坚持自己读研梦的考生&#xff0c;可以说基本是今年真正的准考生了&#xff01;在备考坚持这方面&#xff0c;其实每年很多考生走不到最后&#xff0c;比如在9-10月份全国研究生网上报名阶段&#xff0c;接近两成比例的考生…

geant4 常用代码

1 获取特特定能量范围的特定粒子 E:\examples_understanding\geant4-v11.0.0_note\examples\extended\runAndEvent\RE02 //-- Particle with kinetic energy filter.G4SDParticleWithEnergyFilter* pkinEFilter new G4SDParticleWithEnergyFilter(fltName"gammaE filter&…