技术分享——隐私计算简介

news2025/2/13 2:03:19

随着数据规模的不断扩大和网络技术的快速发展,数据安全和隐私保护成为了热门的话题。隐私计算作为一种新兴的数据安全和隐私保护技术,为数据安全和隐私泄露问题提供了新的思路和方法。

2020年10月19日,Gartner发布2021年前沿战略科技趋势,其中将隐私增强计算与行为互联网、分布式云、超级自动化等并列为最前沿的九大趋势。Gartner认为,到2025年将有一半的大型企业机构使用隐私增强计算在不受信任的环境和多方数据分析用例中处理数据。企业或组织应在开始使用隐私增强计算处理数据对象前,评估相关数据处理活动的要求。如个人数据转移、数据货币化、欺诈分析和其他高度敏感数据用例等。

隐私计算是一套包含人工智能、密码学、数据科学等众多领域交叉融合的技术体系。隐私计算是指在提供隐私保护的前提下,实现数据价值挖掘的技术体系。面对数据计算的参与方或其他意图窃取信息的攻击者,隐私计算技术能够实现数据处于加密状态或非透明状态下的计算,以达到各参与方隐私保护的目的。隐私计算能够保证满足数据隐私安全的基础上,实现数据价值和知识的流动与共享,真正做到“数据可用不可见”。

目前,隐私计算在我国已应用于金融、医疗、电子商务、智慧政府等领域。在金融领域,隐私计算主要用于金融风控模型的生成。传统金融风控过程中,需要调用不同数据接口,如身份实名验证、征信查询,会导致银行对客户的信贷审核成本过高,同时,银行等金融机构在面对小微企业信贷需求时,缺乏企业经营状况等有效数据,而导致小微企业融资难、融资贵、融资慢。同样消费金融类企业机构在面对风控时,缺乏客户互联网行为画像等有效数据。通过隐私计算中的联邦学习技术,将原本分散在不同机构之间的金融数据合法合规的多维度联邦数据建模,最终风控模型效果约可提升12%,消费金融类企业机构有效节约了信贷审核成本,整体成本预计下降5%-10%,并因数据样本量的提升和丰富,风控能力进一步增强。

联邦学习

联邦学习(Federated Learning)是一种较新的机器学习方法,联邦学习无需将所有数集中到服务器端进行模型训练。联邦学习的目的是保护客户端数据的隐私性,同时提高模型的训练效率和准确性。在传统的机器学习中,通常是将所有的数据集中在一个地方进行训练,这种方法存在一些问题。首先,随着全球数字化发展,数据安全的合规工作要求越来越,数据的流转可能导致严重的合规问题,甚至可能会影响国家安全。其次,数据的存储常集中在数据中心或云服务器上,可能会导致大量数据泄露或滥用的风险。最后,将数据从客户端传输到服务器会消耗大量的带宽和时间,降低模型训练的效率。而联邦学习则可以解决这些问题。在联邦学习中,模型的训练是在客户端完成的,每个客户端只需要训练自己本地的数据,而不需要将数据传输到服务器。然后,每个客户端的训练结果会被汇总到服务器上,从而生成一个全局模型。这种方法可以保护客户端数据的隐私性,同时减少了数据传输的开销,提高了训练效率和准确性。

联邦学习的大致步骤如下。

(1)中心服务器发送建模任务,寻求参与客户端。达成协议后,由中心服务器向各数据持有方发布初始参数。

(2)各数据持有方首先在本地根据己方数据进行局部计算,计算完成后,将本地局部计算所得梯度脱敏后进行上传,以用于全局模型的一次更新。

(3)在收到来自多个数据持有方的计算结果后,中心服务器对这些计算值进行聚合操作。

(4)中心服务器根据聚合后的结果对全局模型进行一次更新,并将更新后的模型返回给参与建模的数据持有方。数据持有方更新本地模型,并开启下一步局部计算,同时评估更新后的模型性能,当性能足够好时,训练终止,联合建模结束。

安全多方计算

安全多方计算(Secure Multi-Party Computation,简称SMPC)是一种密码学领域的隐私保护分布式计算技术。最初由图灵奖获得者、中国科学院院士姚期智教授在1982年通过百万富翁问题提出。安全多方计算的研究主要针对无可信第三方情况下,安全地进行多方协同计算问题。即在一个分布式网络中,多个参与实体各自持有秘密输入,各方希望共同完成对某函数的计算,而要求每个参与实体除计算结果外均不能得到其他用户的任何输入信息。MPC技术框架如下图所示。

​当一个MPC计算任务发起时,枢纽节点通过路由调度,传输网络及信令控制,选择相似数据类型的其余数据持有方进行安全的协同计算。参与协同计算的多个数据持有方的MPC 节点根据计算逻辑,从本地数据库中查询所需数据,共同就 MPC 计算任务在数据流间进行协同计算。在保证输入隐私性的前提下,各方得到正确的数据反馈,整个过程中本地数据没有泄露给其它任何参与方。

我们以百万富翁问题为例,了解安全多方计算的过程。百万富翁问题具体内容是两个百万富翁,想知道谁的钱更多,但都不想让对方知道自己有多少钱。

假设两个富翁的银行存款,均在1到10之间。甲的财富为5百万,乙的财富为3百万。甲找来了10个箱子,分别编号1到10。然后在每个箱子中放入水果。放水果的规则为编号小于自己财富的放香蕉,编号大于或等于自己财富的放苹果。最终箱子编号与水果的对应关系如下表。

箱子编号

1

2

3

4

5

6

7

8

9

10

水果

香蕉

香蕉

香蕉

香蕉

苹果

苹果

苹果

苹果

苹果

苹果

百万富翁问题简单解释

甲将这十个箱子发送给乙。乙只能打开与自己财富值编号相同的箱子,发现里面是香蕉。然后将其他箱子销毁。乙将香蕉的结果告诉甲,甲就可以判断出甲的财富值比乙多。这里的箱子编号与水果对应关系是整个算法的关键。并且这种方法适用于两个参与方进行多方计算。这个方法也有一些缺陷,比如最后的结果只有甲知道,乙的结果来源于甲。

差分隐私

差分隐私(Differential Privacy)是一种针对隐私保护数据分析问题而提出的一种隐私定义,可以在保护个人隐私的同时,对数据进行分析和挖掘。该算法通过向数据集中添加噪声来模糊数据,使得个人数据无法被唯一地识别。差分隐私算法的基本思想是:对于一个数据集中的每个个体数据,在算法加噪声之前或之后,其影响的差别是微小的,从而保护了隐私。

差分隐私保护模型的思想源自于一个很朴素的观察:当数据集D中包含个体Alice时,设对D进行任意查询操作f(例如计数、求和、平均值、中位数或其他范围查询等)所得到的结果为f(D),如果将Alice的信息从D中删除后进行查询得到的结果仍然为f(D),则可以认为,Alice的信息并没有因为被包含在数据集D中而产生额外的风险。差分隐私算法的基本思想是在数据处理过程中引入一定的噪声,使得每个个体的隐私都得到了保护,即使攻击者有了部分数据的知识,也无法推断出个体的隐私信息。具体来说,对于一个数据集中的每个个体数据,在算法加噪声之前或之后,其影响的差别是微小的,从而保护了隐私。同时,差分隐私也不会影响数据的整体统计特征和可用性,因此能够在保证数据隐私的前提下进行数据分析和挖掘。

举一个典型的例子。假设你是一名健身房的管理员,你想了解你的会员每天在健身房的活动情况,比如他们在哪些器械上花费了多少时间。然而,这些数据也涉及到个人隐私信息,比如姓名、年龄等。这时,你可以使用差分隐私算法来保护这些敏感数据。

你需要对每个会员的使用数据添加一些随机噪声,比如在他们在某个器械上花费的时间上加上一个小的随机数。这样,即使攻击者能够获得一部分数据,也无法准确地得知每个会员在具体器械上花费的时间。因为每个会员的使用数据都被添加了随机噪声,所以隐私得到了保护。

例如,某个会员实际上在跑步机上运动了30分钟,那么你会给他的数据加上一个随机数,比如5分钟,这样他的使用数据就变成了“跑步机上运动了35分钟”。如果另一个会员实际上在哑铃上锻炼了40分钟,那么你会给他的数据加上另一个随机数,比如3分钟,这样他的使用数据就变成了“哑铃上锻炼了43分钟”。这些随机噪声的值足够小,以至于他们的使用数据仍然可以提供有意义的信息,但不足以暴露他们的个人信息。

最终,你可以通过对这些加了噪声的使用数据进行统计分析来得出一个大致的结论,该健身房中有50%的会员每天使用跑步机,平均使用时间为40分钟。这样,在保护会员隐私的前提下,你仍然能够得到有用的信息,以便做出更好的管理决策。

同态加密

同态加密(Homomorphic Encryption)是一种特殊的加密方式,能够对密文进行某些特定计算,得到的结果与对应的明文计算结果相同,同时不暴露明文信息。这种加密方式可以让数据在加密状态下进行计算,从而保护数据的隐私性,同时允许计算结果在密文状态下保持机密性,这对于云计算和数据共享等场景非常有用。同态加密的起源可以追溯到20世纪70年代,由美国学者Ron Rivest, Leonard Adleman和Michael L.Dertouzos以银行为应用背景提出了这个概念。2009年9月Craig Gentry里从数学上提出了“全同态加密”(英语:Fully homomorphic encryption)的可行方法,即可以在不解密的条件下对加密数据进行任何可以在明文上进行的运算,使这项技术获取了决定性的突破。人们正在此基础上研究更完善的实用技术,这对信息技术产业具有重大价值。

同态加密的一种典型应用场景是使用云上算力进行计算。某个公司想要处理一些数据,但是他们的计算能力有限。这个公司通过购买云计算的服务,让云来帮助他们进行处理而得到结果。但是如果直接将数据交给云,无法保证安全性啊,于是,该公司使用同态加密,将加密后的数据交由云来对加密数据进行直接处理,并将处理结果返回给公司。

总结

随着全球对数据安全与个人隐私的重视,隐私计算成为了解决隐私合规的重要手段。其发展趋势与方向非常值得期待。

作者介绍

黄浩,深信服产教中心教学教研副主任,深信服安全服务认证专家(SCSE-S),产业教育中心资深讲师

CISSP认证注册信息系统安全师,中国计算机学会会员,暨南大学网络空间学院校外实践指导老师,深圳大学专业学位研究生校外导师,深圳信息职业技术学院产业学院副教授,湖南省数字经济促进会特聘讲师,中国高校计算机大赛-网络技术挑战赛评审;对企业网络安全框架设计、业务逻辑安全与防御体系有深刻认识;擅长DDoS攻击防御、操作系统安全防护、密码学、企业安全架构、取证溯源、应急响应等多个方向的课程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/639657.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VTK源码编译安装记录与教程(VS2019+QT5.15.2+PCL1.12.1+VTK9.1.0配置,超详细)

因为PCL库(傻瓜式安装)中自动安装的VTK库并不完整,不支持QT环境的UI界面开发,于是,想用QT在VS2019上开发图形界面程序,需要单独自己通过VTK源码编译安装,再进行配置。本人安装时开发环境已经装好…

2023拒绝行业内卷!八年软件测试月薪30K*16薪行业心得 想入行必看

目前工作做软件测试工作8年,属于高级测试员那个级别吧!现在看到各行各业的人都在转行学习软件测试,想给大家一些学习建议和忠告。 很多粉丝都跟我说今年行情很差,找不到工资,真的找不到工作了吗? 我们常在网…

simhash原理以及用python3实现simhash算法详解(附python3源码)

1. 为什么需要Simhash? 传统相似度算法:文本相似度的计算,一般使用向量空间模型(VSM),先对文本分词,提取特征,根据特征建立文本向量,把文本之间相似度的计算转化为特征向量距离的计算,如欧式距离、余弦夹角等。 缺点:大数据情况下复杂度会很高。 Simhash应用场景:…

Graph Learning笔记 - 长尾分布问题

Graph Learning笔记 - 长尾分布问题 分享四篇论文入门图神经网络时的学习笔记。 SL-DSGCN 论文:Investigating and Mitigating Degree-Related Biases in Graph Convolutional Networks 来源:2020CIKM 概要 GCN在图的半监督学习上能取得良好表现&a…

lora,固定模特+固定衣服,怎么实现?

在电商行业,经常会有一个需求,就是把固定的衣服让模型穿上,然后拍很多的图片,放在商品主图、详情页、买家秀...... 人工智能发展到现在,最近aigc也挺热门的,有没有办法用“人工智能”算法就实现这个功能&a…

逆向汇编反汇编——函数分析

add esp,8就是把esp调整到函数调用之前的状态,用以平衡堆栈 默认采用的是cdcall:外平栈 stdcall:内平栈 什么是堆栈平衡? 》原来的堆栈是什么样的,函数调用之后堆栈还是什么样的(即,esp和ebp的值保持不变)&#xf…

掌握Scala数据结构(2)MAP、TUPLE、SET

一、映射 (Map) (一)不可变映射 1、创建不可变映射 创建不可变映射mp,用键->值的形式 创建不可变映射mp,用(键, 值)的形式 注意:Map是特质(Scala里的trait,相当于Java里的interface&#…

git选择指定分支中的指定目录进行合并

指定路径合并 先进入branch A : git checkout branchA 将dir2中的变更转移至branchA: git checkout branchB dir2 所有变更将出现在branchA中的dir2中,检查后提交即可。 git commit -m "sync branchB dir2 to branchA" 也可以…

读财报丨第二增长曲线渐显,但涂鸦智能的未来还看PaaS业务?

2022年以来,全球物联网行业持续低迷,赛道内不少玩家出现业绩下滑,而且陆续传出巨头企业关停相关业务板块的消息。这背后是消费电子行业库存积压,客户需求难以释放等宏观因素,导致IoT领域面临一定的经营困境。 近日&am…

STM32——07-STM32定时器Timer

定时器介绍 软件定时 缺点:不精确、占用 CPU 资源 void Delay500ms () //11.0592MHz { unsigned char i , j , k ; _nop_ (); i 4 ; j 129 ; k 119 ; do { do { while ( -- k ); } while ( -- j ); } while ( -- i ); } 定时器工…

108-Spring的底层原理(下篇)

这里续写上一章博客(107章博客): Spring 声明式事务的支持: 编程式事务:在业务代码中添加事务控制代码,这样的事务控制机制就叫做编程式事务 声明式事务:通过xml或者注解配置的方式达到事务…

【Linux】进程间通信(管道)

文章目录 进程通信的目的进程间通信发展进程间通信分类管道System V IPCPOSIX IPC 管道什么是管道管道的读写规则管道的特点:匿名管道处理退出问题命名管道创建一个命名管道匿名管道与命名管道的区别命名管道的打开规则 进程通信的目的 数据传输:一个进程…

应用层协议 —— websocket

websocket介绍 websocket是从HTML5开始支持的一种网页端和服务端保持长连接的消息推送机制。 传统的web程序都是属于“一问一答”的形式,即客户端给服务器发送了一个HTTP请求,服务器给客户端返回一个HTTP响应。这种情况下服务器属于被动的一方&#xff…

前端食堂技术周刊第 86 期:Remix 拥抱 RSC、2023 React 生态系统、从 0 实现 RSC、字节跳动 Mobile DevOps 工程实践

美味值:🌟🌟🌟🌟🌟 口味:椰子水 食堂技术周刊仓库地址:https://github.com/Geekhyt/weekly 本期摘要 Remix 拥抱 RSCWebContainers 原生支持 npm、yarn 和 pnpm2023 React 生态系…

MySQL InnoDB集群部署及管理全教程

MySQL InnoDB 集群提供完整的高可用性 MySQL 的解决方案。通过使用MySQL Shell附带的AdminAPI,您可以轻松 配置和管理至少三个MySQL服务器的组 实例以充当 InnoDB 集群。 InnoDB 集群中的每个 MySQL 服务器实例都运行 MySQL 组复制,提供复制机制 InnoDB…

LoadRunner 2023 下载和安装

下载 LoadRunner目前最新的版本是2023版,需要到Micro Focus公司的官网注册账号然后申请下载,比较麻烦,这里我把大家常用的社区版本,搬运到阿里云盘上,供下载: https://www.aliyundrive.com/s/WtHSzD4MrXw …

面试了十几家软件测试公司谈谈我最近面试的总结

由于互联网裁员,最近在 bosss 上投了些简历,测试开发岗,看看目前市场情况。 虽然都在说大环境不好,失业的人很多,我最近约面试的还是比较多的,说说最近的体会吧,希望能给大家提供价值。 1、20K…

教你制作一个简单的进销存管理软件,值得收藏!

首先要制作进销存软件,要具体了解进销存到底是什么含义,这三个字分别代表什么流程,在整个进销存管理中的组成。再根据不同的流程制作进销存软件相对应的部分—— 01进销存的定义 “进”——采购 采购是进销存管理的重要组成部分&#xff0…

微信开放平台第三方开发,注册试用小程序,一整套流程

大家好,我是小悟 对服务商来说,试用小程序的好处不言而喻,主打一个先创建后认证的流程。只需要提供小程序名称和openid便可快速注册一个试用小程序,在认证之前,有效期14天,大致流程如下。 注册试用小程序 …

HCIA-RS实验-配置DHCP

什么是DHCP DHCP是动态主机配置协议(Dynamic Host Configuration Protocol)的缩写,它是一种网络协议,用于自动分配IP地址、子网掩码、网关以及DNS服务器等网络参数给计算机,从而简化了网络管理和配置。 DHCP服务器的…