隐私计算简介

news2024/11/28 4:51:21

随着数据规模的不断扩大和网络技术的快速发展,数据安全和隐私保护成为了热门的话题。隐私计算作为一种新兴的数据安全和隐私保护技术,为数据安全和隐私泄露问题提供了新的思路和方法。

2020年10月19日,Gartner发布2021年前沿战略科技趋势,其中将隐私增强计算与行为互联网、分布式云、超级自动化等并列为最前沿的九大趋势。Gartner认为,到2025年将有一半的大型企业机构使用隐私增强计算在不受信任的环境和多方数据分析用例中处理数据。企业或组织应在开始使用隐私增强计算处理数据对象前,评估相关数据处理活动的要求。如个人数据转移、数据货币化、欺诈分析和其他高度敏感数据用例等。

隐私计算是一套包含人工智能、密码学、数据科学等众多领域交叉融合的技术体系。隐私计算是指在提供隐私保护的前提下,实现数据价值挖掘的技术体系。面对数据计算的参与方或其他意图窃取信息的攻击者,隐私计算技术能够实现数据处于加密状态或非透明状态下的计算,以达到各参与方隐私保护的目的。隐私计算能够保证满足数据隐私安全的基础上,实现数据价值和知识的流动与共享,真正做到“数据可用不可见”。

目前,隐私计算在我国已应用于金融、医疗、电子商务、智慧政府等领域。在金融领域,隐私计算主要用于金融风控模型的生成。传统金融风控过程中,需要调用不同数据接口,如身份实名验证、征信查询,会导致银行对客户的信贷审核成本过高,同时,银行等金融机构在面对小微企业信贷需求时,缺乏企业经营状况等有效数据,而导致小微企业融资难、融资贵、融资慢。同样消费金融类企业机构在面对风控时,缺乏客户互联网行为画像等有效数据。通过隐私计算中的联邦学习技术,将原本分散在不同机构之间的金融数据合法合规的多维度联邦数据建模,最终风控模型效果约可提升12%,消费金融类企业机构有效节约了信贷审核成本,整体成本预计下降5%-10%,并因数据样本量的提升和丰富,风控能力进一步增强。

联邦学习

联邦学习(Federated Learning)是一种较新的机器学习方法,联邦学习无需将所有数集中到服务器端进行模型训练。联邦学习的目的是保护客户端数据的隐私性,同时提高模型的训练效率和准确性。在传统的机器学习中,通常是将所有的数据集中在一个地方进行训练,这种方法存在一些问题。首先,随着全球数字化发展,数据安全的合规工作要求越来越,数据的流转可能导致严重的合规问题,甚至可能会影响国家安全。其次,数据的存储常集中在数据中心或云服务器上,可能会导致大量数据泄露或滥用的风险。最后,将数据从客户端传输到服务器会消耗大量的带宽和时间,降低模型训练的效率。而联邦学习则可以解决这些问题。在联邦学习中,模型的训练是在客户端完成的,每个客户端只需要训练自己本地的数据,而不需要将数据传输到服务器。然后,每个客户端的训练结果会被汇总到服务器上,从而生成一个全局模型。这种方法可以保护客户端数据的隐私性,同时减少了数据传输的开销,提高了训练效率和准确性。

联邦学习的大致步骤如下。

(1)中心服务器发送建模任务,寻求参与客户端。达成协议后,由中心服务器向各数据持有方发布初始参数。

(2)各数据持有方首先在本地根据己方数据进行局部计算,计算完成后,将本地局部计算所得梯度脱敏后进行上传,以用于全局模型的一次更新。

(3)在收到来自多个数据持有方的计算结果后,中心服务器对这些计算值进行聚合操作。

(4)中心服务器根据聚合后的结果对全局模型进行一次更新,并将更新后的模型返回给参与建模的数据持有方。数据持有方更新本地模型,并开启下一步局部计算,同时评估更新后的模型性能,当性能足够好时,训练终止,联合建模结束。

安全多方计算

安全多方计算(Secure Multi-Party Computation,简称SMPC)是一种密码学领域的隐私保护分布式计算技术。最初由图灵奖获得者、中国科学院院士姚期智教授在1982年通过百万富翁问题提出。安全多方计算的研究主要针对无可信第三方情况下,安全地进行多方协同计算问题。即在一个分布式网络中,多个参与实体各自持有秘密输入,各方希望共同完成对某函数的计算,而要求每个参与实体除计算结果外均不能得到其他用户的任何输入信息。MPC技术框架如下图所示。

​当一个MPC计算任务发起时,枢纽节点通过路由调度,传输网络及信令控制,选择相似数据类型的其余数据持有方进行安全的协同计算。参与协同计算的多个数据持有方的MPC 节点根据计算逻辑,从本地数据库中查询所需数据,共同就 MPC 计算任务在数据流间进行协同计算。在保证输入隐私性的前提下,各方得到正确的数据反馈,整个过程中本地数据没有泄露给其它任何参与方。

我们以百万富翁问题为例,了解安全多方计算的过程。百万富翁问题具体内容是两个百万富翁,想知道谁的钱更多,但都不想让对方知道自己有多少钱。

假设两个富翁的银行存款,均在1到10之间。甲的财富为5百万,乙的财富为3百万。甲找来了10个箱子,分别编号1到10。然后在每个箱子中放入水果。放水果的规则为编号小于自己财富的放香蕉,编号大于或等于自己财富的放苹果。最终箱子编号与水果的对应关系如下表。

箱子编号

1

2

3

4

5

6

7

8

9

10

水果

香蕉

香蕉

香蕉

香蕉

苹果

苹果

苹果

苹果

苹果

苹果

百万富翁问题简单解释

甲将这十个箱子发送给乙。乙只能打开与自己财富值编号相同的箱子,发现里面是香蕉。然后将其他箱子销毁。乙将香蕉的结果告诉甲,甲就可以判断出甲的财富值比乙多。这里的箱子编号与水果对应关系是整个算法的关键。并且这种方法适用于两个参与方进行多方计算。这个方法也有一些缺陷,比如最后的结果只有甲知道,乙的结果来源于甲。

差分隐私

差分隐私(Differential Privacy)是一种针对隐私保护数据分析问题而提出的一种隐私定义,可以在保护个人隐私的同时,对数据进行分析和挖掘。该算法通过向数据集中添加噪声来模糊数据,使得个人数据无法被唯一地识别。差分隐私算法的基本思想是:对于一个数据集中的每个个体数据,在算法加噪声之前或之后,其影响的差别是微小的,从而保护了隐私。

差分隐私保护模型的思想源自于一个很朴素的观察:当数据集D中包含个体Alice时,设对D进行任意查询操作f(例如计数、求和、平均值、中位数或其他范围查询等)所得到的结果为f(D),如果将Alice的信息从D中删除后进行查询得到的结果仍然为f(D),则可以认为,Alice的信息并没有因为被包含在数据集D中而产生额外的风险。差分隐私算法的基本思想是在数据处理过程中引入一定的噪声,使得每个个体的隐私都得到了保护,即使攻击者有了部分数据的知识,也无法推断出个体的隐私信息。具体来说,对于一个数据集中的每个个体数据,在算法加噪声之前或之后,其影响的差别是微小的,从而保护了隐私。同时,差分隐私也不会影响数据的整体统计特征和可用性,因此能够在保证数据隐私的前提下进行数据分析和挖掘。

举一个典型的例子。假设你是一名健身房的管理员,你想了解你的会员每天在健身房的活动情况,比如他们在哪些器械上花费了多少时间。然而,这些数据也涉及到个人隐私信息,比如姓名、年龄等。这时,你可以使用差分隐私算法来保护这些敏感数据。

你需要对每个会员的使用数据添加一些随机噪声,比如在他们在某个器械上花费的时间上加上一个小的随机数。这样,即使攻击者能够获得一部分数据,也无法准确地得知每个会员在具体器械上花费的时间。因为每个会员的使用数据都被添加了随机噪声,所以隐私得到了保护。

例如,某个会员实际上在跑步机上运动了30分钟,那么你会给他的数据加上一个随机数,比如5分钟,这样他的使用数据就变成了“跑步机上运动了35分钟”。如果另一个会员实际上在哑铃上锻炼了40分钟,那么你会给他的数据加上另一个随机数,比如3分钟,这样他的使用数据就变成了“哑铃上锻炼了43分钟”。这些随机噪声的值足够小,以至于他们的使用数据仍然可以提供有意义的信息,但不足以暴露他们的个人信息。

最终,你可以通过对这些加了噪声的使用数据进行统计分析来得出一个大致的结论,该健身房中有50%的会员每天使用跑步机,平均使用时间为40分钟。这样,在保护会员隐私的前提下,你仍然能够得到有用的信息,以便做出更好的管理决策。

同态加密

同态加密(Homomorphic Encryption)是一种特殊的加密方式,能够对密文进行某些特定计算,得到的结果与对应的明文计算结果相同,同时不暴露明文信息。这种加密方式可以让数据在加密状态下进行计算,从而保护数据的隐私性,同时允许计算结果在密文状态下保持机密性,这对于云计算和数据共享等场景非常有用。同态加密的起源可以追溯到20世纪70年代,由美国学者Ron Rivest, Leonard Adleman和Michael L.Dertouzos以银行为应用背景提出了这个概念。2009年9月Craig Gentry里从数学上提出了“全同态加密”(英语:Fully homomorphic encryption)的可行方法,即可以在不解密的条件下对加密数据进行任何可以在明文上进行的运算,使这项技术获取了决定性的突破。人们正在此基础上研究更完善的实用技术,这对信息技术产业具有重大价值。

同态加密的一种典型应用场景是使用云上算力进行计算。某个公司想要处理一些数据,但是他们的计算能力有限。这个公司通过购买云计算的服务,让云来帮助他们进行处理而得到结果。但是如果直接将数据交给云,无法保证安全性啊,于是,该公司使用同态加密,将加密后的数据交由云来对加密数据进行直接处理,并将处理结果返回给公司。

总结

随着全球对数据安全与个人隐私的重视,隐私计算成为了解决隐私合规的重要手段。其发展趋势与方向非常值得期待。

作者介绍

黄浩,深信服产教中心教学教研副主任,深信服安全服务认证专家(SCSE-S),产业教育中心资深讲师

CISSP认证注册信息系统安全师,中国计算机学会会员,暨南大学网络空间学院校外实践指导老师,深圳大学专业学位研究生校外导师,深圳信息职业技术学院产业学院副教授,湖南省数字经济促进会特聘讲师,中国高校计算机大赛-网络技术挑战赛评审;对企业网络安全框架设计、业务逻辑安全与防御体系有深刻认识;擅长DDoS攻击防御、操作系统安全防护、密码学、企业安全架构、取证溯源、应急响应等多个方向的课程。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/628778.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Blender3.2使用python脚本命令的三种方式, 以及后台渲染调用源码示例及说明

本文环境系统OS(Win10) 方式一,在Script(脚本)功能里面的Console(控制台输入python代码)。 如下图: 对应的三句代码是: print("Hi, blender.")import bpybpy.ops.mesh.primitive_cube_add(enter_editmodeFalse, alignWORLD, location(0,0, …

Vue3.0性能提升主要是通过哪几方面体现的(了解)

文章目录 一、编译阶段diff算法优化静态提升事件监听缓存SSR优化二、源码体积响应式系统 一、编译阶段 回顾Vue2,我们知道每个组件实例都对应一个 watcher 实例,它会在组件渲染的过程中把用到的数据property记录为依赖,当依赖发生改变&#…

【ICML 2023】Hiera详解:一个简单且高效的分层视觉转换器

【ICML 2023】Hiera详解:一个简单且高效的分层视觉转换器 0. 引言1. 模型介绍2. Hiera介绍2.1 为什么提出Hiera?2.2 Hiera 中的 Mask2.3 空间结构的分离和填充到底如何操作2.4 为什么使用Mask Unit Attn 3. 简化版理解4. 总结 0. 引言 虽然现在各种各样…

Docker 安装Tomcat、实现Tomcat集群

文章目录 1、寻找Tomcat镜像2、下载tomcat镜像(下载最近版本)(1) docker pull tomcat 下载(2) 查看镜像是否安装成功 3、启动容器(跟安装Nginx一样)4、 测试tomcat(报错解决)5、 搭建Tomcat集群 1、寻找Tom…

访问修饰符private,default,protected,public访问等级区别

private:private是最严格的访问修饰符,它将成员声明为私有的。私有成员只能在声明它们的类内部访问,其他类无法直接访问私有成员。这样可以确保数据的封装性和安全性。 default(默认):如果没有明确指定访问…

Pytest 分组测试

有时候需要针对不同的测试环境跑不同的测试用例,如:冒烟测试、sit、uat、prd,所以给自动化测试用例做标记分组是很有必要的,pytest.mark 可以轻松实现这个功能。首先需要注册自定义标记。 注册marks 有3中方法注册marks&#xf…

【Apache Pinot】浅析 Pinot 的 Table,Index 和 Tenant 原理

本文属于基础篇幅,不会涉及过深入的原理,主要还是如何用好 Pinot 背景 单独讲 Table 概念可能有些许单薄,本文会扩展场景,讲解表的部分原理,表与表之间的相互影响,租户是怎么作用到表的,增加字…

一位年薪35W的测试被开除,回怼的一番话,令人沉思

一位年薪35W测试工程师被开除回怼道:“反正我有技术,在哪不一样” 一技傍身,万事不愁,当我们掌握了一技之长后,在职场上说话就硬气了许多,不用担心被炒,反过来还可以炒了老板,这一点…

基于深度学习的高精度袋鼠检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于深度学习的高精度袋鼠检测识别系统可用于日常生活中或野外来检测与定位袋鼠目标,利用深度学习算法可实现图片、视频、摄像头等方式的袋鼠目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检测模型…

活跃主机发现技术指南

活跃主机发现技术指南 1.活跃主机发现技术简介2.基于ARP协议的活跃主机发现技术3.基于ICMP协议的活跃主机发现技术4.基于TCP协议的活跃主机发现技术5.基于UDP协议的活跃主机发现技术6.基于SCTP协议的活跃主机发现技术7.主机发现技术的分析 1.活跃主机发现技术简介 在生活中有这…

继电保护名词解释三

第三章:电网的相间电流、电压保护和方向性相间电流、电压保护 1. 瞬时电流速断保护:对于仅反应于电流增大而瞬时动作的电流保护。 2. 保护装置的起动电流:能够使保护装置起动的最小电流值。 3. 系统最大运行方式:通过保护装置的…

了解服务级别协议(SLA)在 ITSM 中的重要性

什么是服务级别协议 根据ITIL 4,SLA是服务提供商和客户之间的书面协议,用于确定所需的服务和预期的服务水平。这些协议可以是正式的,也可以是非正式的。 在 ITSM 的上下文中,SLA 有助于设置和管理最终用户在提出请求时的期望 或…

如何导出Axure原型设计中的图片?零基础入门教程

Axure 是一款广为人知的原型设计工具,特别适用于新手产品经理或产品设计初学者。然而,如果用户想要在浏览器中预览 Axure 原型图,需要安装插件才能实现。而安装完 Axure RP Chrome 插件后,还需要在扩展程序中选择 "允许访问文…

类和对象【5】日期类的实现

全文目录 引言实现日期类概述默认成员函数构造函数析构函数拷贝构造赋值重载 功能运算符重载日期间的比较日期与天数日期-与-天数日期前置与后置日期前置- -与后置- -日期 - 日期 输入输出重载(友元) 代码总览头文件源文件main函数 总结 引言 类和对象1…

详解Java异常和异常面试题(上)

1.异常的体系结构 2.从程序执行过程,看编译时异常和运行时异常 编译时异常:执行javac.exe命名时,可能出现的异常 运行时异常:执行java.exe命名时,出现的异常 1.运行时异常  是指编译器不要求强制处置的异常。一般是…

网络安全:信息收集专总结【社会工程学】

前言 俗话说“渗透的本质也就是信息收集”,信息收集的深度,直接关系到渗透测试的成败,打好信息收集这一基础可以让测试者选择合适和准确的渗透测试攻击方式,缩短渗透测试的时间。 一、思维导图 二、GoogleHacking 1、介绍 利用…

HVV常问的Web漏洞(护网蓝初面试干货)

目录 1、SQL注入 (1)原理 (2)分类 (3)防御 2、XSS (1)原理 (2)分类 3、中间件(解析漏洞) (1)IIS6.X …

【AI实战】开源大语言模型LLMs汇总

【AI实战】开源大语言模型LLM汇总 大语言模型开源大语言模型1、LLaMA2、ChatGLM - 6B3、Alpaca4、PandaLLM5、GTP4ALL6、DoctorGLM (MedicalGPT-zh v2)7、MedicalGPT-zh v18、Cornucopia-LLaMA-Fin-Chinese9、minGPT10、InstructGLM11、FastChat12、Luot…

在线原型设计工具推荐

原型设计是每个产品经理必备的基本技能。 本文从即时设计原型设计的步骤开始,帮助您快速使用即时设计制作高还原度、丰富互动的产品原型。 利用即时设计进行原型设计的优势 快速启动原型设计工作 借助即时设计内置设计系统和社区资源,包括大量原型设…

Hive执行计划之什么是hiveSQL向量化模式及优化详解

目录 文章目录 1.什么是hive向量化模式2.Hive向量化模式支持的使用场景2.1 hive向量化模式使用前置条件2.2 向量模式支持的数据类型2.3 向量化模式支持的函数 3.如何查看hiveSQL向量化运行信息3.1 explain vectorization only只查询向量化描述信息内容3.2 explain vectorizati…