随着数据规模的不断扩大和网络技术的快速发展,数据安全和隐私保护成为了热门的话题。隐私计算作为一种新兴的数据安全和隐私保护技术,为数据安全和隐私泄露问题提供了新的思路和方法。
2020年10月19日,Gartner发布2021年前沿战略科技趋势,其中将隐私增强计算与行为互联网、分布式云、超级自动化等并列为最前沿的九大趋势。Gartner认为,到2025年将有一半的大型企业机构使用隐私增强计算在不受信任的环境和多方数据分析用例中处理数据。企业或组织应在开始使用隐私增强计算处理数据对象前,评估相关数据处理活动的要求。如个人数据转移、数据货币化、欺诈分析和其他高度敏感数据用例等。
隐私计算是一套包含人工智能、密码学、数据科学等众多领域交叉融合的技术体系。隐私计算是指在提供隐私保护的前提下,实现数据价值挖掘的技术体系。面对数据计算的参与方或其他意图窃取信息的攻击者,隐私计算技术能够实现数据处于加密状态或非透明状态下的计算,以达到各参与方隐私保护的目的。隐私计算能够保证满足数据隐私安全的基础上,实现数据价值和知识的流动与共享,真正做到“数据可用不可见”。
目前,隐私计算在我国已应用于金融、医疗、电子商务、智慧政府等领域。在金融领域,隐私计算主要用于金融风控模型的生成。传统金融风控过程中,需要调用不同数据接口,如身份实名验证、征信查询,会导致银行对客户的信贷审核成本过高,同时,银行等金融机构在面对小微企业信贷需求时,缺乏企业经营状况等有效数据,而导致小微企业融资难、融资贵、融资慢。同样消费金融类企业机构在面对风控时,缺乏客户互联网行为画像等有效数据。通过隐私计算中的联邦学习技术,将原本分散在不同机构之间的金融数据合法合规的多维度联邦数据建模,最终风控模型效果约可提升12%,消费金融类企业机构有效节约了信贷审核成本,整体成本预计下降5%-10%,并因数据样本量的提升和丰富,风控能力进一步增强。
联邦学习
联邦学习(Federated Learning)是一种较新的机器学习方法,联邦学习无需将所有数集中到服务器端进行模型训练。联邦学习的目的是保护客户端数据的隐私性,同时提高模型的训练效率和准确性。在传统的机器学习中,通常是将所有的数据集中在一个地方进行训练,这种方法存在一些问题。首先,随着全球数字化发展,数据安全的合规工作要求越来越,数据的流转可能导致严重的合规问题,甚至可能会影响国家安全。其次,数据的存储常集中在数据中心或云服务器上,可能会导致大量数据泄露或滥用的风险。最后,将数据从客户端传输到服务器会消耗大量的带宽和时间,降低模型训练的效率。而联邦学习则可以解决这些问题。在联邦学习中,模型的训练是在客户端完成的,每个客户端只需要训练自己本地的数据,而不需要将数据传输到服务器。然后,每个客户端的训练结果会被汇总到服务器上,从而生成一个全局模型。这种方法可以保护客户端数据的隐私性,同时减少了数据传输的开销,提高了训练效率和准确性。
联邦学习的大致步骤如下。
(1)中心服务器发送建模任务,寻求参与客户端。达成协议后,由中心服务器向各数据持有方发布初始参数。
(2)各数据持有方首先在本地根据己方数据进行局部计算,计算完成后,将本地局部计算所得梯度脱敏后进行上传,以用于全局模型的一次更新。
(3)在收到来自多个数据持有方的计算结果后,中心服务器对这些计算值进行聚合操作。
(4)中心服务器根据聚合后的结果对全局模型进行一次更新,并将更新后的模型返回给参与建模的数据持有方。数据持有方更新本地模型,并开启下一步局部计算,同时评估更新后的模型性能,当性能足够好时,训练终止,联合建模结束。
安全多方计算
安全多方计算(Secure Multi-Party Computation,简称SMPC)是一种密码学领域的隐私保护分布式计算技术。最初由图灵奖获得者、中国科学院院士姚期智教授在1982年通过百万富翁问题提出。安全多方计算的研究主要针对无可信第三方情况下,安全地进行多方协同计算问题。即在一个分布式网络中,多个参与实体各自持有秘密输入,各方希望共同完成对某函数的计算,而要求每个参与实体除计算结果外均不能得到其他用户的任何输入信息。MPC技术框架如下图所示。
当一个MPC计算任务发起时,枢纽节点通过路由调度,传输网络及信令控制,选择相似数据类型的其余数据持有方进行安全的协同计算。参与协同计算的多个数据持有方的MPC 节点根据计算逻辑,从本地数据库中查询所需数据,共同就 MPC 计算任务在数据流间进行协同计算。在保证输入隐私性的前提下,各方得到正确的数据反馈,整个过程中本地数据没有泄露给其它任何参与方。
我们以百万富翁问题为例,了解安全多方计算的过程。百万富翁问题具体内容是两个百万富翁,想知道谁的钱更多,但都不想让对方知道自己有多少钱。
假设两个富翁的银行存款,均在1到10之间。甲的财富为5百万,乙的财富为3百万。甲找来了10个箱子,分别编号1到10。然后在每个箱子中放入水果。放水果的规则为编号小于自己财富的放香蕉,编号大于或等于自己财富的放苹果。最终箱子编号与水果的对应关系如下表。
箱子编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
水果 | 香蕉 | 香蕉 | 香蕉 | 香蕉 | 苹果 | 苹果 | 苹果 | 苹果 | 苹果 | 苹果 |
百万富翁问题简单解释
甲将这十个箱子发送给乙。乙只能打开与自己财富值编号相同的箱子,发现里面是香蕉。然后将其他箱子销毁。乙将香蕉的结果告诉甲,甲就可以判断出甲的财富值比乙多。这里的箱子编号与水果对应关系是整个算法的关键。并且这种方法适用于两个参与方进行多方计算。这个方法也有一些缺陷,比如最后的结果只有甲知道,乙的结果来源于甲。
差分隐私
差分隐私(Differential Privacy)是一种针对隐私保护数据分析问题而提出的一种隐私定义,可以在保护个人隐私的同时,对数据进行分析和挖掘。该算法通过向数据集中添加噪声来模糊数据,使得个人数据无法被唯一地识别。差分隐私算法的基本思想是:对于一个数据集中的每个个体数据,在算法加噪声之前或之后,其影响的差别是微小的,从而保护了隐私。
差分隐私保护模型的思想源自于一个很朴素的观察:当数据集D中包含个体Alice时,设对D进行任意查询操作f(例如计数、求和、平均值、中位数或其他范围查询等)所得到的结果为f(D),如果将Alice的信息从D中删除后进行查询得到的结果仍然为f(D),则可以认为,Alice的信息并没有因为被包含在数据集D中而产生额外的风险。差分隐私算法的基本思想是在数据处理过程中引入一定的噪声,使得每个个体的隐私都得到了保护,即使攻击者有了部分数据的知识,也无法推断出个体的隐私信息。具体来说,对于一个数据集中的每个个体数据,在算法加噪声之前或之后,其影响的差别是微小的,从而保护了隐私。同时,差分隐私也不会影响数据的整体统计特征和可用性,因此能够在保证数据隐私的前提下进行数据分析和挖掘。
举一个典型的例子。假设你是一名健身房的管理员,你想了解你的会员每天在健身房的活动情况,比如他们在哪些器械上花费了多少时间。然而,这些数据也涉及到个人隐私信息,比如姓名、年龄等。这时,你可以使用差分隐私算法来保护这些敏感数据。
你需要对每个会员的使用数据添加一些随机噪声,比如在他们在某个器械上花费的时间上加上一个小的随机数。这样,即使攻击者能够获得一部分数据,也无法准确地得知每个会员在具体器械上花费的时间。因为每个会员的使用数据都被添加了随机噪声,所以隐私得到了保护。
例如,某个会员实际上在跑步机上运动了30分钟,那么你会给他的数据加上一个随机数,比如5分钟,这样他的使用数据就变成了“跑步机上运动了35分钟”。如果另一个会员实际上在哑铃上锻炼了40分钟,那么你会给他的数据加上另一个随机数,比如3分钟,这样他的使用数据就变成了“哑铃上锻炼了43分钟”。这些随机噪声的值足够小,以至于他们的使用数据仍然可以提供有意义的信息,但不足以暴露他们的个人信息。
最终,你可以通过对这些加了噪声的使用数据进行统计分析来得出一个大致的结论,该健身房中有50%的会员每天使用跑步机,平均使用时间为40分钟。这样,在保护会员隐私的前提下,你仍然能够得到有用的信息,以便做出更好的管理决策。
同态加密
同态加密(Homomorphic Encryption)是一种特殊的加密方式,能够对密文进行某些特定计算,得到的结果与对应的明文计算结果相同,同时不暴露明文信息。这种加密方式可以让数据在加密状态下进行计算,从而保护数据的隐私性,同时允许计算结果在密文状态下保持机密性,这对于云计算和数据共享等场景非常有用。同态加密的起源可以追溯到20世纪70年代,由美国学者Ron Rivest, Leonard Adleman和Michael L.Dertouzos以银行为应用背景提出了这个概念。2009年9月Craig Gentry里从数学上提出了“全同态加密”(英语:Fully homomorphic encryption)的可行方法,即可以在不解密的条件下对加密数据进行任何可以在明文上进行的运算,使这项技术获取了决定性的突破。人们正在此基础上研究更完善的实用技术,这对信息技术产业具有重大价值。
同态加密的一种典型应用场景是使用云上算力进行计算。某个公司想要处理一些数据,但是他们的计算能力有限。这个公司通过购买云计算的服务,让云来帮助他们进行处理而得到结果。但是如果直接将数据交给云,无法保证安全性啊,于是,该公司使用同态加密,将加密后的数据交由云来对加密数据进行直接处理,并将处理结果返回给公司。
总结
随着全球对数据安全与个人隐私的重视,隐私计算成为了解决隐私合规的重要手段。其发展趋势与方向非常值得期待。
作者介绍
黄浩,深信服产教中心教学教研副主任,深信服安全服务认证专家(SCSE-S),产业教育中心资深讲师
CISSP认证注册信息系统安全师,中国计算机学会会员,暨南大学网络空间学院校外实践指导老师,深圳大学专业学位研究生校外导师,深圳信息职业技术学院产业学院副教授,湖南省数字经济促进会特聘讲师,中国高校计算机大赛-网络技术挑战赛评审;对企业网络安全框架设计、业务逻辑安全与防御体系有深刻认识;擅长DDoS攻击防御、操作系统安全防护、密码学、企业安全架构、取证溯源、应急响应等多个方向的课程。