1、政策背景与应用驱动
1、国内政策法规
- 2022年1月,十四五规划:初步建立数据源要素市场体系,在保护数据安全和用户隐私前提下,参与数据价值开发。
- 2022年3月,国务院《关于构建更加完善的要素市场化配置体制机制的意见》:加快培育数据要素市场,加强数据资源整合和安全保护,加强对政务数据、企业商业秘密和个人数据的保护。
- 2022年6月,中央全面深化改革委员会第二十六次会议,审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》:数据是新型生产要素,数据基础制度建设事关国家发展和安全大局,要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实体经济
2、数据流通与隐私保护
数据流通和隐私保护之间的对立关系,每一个政策和法规背后的业务诉求和约束也是一个对立关系
3、实际应用驱动隐私计算技术
打破数据孤岛实现数据流通的技术这个可以称为隐私计算技术,通过隐私计算技术结合实际需求实现数据流通
数据流通与隐私计算
1、数据流通层次
数据流通分为3种形式,不同个人之间数据融合,机构之间数据融合,数据市场进行融合
2、隐私计算基本概念
隐私计算保护原始数据的隐私、计算过程中的隐私保护以及计算结果的隐私,主要目的是对计算的正确性、保密性、完整性等进行保护。
1、计算过程中的隐私保护分为
- 计算环境的安全性保障
- 多方交互信息中不包含隐私数据信息
2、计算结果的隐私保护分为
- 计算结果无法反推出原始数据信息
- 非结果拥有方无法获取计算结果信息
3、隐私计算技术创造数据使用新模式
传统的数据融合和新型数据融合的对比
隐私计算的分类
1、安全模式与核心技术
安全模式分为3类:可证、可度量、可信,下面是3个的对比描述
2、隐私计算技术比较
隐私计算技术 | 安全性与假设 | 计算精度 | 通用性 | 性能 |
可信执行环境 | 依赖可信硬件 | 无损 | 通用计算 | 高 |
差分隐私 联邦学习 拆分学习 | 存在数据泄露风险,信息泄露上限可度量 | 有损 | 机器学习为主 | 高 |
多方安全计算 全同态加密 零知识证明 | 可证明安全性 | 接近无损 | 通用计算 | 低 |
3、机密计算-基于可信执行环境的隐私计算技术
机密计算指的是通过在基于硬件的可信执行环境(Trusted Execution Environment)中执行计算过程的方式,为使用中的数据提供保护的计算模式
4、差分隐私-密码技术
加入随机噪音,保证无论数据集中是否存在给定样本,统计分析输出的概率分布最多相差一个小的指定值,同时保证在一定精度损失条件下计算结果的正确性
5、联邦学习-隐私保护机器学习
联邦学习本质上是一种分布式机器学习框架,其做到了在保障数据隐私安全及合法合规的基础上,实现数据共享,共同建模。它的核心思想是在多个数据源共同参与模型训练时,不需要进行原始数据流转的前提下,仅通过交互模型中间参数进行模型联合训练,原始数据可以不出本地。这种方式实现数据隐私保护和数据共享分析的平衡,即“数据可用不可见”的数据应用模式
6、多方安全计算 MPC
是指在无可信第三方的情况下,多个参与方协同计算一个约定函数,除计算结果以外,各参与方无法通过计算过程中的交互数据推断出其他参与方的原始数据。作为隐私计算的一种常用工具,多方安全计算在安全性和易用性方面有着天然的优势
7、MPC特例-隐私集合求交PSI
隐私集合求交(PSI)是安全多方计算(MPC)中的一种密码学技术,它允许参与计算的双方,在不获取对方额外信息(除交集外的其它信息)的基础上,计算出双方数据的交集。隐私集合求交在数据共享,广告转化率,联系人发现等领域有着广泛的应用空间
8、MPC特例-匿踪查询PIR
是为了保障个人隐私在公共网络平台上的私密性而采用的策略。当用户在数据库上检索信息时,它将采用一定的方法来阻止数据库服务器知晓用户查询语句的相关信息,从而保护用户的查询隐私。隐私信息检索的发展和普及不仅仅需要隐私保密技术的不断提高,还需要人们对隐私保护认知的不断增强。在当前现实生活中,像医药数据库,专利数据库等对检索隐私有着较高要求的领域,隐私信息检索都具有很大的应用空间。
9、全同态加密
它允许人们对密文进行特定形式的代数运算后,得到仍然是加密的结果,将其解密所得到的结果与对明文进行同样的运算结果一样。换言之,这项技术令人们可以在加密的数据中进行诸如检索、比较等操作,得出正确的结果,而在整个处理过程中无须对数据进行解密。
10、零知识证明
它指的是证明者能够在不向验证者提供任何有用的信息的情况下,使验证者相信某个论断是正确的。零知识证明实质上是一种涉及两方或更多方的协议,即两方或更多方完成一项任务所需采取的一系列步骤。证明者向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不能向验证者泄漏任何关于被证明消息的信息
11、可信密态计算
通过在多个高速互联的可信执行环境中运行密码协议,将两者有机结合在一起,安全性可抵御现实攻击,成本低于一个量级,性能和稳定性接近明文
它的主要原理是:
- 多个参与方将数据密态拆分,将每个分量传递给不同分区的可信计算节点
- 每个可信计算节点只有分片数据,多个可信计算节点分区通过密码协议完成目标计算
- 可信计算节点受 TEE、TPM、全栈可信保护,运营这无法窥探
- 密码协议的同一个角色由一个可信计算节点分区集群承担,可以进行并行化加速