分析一下多方联合计算中的数据泄露场景

news2024/10/5 14:29:07

假设某一天,某地社保局接到了教育局的求助, 希望提供社保表,和教育局自身的毕业生信息表 进行联合分析, 以得到2024年各学校的毕业生实力。

这时候社保局犯了难,两会会议里刚提过隐私保护相关的议题:

隐私频频泄露,数据亟需监管与治理
数据监管与治理尤为重要。当下数据存在被滥用的情况,一些互联网平台旗下子公司之间,数据可以无障碍共享,这实际上侵犯了个人隐私,也容易造成风险的扩散。

——金融科技观察者、私募基金管理人毕研广

那么,在教育局和社保局的这次分析合作中,社保局怎么确认,自己的哪些情况,可能存在泄露, 哪些情况不算泄露呢?

这时,我们可以引入联邦分析字段分类的概念, 先对表字段分个类,再根据联合计算的结果,来判断字段是否存在确认是否泄露了数据。

联邦分析数据字段分类

对于联邦sql分析而言, 每个字段都可以按照业务含义,进行分类。
以社保局和教育局为例,我们可以先思考下会用到哪些东西:

  • 当双方进行联合计算时, 一定存在可以进行关联的身份证号码, 这样教育局就可以把社保局中属于毕业生的记录给找出来,而不会牵涉到其他无关者的数据。
  • 既然要计算, 一定会用到敏感数据, 例如教育局肯定想要社保表里的社保缴纳金额,或者银行表的每月还款金额, 进行加减乘除得到分数。
  • 也会有一些用来做分组或者条件判断的名词,例如学校名称、 社保缴纳类型…加语句可以根据社保类型=城镇职工,来过滤掉非城镇缴纳社保的学生。

那么业务场景可以概括为: 使用身份证做连接—>使用社保类型做分组或者条件过滤->使用敏感数据做统计和计算

我们结合数据建模的概念,可以把字段分成唯一标识、度量、维度三种类型。

唯一标识

用于标识某个事物实体身份的字段。
例如身份证、工号、公司代码等。

度量

指会参与统计、计算的度量数据,且都是敏感的。
例如薪水、纳税、用电量、成交量

维度

指一般不参与数值聚合和计算的分类数据
例如等级(13-20)、公司类型(上市、不上市)、城市名称等。

其他字段

名字、地址等个人关联信息,既不会用于数据关联, 也不会参加数据计算,也不能进行整体分类,因此无必要的情况下, 不建议开放这些字段给计算参与方。

可能泄露的场景

1.唯一标识全集泄露

例如社保表的id全集如果泄露了, 那么教育局就可以知道总共有哪些人交过社保, 从而推出哪些毕业生没交过社保, 也许那个学生就被母校催着就业了。 因此是否交过社保, 理应也是学生们的个人隐私
实际原因在于社保表的id全集泄露,导致教育局可以分析谁在表中,谁不在表中。

2.度量数据具体分布泄露

具体的度量数据, 是一种数值波动比较大的数字资产。
例如单个社保金额10000, 可能没什么太大参考意义

但如果是
10000、11000、10101、8000… 这一大批数字, 则就会泄露社保数据的实际分布情况。
因此度量数据在表中的全集是不应当泄露的。
正常要让这批数据进行求和、求平均, 或者和多方表进行四则运算, 得到非原值的集合。

3.实体和度量数据一起泄露

前面提过,如果只是单独抽出1个社保金额10000, 没什么太大影响。
但如果能被外界看到 “身份证xxx, 社保金额10000” 这样的记录,那么就泄露了xxx这个人的实际社保金额。
因此如果度量数据泄露了很少的值, 但是每个值都有对应的唯一标识,那么这就属于隐私数据泄露。

4.标识和维度一起泄露

维度是已知的数据, 例如社保类型,只有农村居民、 城镇职工、城镇居民三类, 泄露了全集根本不影响什么。
但是如果身份证和社保类型一起出现,那么就泄露了每个人的实际缴纳类型。
换个更实际点的例子
疾病名称,总共就那么多疾病, 但如果能通过和医院的联合计算, 得到每个人当前所患疾病,这就会引发很多问题。
维度应当以不和id绑定的情况下出现, 作为分组的键值,或者作为条件的过滤


因此对参与联合分析计算的数据提供者来说,应当重点关注发起的任务是否会暴露这些信息, 以及计算系统能否通过规则和算法来检测、规避泄露风险。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1901218.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三级_网络技术_04_中小型网络系统总体规划与设计

1.下列关于路由器技术特征的描述中,正确的是()。 吞吐量是指路由器的路由表容量 背板能力决定了路由器的吞吐量 语音、视频业务对延时抖动要求较低 突发处理能力是以最小帧间隔值来衡量的 2.下列关于路由器技术特征的描述中,正确的是()。 路由器的…

Matlab中collectPlaneWave函数的应用

查看文档如下: 可以看出最多5个参数,分别是阵列对象,信号幅度,入射角度,信号频率,光速。 在下面的代码中,我们先创建一个3阵元的阵列,位置为:(-1,0,0&#x…

JavaWeb----JSPJSTL

目录 JSP显隐注释在JSP中写java程序JSP的指令标签JSP中的四大域对象简易版用户登录EL表达式 JSTL条件动作标签if标签 choose\when\otherwise标签迭代标签格式化动作标签 用户登录实例查看是否安装了mysql用户登录界面后台实现 JSP JSP全名是Java Server Pages,它是建…

【后端面试题】【中间件】【NoSQL】MongoDB查询优化3(拆分、嵌入文档,操作系统)

拆分大文档 很常见的一种优化手段,在一些特定的业务场景中,会有一些很大的文档,这些文档有很多字段,而且有一些特定的字段还特别的大。可以考虑拆分这些文档 大文档对MongoDB的性能影响还是很大的,就我个人经验而言&…

常见算法和Lambda

常见算法和Lambda 文章目录 常见算法和Lambda常见算法查找算法基本查找(顺序查找)二分查找/折半查找插值查找斐波那契查找分块查找扩展的分块查找(无规律的数据) 常见排序算法冒泡排序选择排序插入排序快速排序递归快速排序 Array…

在Apache HTTP服务器上配置 TLS加密

安装mod_ssl软件包 [rootlocalhost conf.d]# dnf install mod_ssl -y此时查看监听端口多了一个443端口 自己构造证书 [rootlocalhost conf.d]# cd /etc/pki/tls/certs/ [rootlocalhost certs]# openssl genrsa > jiami.key [rootlocalhost certs]# openssl req -utf8 -n…

Pycharm远程连接GPU(内容:下载安装Pycharm、GPU租借、配置SSH、将代码同步到镜像、命令行操控远程镜像、配置远程GPU解释器)

目录 windows下载安装pycharmGPU租借网站AutoDlfeaturize好易智算 GPU租借GPU选择选择镜像充值 然后创建镜像创建成功 复制SSH登录信息 远程进入镜像 在Pycharm中进行ssh连接新建SFTP配置SSH复制ssh根据复制的信息填写ssh配置测试连接 将代码同步到远程镜像上设置mappings将本地…

React 省市查询组件完整代码

目录 一、地区文件 二、Antd配合使用 三、实现效果 一、地区文件 下载地址:全国省市区数据_JSON格式_SQL格式 export const chinaArea {0: {1: 北京,2: 天津,3: 河北省,4: 山西省,5: 内蒙古自治区,6: 辽宁省,7: 吉林省,8: 黑龙江省,9: 上海,10: 江苏省,11: 浙…

计算机出现找不到msvcp140.dll无法继续执行代码怎么办?推荐7个有效解决方法

在日常使用电脑过程中会经常遇到各式各样的问题,比如msvcp140.dll丢失或找不到msvcp140.dll文件是最常见的问题之一,那么遇到这个问题要怎么解决呢?msvcp140.dll到底是什么?为什么会出现msvcp140.dll丢失问题?今天给大…

原生事件监听及组件内置事件处理

监听事件 我们可以使用 v-on 指令 (简写为 ) 来监听 DOM 事件,并在事件触发时执行对应的 JavaScript。用法:v-on:click“handler” 或 click“handler”。 事件处理器 (handler) 的值可以是: 内联事件处理器:事件被触发时执行的…

《QT从基础到进阶·四十三》QPlugin插件多线程问题和只有插件dll没有头文件和lib文件时调用插件中的方法

1、插件和多线程问题: 创建插件对象不能放到多线程执行,不然报错:ASSERT failure in QWidget: "Widgets must be created in the GUlthread. //不能放在多线程执行 QPluginLoader pluginLoader(pluginsDir.absoluteFilePath(fileName))…

单选多选提交问卷,代码示例

element中 需要对接口返回的数据进行分析。多选问题使用checkbox,单选题使用radio。 多选时可以绑定min/ma&am…

Transformer前置知识:Seq2Seq模型

Seq2Seq model Seq2Seq(Sequence to Sequence)模型是一类用于将一个序列转换为另一个序列的深度学习模型,广泛应用于自然语言处理(NLP)任务,如机器翻译、文本摘要、对话生成等。Seq2Seq模型由编码器&#…

搭建互联网医院实战:从源码到在线问诊APP的全流程开发

今天,笔者将讲述在线问诊APP的全流程开发,帮助开发者理解和掌握搭建互联网医院的核心技术和步骤。 一、需求分析与设计 需求分析包括明确目标用户、功能需求、性能需求等。设计阶段则包括系统架构设计、数据库设计和前后端界面设计等。 1.目标用户&…

统计是一门艺术(非参数假设检验)

1.定义 当总体分布未知,那么就需要一种与分布具体数学形式无关的统计推断方法,称为非参数方法 只能利用样本中的一般信息包括位置和次序关系等 稳健性强 2.符号检验 考虑问题: 小样本情况: 以概率为1/2的二项分布是对称的 两…

ASP.NET Core----基础学习01----HelloWorld---创建Blank空项目

文章目录 1. 创建新项目--方式一: blank2. 程序各文件介绍(Project name :ASP.Net_Blank)(1)launchSettings.json 启动方式的配置文件(2)appsettings.json 基础配置file参数的读取&a…

昇思25天学习打卡营第08天 | 模型训练

昇思25天学习打卡营第08天 | 模型训练 文章目录 昇思25天学习打卡营第08天 | 模型训练超参数损失函数优化器优化过程 训练与评估总结打卡 模型训练一般遵循四个步骤: 构建数据集定义神经网络模型定义超参数、损失函数和优化器输入数据集进行训练和评估 构建数据集和…

Git 运用小知识

1.Git添加未完善代码的解决方法 1.1 Git只是提交未推送 把未完善的代码提交到本地仓库 只需点击撤销提交,提交的未完善代码会被撤回 代码显示未提交状态 1.2 Git提交并推送 把未完善的代码提交并推送到远程仓库 点击【未完善提交并推送】的结点选择还原提交&#x…

前端面试题20(防抖函数)

在前端开发中,防抖(debounce)函数是一种常见的优化技术,用于控制函数的执行频率,避免在短时间内重复调用同一函数。这在处理如用户输入、窗口尺寸变化或鼠标移动等高频事件时特别有用,可以显著提升应用程序…

最小权顶点覆盖问题-优先队列分支限界法-C++

问题描述: 给定一个赋权无向图 G(V,E),每个顶点 v∈V 都有一个权值 w(v)。如果 U⊆V,U⊆V,且对任意(u,v)∈E 有 u∈U 或 v∈U,就称 U 为图 G 的一个顶点覆盖。G 的最小权顶点覆盖是指 G 中所含顶点权之和最小的顶点覆盖。对于给定…