隐私计算相关知识

news2025/1/2 3:31:12

WOE( Weight of Evidence)编码

一种在数据分析,尤其是信用评分和欺诈检测等领域中常用的特征编码方法。它的主要目的是将分类变量转换为数值变量,从而使得模型能够更好地理解类别与目标变量之间的关系
IV( Information Value)是衡量特征对分类任务信息贡献的指标,它的值越高,表示特征对预测目标变量的信息贡献越大。IV值可以帮助我们确定哪些特征在模型训练中应该被优先考虑,以及在模型性能评估中作为重要的参考指标
让我们用一个简单的例子来说明:
假设我们有一份关于贷款申请的数据集,其中包含一个分类变量“职业”,它有三个可能的类别:“学生”、“工人”和“自由职业者”。我们的目标变量是“是否违约”,这是一个二元变量,表示贷款申请人是否会按时还款
WOE编码的基本思想是,对于“职业”这个变量的每一个类别,我们计算其内部的“好客户”(按时还款的人)和“坏客户”(违约的人)的比例,然后将这个比例转换成一个数值,这个数值就是该类别的WOE值
在这里插入图片描述

分箱(Binning)

想象你有一堆苹果,这些苹果有大有小,重量各不相同。如果我们要研究苹果的大小如何影响人们的选择,一个办法是测量每一个苹果的具体重量。但是,直接用每颗苹果的确切重量来做分析可能会很复杂,因为重量的范围可能非常广,而且数据点会非常多。

分箱就是解决这个问题的一个方法。我们可以把这些苹果分成几组,比如“小苹果”、“中等苹果”和“大苹果”。这样一来,我们就可以用“小苹果”、“中等苹果”和“大苹果”这三个类别来代替具体的重量值。这样不仅简化了数据,也使得分析更加直观。

在数据分析中,分箱就是把连续的数值(像苹果的重量)划分到几个区间内,也就是“桶”里,从而将连续变量转换为分类变量。这样做的好处是可以简化模型,并且有时候能够揭示数据的模式和趋势。

WOE分箱

当我们想要预测某个事件(比如顾客是否会违约还款)时,我们会用到“二元目标变量”,这意味着我们的预测结果只有两种可能:是(比如顾客会违约)或否(顾客不会违约)
WOE( Weight of Evidence,证据权重)分箱是一种特别的分箱技术,专门用于处理这种二元目标变量的情况。它通过计算每个区间的“证据权重”来评估该区间内目标事件发生的倾向性。简而言之,WOE告诉我们,如果一个顾客落在某个区间内,他/她违约的可能性是高于平均还是低于平均
例如,在信用评分模型中,如果我们按收入水平分箱,WOE可以帮助我们了解高收入群体是否比低收入群体更不容易违约。这有助于银行决定贷款利率或是否批准贷款申请。总的来说,分箱帮助我们简化数据,而WOE分箱则在简化的同时,还考虑了目标事件(如违约)在不同区间内的分布情况,从而更好地预测和理解数据

PSI

隐私集合求交(Private Set Intersection, PSI)是一种在多方之间进行数据协作的技术,它允许两个或多个参与者确定他们数据集中共同拥有的元素,而无需透露各自的完整数据集。PSI技术特别设计用于保护参与方的数据隐私,确保除了交集信息外,任何一方都无法获取对方的额外数据。PSI技术在实现数据协同的同时,保护了参与各方的隐私,是构建信任、促进数据经济和保护个人及商业机密的重要工具
PSI的主要作用在于促进数据的共享和协作,同时维护数据的安全性和隐私性。以下是一些具体的应用场景和价值体现

  1. 市场营销和广告定位:例如,公司A可能拥有大量用户电子邮件地址,但希望将其营销活动限制在其目标受众中。公司B则有另一组电子邮件地址,代表潜在感兴趣的用户群体。通过PSI,两家公司可以找到共同的用户,即对A公司的产品感兴趣且在B公司数据库中的用户,以便A公司精准地向这些用户发送营销信息,而无需暴露各自完整的客户列表。
  2. 金融反欺诈:银行或金融机构可以使用PSI来检测跨不同机构的欺诈行为。每家银行都有自己的可疑账户名单,通过PSI,它们可以在不泄露具体账户信息的情况下,找出共同的可疑账户,从而加强风险管理和欺诈预防。
  3. 医疗研究:不同的医院或研究机构拥有患者的健康记录,但出于隐私考虑,不能直接共享这些数据。使用PSI,他们可以确定哪些患者同时出现在多个数据集中,这有助于联合研究,比如研究某种疾病的发病率或疗效评估,而不泄露患者的详细医疗信息。
  4. 供应链管理:企业可以利用PSI来协调供应商和分销商之间的数据,以优化库存和减少重复订单,同时保护敏感的商业信息。
  5. 社交网络:社交平台可以使用PSI帮助用户发现共同的朋友或兴趣,而不会暴露用户的完整好友列表或偏好给其他用户或第三方。

差分隐私保护

差分隐私(Differential Privacy)是一种统计数据库查询的隐私保护方法,它旨在通过添加随机噪声来模糊个人数据,从而使得攻击者几乎不可能从查询结果中推断出某个人的具体信息,即便他们掌握了所有其他人的数据。这种方法的核心目标是在提供有用统计信息的同时,保护个体的隐私。

通俗地讲,差分隐私就像是给数据加上一层“迷雾”。想象一下,你在一张纸上写了一个数字,然后把它放在一个大房间里,这个房间中有成千上万个类似的数字。现在,有人想知道这些数字的平均值,但又不能直接看到任何一个具体的数字。为了做到这一点,他们可以通过房间里的传感器获取一个近似值,但这个传感器会故意引入一些误差。这样一来,即使这个人知道房间中除你之外的所有数字,他也无法准确判断你的数字是什么,因为传感器的输出包含了随机的噪声,这层噪声就像是保护你数字的迷雾。

差分隐私的数学定义是:对于任意两个只相差一条记录的数据集,任何查询结果的概率分布应该非常接近,这意味着无论某个人的数据是否在数据集中,查询结果看起来都差不多。这种机制确保了个人数据的微小变化不会显著影响到总体的统计结果,从而保护了个人的隐私。

在实际应用中,例如,政府机构可能想要分析全国的健康数据以了解疾病趋势,但又不想泄露任何个人的健康状况。通过使用差分隐私技术,可以在不暴露个人具体信息的情况下,提供疾病发生率的总体估计。这有助于平衡数据的可用性和个人隐私之间的关系,是大数据时代保护隐私的重要手段之一。

数据集对齐

在数据处理和机器学习领域,“对齐”通常指的是数据预处理的一个步骤,尤其是在涉及多个数据源的时候。当提到“对齐的数据集”,这通常意味着来自不同来源的数据集已经经过处理,确保它们在结构上相匹配,可以进行联合分析或模型训练。对齐后的数据集可以直接用于机器学习模型的训练,因为它们已经处理好,可以在同一个框架下进行操作,而不会因为数据结构的差异导致问题。

具体来说,数据对齐可能包括以下几个方面:

  1. 索引或键的匹配:确保每个数据集都有一个共同的标识符(如ID、用户名或产品编号),这样可以基于这些标识符将不同数据集中的记录关联起来。

  2. 特征对齐:如果不同数据集中包含描述相同实体的不同特征,则需要确保这些特征在名称、格式和度量单位上一致,以便于合并和分析。

  3. 时间序列对齐:对于时间序列数据,可能需要确保所有数据集的时间戳一致,或者至少可以相互映射,以便进行时间上的比较和分析。

  4. 数据清洗:去除空值、异常值或不一致的数据点,确保数据质量,避免影响后续的分析和建模。

  5. 数据类型转换:将数据转换为统一的格式或类型,比如将文本标签编码为数值,或将数值转换为分类变量。

在隐私集合求交(PSI)的上下文中,“对齐的数据集”意味着已经通过PSI找到了两个或多个数据集之间的共同记录。一旦确定了交集,就可以基于这些共享的记录进行更深入的数据融合和分析,例如,可以将共同的用户数据整合在一起,用于建立更全面的用户画像,或者将共同的产品数据组合,以进行更精确的市场分析。

SPU设备(Secure Protocol Unit)

在SecretFlow的框架中,“设备”(Device)是一个抽象概念,用于描述数据处理的环境或计算单元,其中包含了数据的存储位置以及允许在其上执行的操作类型。这种设计有助于保护数据隐私,因为在不同的“设备”之间传输数据时,数据会被加密或者以某种形式的密文状态存在,以防止未授权访问。

SPU设备是SecretFlow中用于执行安全多方计算(MPC)协议的设备。它主要用于在多个参与方之间进行协作计算,同时确保各方的数据隐私。在SPU设备上,数据以秘密分享的形式存在,这意味着数据被分割成多份,每一份单独看是没有意义的,只有当所有份额聚合时才能恢复原始数据。SPU设备允许在这些秘密分享上执行计算,而无需透露原始数据。

PYU设备(Party Unit)

PYU设备代表了数据所有者的本地计算环境。在PYU设备上,数据以明文形式存在,但这些数据不会直接与其他PYU设备交互。相反,PYU设备会将数据转化为适用于安全多方计算的形式(如秘密分享),然后发送到SPU设备上进行处理。这样,原始数据始终保留在PYU设备上,从而保护了数据隐私。

“设备”这个词在这里并不直接对应于物理硬件,如服务器或计算机,而是更多地表示了一个逻辑上的计算单元,在这个单元内,数据按照特定的安全策略进行处理。通过将数据处理划分为SPU和PYU设备,SecretFlow能够实现数据的隐私保护,即使在多方合作的场景下也能保证数据安全。

SecretFlow的设计使得数据能够在保持私有性的同时,利用多方数据的协同力量进行更强大和更准确的分析与模型训练,这是其在隐私计算领域的核心价值所在。

好的,让我们用更通俗的语言来解释垂直WOE分箱和垂直箱子替换这两个概念

垂直WOE分箱(Vertical WOE Binning)

在数据分析中,当我们有一个包含多个特征的数据集时,每个特征都可能有不同的分布。垂直WOE分箱是一种方法,它允许我们将每个特征分成几个区间(或“箱子”),以便更好地理解特征与目标变量之间的关系。
这个过程通常包括以下几个步骤:

  1. 选择特征:确定哪些特征对于预测目标变量最有用。
  2. 确定分箱方法:选择如何将特征值分成箱子,比如使用等宽分箱(每个箱子包含相同数量的值)或等频分箱(每个箱子包含相同数量的样本)。
  3. 定义箱子的界限:确定每个箱子的最小值和最大值。
  4. 计算WOE值:对于每个箱子,计算权重值(WOE)来衡量该箱子中每个类别与目标变量的关系。

垂直箱子替换器(Vertical Bin Substitution)

一旦我们有了分箱规则,我们可以使用垂直箱子替换器来将原始特征替换为它们的WOE值。这个过程通常称为“箱子替换”或“WOE转换”。
这个过程包括以下步骤:

  1. 应用分箱规则:根据分箱规则,将每个特征值分配到相应的箱子中。
  2. 计算WOE值:对于每个箱子,计算WOE值。
  3. 替换特征值:将每个特征值替换为其WOE值。
    这样,我们得到的新的特征集(称为WOE特征集)将包含每个特征的WOE值,这些值可以用来训练机器学习模型。
  4. 垂直WOE分箱是一种数据预处理技术,它帮助我们更好地理解特征与目标变量之间的关系。垂直箱子替换器则是一种工具,它将原始特征转换为WOE特征,以便于机器学习模型处理。

可信数据流通

数据要素市场规模指数级增长,数据要素逐渐流向千行百业,实现产业应用与价值释放,而作为解决数据安全与隐私问题的重要技术支撑,隐私计算的价值凸显。通过加密、脱敏、匿名化等手段,隐私计算能够确保数据在处理过程中不被泄露,同时还能实现数据的共享和分析,为数据的安全共享和流通提供了新的解决方案,也为人工智能、大数据等领域的发展带来了新的机遇
围绕产业数据流转全链路,从局部到广域,推动社会数据大规模可信流通体系建设
当数据成为“生产要素”,在产业链内外的流通就成为了必不可少的一环,面向未来,推动数据要素价值流通是一个系统性工程,需要社会各界协力合作,共同构建新的技术服务生态和技术标准体系
数据决定 AI 应用能力的上限,密算决定数据供给的上限,人才决定数据行业发展的上限
数据是发展新质生产力的关键力量,将为实体经济和中小微企业创造新机会。在数据密态时代,低成本的密态计算技术是让数据价值像自来水一样即开即用的关键,以突破安全、成本和计算复杂度对数据要素价值的进一步发挥的制约端云协同是隐私计算技术未来的发展趋势,从社区走向产业是隐私计算行业成熟的必经之路。以持续的科技创新、产品服务与生态构建,推动数据实现跨云跨端的大规模可信流通

端云协同

端云协同指的是边缘计算设备(端)和云计算平台(云)之间的协作。在这种模式下,数据处理和应用服务可以智能地分布在边缘和云端,根据实时需求、资源可用性和数据敏感性等因素动态调整。端侧通常负责实时处理、数据预处理和隐私保护,而云侧则负责大规模数据分析、复杂计算任务和长期数据存储。

跨云跨端

跨云跨端是指数据和应用可以在多个不同的云平台和各种终端设备之间无缝迁移和运行的能力。在多云环境中,企业可能会使用不同供应商提供的云服务,如AWS、Azure、阿里云等。跨云意味着应用程序和数据能够在这些不同的云服务之间自由流动,不受单一供应商的限制。同时,跨端则涵盖了智能手机、PC、IoT设备等多种终端,确保用户无论使用何种设备都能获得一致的服务体验。
在隐私计算的背景下,端云协同和跨云跨端技术使得数据可以在不离开其本地环境的情况下被处理,同时利用云的强大计算能力进行必要的分析和整合。这样既保证了数据的安全性和隐私性,又实现了数据价值的最大化利用。例如,通过多方安全计算(MPC)、联邦学习(FL)等隐私计算技术,数据可以在不同实体之间共享和联合分析,而无需直接暴露原始数据,从而促进数据在多个参与方之间的可信流通。

密态托管(Confidential Hosting)

密态托管是指在云环境中以加密的形式存储数据,即使云服务提供商也无法访问数据的明文内容。这通常是通过使用硬件安全模块(HSM)、可信执行环境(TEE,如Intel SGX)或加密数据库来实现的。这样一来,数据在云上存储时始终保持加密状态,保护数据免受内部和外部威胁。

密态研发(Confidential Development)

密态研发意味着在开发过程中,代码、算法或模型同样处于加密或隔离的环境中,防止敏感信息泄露。开发者可以在不接触明文数据的情况下进行开发和测试,确保知识产权和数据安全。

密态计算(Confidential Computing)

密态计算是一种技术,它允许数据在加密状态下被处理和计算,而不需要先解密。这意味着数据在处理过程中也保持加密,只有授权的程序或硬件才能在加密环境下对数据进行操作。这种计算方式能够显著增强数据的安全性和隐私保护。

跨云跨端的数据可信流通网络

这指的是建立一个信任网络,让数据能够在多个云服务提供商之间以及各种终端设备(如手机、电脑、物联网设备)之间安全地流动。在这个网络中,数据的所有者可以控制数据的使用权限,数据处理者只能在指定的条件下访问和使用数据,同时保证数据的完整性和机密性。这种流通网络依赖于上述的密态托管、密态研发和密态计算技术,确保数据在传输和处理过程中的安全性。产业是技术最好的练兵场,应用场景是数据价值产生的根本动力。数据要素流通过程中的数据质量评价和价值评估不仅是数据要素流通发展的当务之急,也是加快行业大模型落地的关键

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2158190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二.python基础语法

目录 1.第一个python实例 2.python编码规范 2.1.编写规则 2.2.命名规范 2.3. 空格 2.4. 缩进 2.5. 注释 3.python关键字和标识符 3.1.标识符 3.2.关键字 4.python变量 4.1. 定义变量 4.2. 变量类型是可变的 4.3. 多个变量指向同一个值 5.python基本数据类型 5.…

通过组态王在ARMxy边缘计算网关上实现设备集成

随着工业4.0和智能制造理念的普及,设备集成已成为提高生产效率、优化资源配置的重要手段之一。ARMxy系列中的BL340边缘计算网关,以其强大的处理能力和丰富的接口资源,成为实现设备集成的理想平台。 1. BL340边缘计算网关概述 BL340系列是AR…

rce漏洞进阶-玩法思路-绕过姿态

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文主要是整理rce的一些绕过,以及思路等 用于实战中对着测漏洞用 偏进阶,不涉及基础的漏洞原理等内容 玩法思路 代码执行转化命令执行 遇到代码执行漏洞,我们可以传递syste…

计算机毕业设计选题推荐-基于python+Django的全屋家具定制服务平台

精彩专栏推荐订阅:在下方主页👇🏻👇🏻👇🏻👇🏻 💖🔥作者主页:计算机毕设木哥🔥 💖 文章目录 一、全屋家具定制…

操作系统 | 学习笔记 | | 王道 | 5.3 磁盘和固态硬盘

5.3 磁盘和固态硬盘 5.3.1 磁盘 磁盘结构 磁盘:磁盘的表面由一些磁性物质组成,可以用这些磁性物质来记录二进制数据 磁道:磁盘的盘面被划分成一个个磁道。这样的一个“圈”就是一个磁道 扇区:一个磁道又被划分成一个个扇区&am…

医院信息化运维监控:确保医疗系统的稳定与安全

在当今数字化时代,医院的信息化水平直接关系到医疗服务的效率和质量。随着医疗信息化的不断推进,医院对信息化运维监控的需求也日益增强。特别是IT软硬件资源监控和机房动环监控,它们在保障医院信息系统稳定运行中发挥着至关重要的作用。 首先…

在windows上使用vs code调试Rust程序

视频参考:https://www.youtube.com/watch?vTlfGs7ExC0A 前置条件 需要安装的软件: rustvs codeMinGW 或者其它能在 Windows 平台上运行 gdb、gcc 和 g 的软件。 需要安装的插件: rust-analyzer CodeLLDB 然后,在 vs code 中…

iPhone锁屏密码忘了怎么解锁?轻松解锁攻略来了

在日常生活中,智能手机已成为我们不可或缺的伙伴。其中,iPhone以其出色的性能和优雅的设计,赢得了全球用户的喜爱。然而,即便是最忠实的iPhone用户,也可能会遇到一些棘手的问题,比如忘记了锁屏密码。面对这…

韦唯湾区升明月演绎经典 震撼演绎传递爱与力量

9月22日晚,《“湾区升明月”2024大湾区电影音乐晚会》为全球观众送上了一场融合电影艺术与音乐魅力的艺术狂欢,晚会中不光有对不同代际经典影视金曲、经典歌曲的全新演绎,更是汇集了来自海峡两岸暨港澳地区的电影人、音乐人、奥运健儿代表。中…

【AI画图】stable-diffusion-webui学习之一《安装部署》

简介 Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它是一种潜在扩散模型,它由创业公司Stability AI与多个学术研究者和非营利组织合作开发。目前的SD的源代码和模型都已经开源,在Github上由AUTOMATIC1111维护了一个完整的项目…

git报错:无法读取远程分支 ‘origin‘ does not appear to be a git repository

问题分析 push上传的时候本地分支和远程分支断开连接 所以重新链接即可 排查问题 1. 查看是否有分支,检查分支是否正确 git branch -v 2. 查看连接是否断开,断开无内容展示 查看远程仓库详细信息,可看到仓库地址 git remote -v 解决…

k8s中pod的创建过程和阶段状态

管理k8s集群 kubectl k8s中有两种用户 一种是登录的 一种是/sbin/nologin linux可以用密码登录,也可以用证书登录 k8s只能用证书登录 谁拿到这个证书,谁就可以管理集群 在k8s中,所有节点都被网络组件calico设置了路由和通信 所以pod的ip是可以…

如何在拥挤的应用商店中脱颖而出

在现在移动应用程序已成为我们日常生活中必不可少的一部分,从通信和娱乐到财务和健康管理,为各种问题提供解决方案。然而,Google Play 和 App Store 等应用商店的竞争每年都变得更加激烈。数以百万计的应用程序争夺用户的注意力,仅…

车间里应用到了不同品牌的PLC,这还能进行无线通讯吗?

自第一台PLC在GM公司汽车生产线上首次应用成功以来,PLC凭借其方便性、可靠性以及低廉的价格得到了广泛的应用。在现代化工厂中,除厂级PLC系统外,还存在很多独立的子系统。比如,各个生产车间的PLC系统、或同一生产车间的不同生产流…

长方形+ 下三角形的图形 css

<div class"transform">42.48%</div>//转化.transform {position: relative;width: 70px;height: 26px;background-color: #dcdfe6; /* 长方形的颜色 */display: flex;justify-content: center;align-items: center;font-family: PingFangTC-Medium;font…

安装Java(配置Windows环境)( ̄︶ ̄)↗

一、下载Java安装包 1.1、首先&#xff0c;需要访问Oracle的官方网站&#xff08;Oracle官网&#xff09;&#xff0c;在网站上找到Java SE&#xff08;标准版&#xff09;的下载页面。 1.2、根据自己的操作系统和需求选择合适的JDK&#xff08;Java Development Kit&#xf…

软件功能测试需进行哪些测试?第三方软件测评机构有哪些测试方法?

在信息化社会迅速发展的今天&#xff0c;软件功能测试在软件开发生命周期中占据着不可或缺的地位。软件功能测试是评估软件系统是否符合预期功能和用户需求的过程。其重要性体现在提升软件质量、确保用户满意度以及降低维护成本等方面。 软件功能测试是对软件应用程序进行的一…

828华为云征文 | 云服务器Flexus X实例,搭建GitLab远程仓库

828华为云征文 | 云服务器Flexus X实例&#xff0c;搭建GitLab远程仓库 搭建GitLab 1、购买华为云 Flexus X 实例 Flexus云服务器X实例-华为云 (huaweicloud.com) 2、docker安装 yum install -y docker-ce3、验证 Docker 是否安装成功&#xff0c;启动docker服务并设置开机自启…

开关柜设备红外检测数据集

开关柜设备红外检测数据集 包含以下2个数据文件&#xff1a; /train&#xff1a;训练集 /valid&#xff1a;验证集 /test&#xff1a;测试集 README.txt&#xff1a;数据说明 【数据说明】检测目标以Pascal VOC格式进行标注&#xff0c;对每个图像进行以下预处理&#xff0c;统…

国内比较有名的国学大师改名字专家颜廷利:量子纠缠与良知救善

国内比较有名的国学大师改名字专家颜廷利&#xff1a;量子纠缠与良知救善 在探索宇宙的奥秘和人类行为的伦理之间&#xff0c;存在着一种看似无形却实际牢不可破的联系。这种联系&#xff0c;在科学的视角下&#xff0c;可被视作量子纠缠的一种哲学体现&#xff1b;在人文的探…