【隐私计算】隐私计算的应用场景探索(大模型隐私计算、隐私数据存储计算、Web3、隐私物联网等)

news2024/11/16 5:53:00

1. 背景分析

        隐私计算作为一种实现“原始数据不出域,可用不可见”的数据流通价值的关键技术,经历了2020-2023年的高光时刻,却在2024年骤然走向低谷。从各种渠道了解到一些业内曾经风光无两的隐私计算公司都有不同程度的裁员。几乎一夜之间,行业的重心转向了数据要素流通平台和公共数据运营平台,不管是巨头,还是创业公司,企业不再仅仅标榜自己是“隐私计算公司”,而是更强调自己是作为“数据要素生态运营公司”。并且各方都在狂降成本和探索应用出路,比如某巨头由于员工成本超高,不太可能采用定制的模式输出,开源是最佳的解决方案,同时与各大高校合作,吸引大量的本科生和研究生作为代码贡献者,参与到开源平台的建设,降低开发成本。并且通过开源,形成事实性的行业标准和范本,行业内很多机构都相继提出了需要与某开源的平台能够实现互联互通。此外,通过产学研合作等方式扩大数据源合作和前沿技术研究,在保持技术和业务增长的同时可以进一步降低成本。这就是当前的行业现状,大家都在谋求可行的出路。

        事实上,我反倒认为隐私计算企业在这样的变革中愈加成熟了。若隐私计算仅被视为一项技术,可能其影响更多局限于学术领域。尤其在2020-2022年间,行业和各类大型机构对隐私计算的认知大多聚焦在技术本身,竞相比拼技术指标,你追我赶,好不热闹。这个现象像极了大模型行业,百模大战、竞技场PK,只要开源一款新的版本大模型就声称自己在某种程度上超过了GPT某个系列的大模型。但是大模型企业有一个很清晰的认知,一开始公司就定位自己的核心业务形态,比如to C需要做哪些, to B又需要往哪方面加强,并且比如AI六小虎的融资金额够充足。公司也划分为模型预训练、AI架构、AI应用等核心部门,大模型作为一种技术,需要探索落地应用的方向和场景,找到愿意付费的群体。回到隐私计算本身,如果技术无法用于解决实际业务问题、实现持续应用,它的价值终究难以持久,融资也迟早会耗尽。数据要素运营场景的出现,其实是为隐私计算找到了业务应用场景。数据要素运营的范围更广、需求更多元,数据的分类分级也更加复杂,隐私计算则在其中作为专门应对高密级数据的技术解决方案,成为数据要素生态的一环。

        当然,某些企业在隐私计算的场景应用其实还挺丰富的,也有一系列的落地成果,同行评价也比较高,今天就不展开说这块。本文主要是希望探讨隐私计算在应用层面的更多可能性, 跳出原先的金融风控、广告营销的狭小应用范围。

2. 隐私计算应用场景

2.1 隐私数据存储与计算

        隐私数据存储,实现大型公司系统数据的可用不可见。能够为业务提供安全合规的解决方案。这里面也会涉及到高并发的分布式系统建设,解决数据存储和计算的安全合规问题等。隐私数据存储和计算,或者说采用隐私计算去支撑系统研发,本身就是一整套的解决方案,涉及密码学、算法、研发、架构等多方面,是系统性的工程,比如下图的处理模式【1,2】。

        以下列出的是一些可能的技术应用方向,仅供参考。

1. 隐私数据存储

加密存储:使用加密算法对敏感数据进行存储加密,密钥通过硬件安全模块或分布式密钥管理系统进行保护,从而实现“不可见”的数据存储。所有数据在保存和提取时都需解密和加密处理,以防止数据泄露。

分布式加密数据库:采用支持数据加密和分区存储的分布式数据库系统,确保高并发环境下的数据读取和存储稳定、安全。

数据分层与分级管理:将数据按敏感级别划分(如公开、内部、敏感、机密等),并根据数据级别应用相应的存储和加密策略,以提高存储合规性和安全性。

去标识化与匿名化:将敏感标识信息去标识化或进行匿名化处理,进一步降低数据泄露的隐私风险。

2. 隐私保护计算

这里仅仅做简单介绍,详细的隐私计算算法介绍可以参考隐私计算专栏

同态加密计算:同态加密允许在加密数据上直接执行计算,不需要将数据解密即可完成计算任务。

多方安全计算(MPC):在涉及跨部门或跨公司计算的数据时,通过多方安全计算技术实现数据的联合计算。各方只提供数据的部分信息,计算的中间数据对所有参与方不可见。

可信执行环境(TEE):采用可信执行环境来隔离敏感数据计算。通过硬件级别的隔离,保证计算过程中数据在内存中的安全,防止外部环境的篡改和窥探。

联邦学习:联合建模和协作分析的场景。通过联邦学习框架在各个数据源本地训练模型,服务端仅聚合模型参数,不会获取数据本身,实现数据协同分析。

3. 分布式系统架构设计

分布式存储与负载均衡:利用分布式存储和负载均衡机制,确保在高并发下的稳定性和数据处理能力,同时可以通过分布式加密存储方案加强数据的安全性。

高并发数据访问控制:在高并发场景中,利用分布式锁和分级授权管理,严格控制对敏感数据的访问。基于角色和属性的访问控制机制,保证数据的访问权限划分清晰。

数据流监控与日志审计:在数据流通过分布式系统处理过程中,通过日志记录和实时监控,对所有访问和操作进行记录上链,便于合规审查,发现异常行为时可实时告警并采取措施。

4. 合规与安全策略

合规加密算法和标准:确保所用的加密算法、数据保护技术符合行业安全合规要求,以确保数据使用的合规性。

动态数据安全:使用动态访问控制策略,根据数据使用场景、访问频率和敏感级别动态调整数据的加密策略和访问策略,满足不同业务的安全需求。

安全策略隔离:对于不同的业务模块,通过微服务隔离或网络隔离实现数据的隔离和访问控制,避免不同业务间的数据越界访问。

访问权限审计:定期进行隐私数据访问权限的审计,确保访问权限的合理性,并根据业务变化及时调整权限。

5. 高效的数据存储与计算框架

数据分区与缓存:对高频访问的隐私数据进行分区和缓存处理,以减轻分布式系统下的存储压力,减少对后端数据库的直接访问,提升高并发环境中的计算效率。

边缘计算:在数据存储和计算场景中引入边缘计算,通过数据源边缘节点进行预处理和聚合,减少对中心化服务端的访问请求,优化高并发场景下的数据流处理。

2.2 Web3+隐私计算

2.2.1 Web3.0概念解析

        什么是Web3?【3】给出了一些定义。Web3.0其实是应对零信任交互系统需求不断增加而产生的。将信息交给某种主体(比如电商平台、社交网站、云平台等)本身是一种根本上存在缺陷的模式。机构不干涉我们数据的概率只是所需的努力减去预期收益,但考虑到大多数组织的收入模式需要尽可能多地了解用户,这就存在一种现实性的矛盾,在利益面前,总是会有主体突破某种限制。

        Web 3.0,重新构想对Web的使用方式,但其交互模式有着根本性的不同。将假定为公共的信息发布出来,假定需要共识的信息放入共识账本中,而假定为私密的信息则严格保密。所有通信都将通过加密信道,并只用伪匿名身份进行传输,不涉及可追踪信息(如IP地址)。简而言之,通过数学手段设计系统来实现我们原有的假设,因为没有任何组织能够真正被信任。

        Web3.0主要包含四个方面:静态内容发布、动态消息、无信任交易和集成用户界面。第一部分是去中心化加密的信息发布系统。它通过一个信息的哈希返回该信息本身。一旦下载,可以确保这是正确的信息,因为地址是与之相关的。第二部分是基于身份的伪匿名低层消息系统,用于网络中的人与人之间的通信。采用强加密,以确保消息可以用身份的公钥加密,确保仅该身份能解密,且发送者可用私钥签名来证明消息确实来自于自己,并为接收者提供安全的通信回执。Web 3.0的第三部分是共识引擎。共识引擎是一种达成互动规则的手段。Web 3.0中,所有信任的信息发布与更改都将通过共识引擎来完成,比如以太坊。Web 3.0的第四部分是整合以上组件的用户界面——“浏览器”。包含URI栏、后退按钮以及页面显示区域,但与传统网页不同,Web 3.0中的应用以共识引擎解决的名称为入口。使用信息发布系统,可以扩展为一组前端所需的文件。        

2.2.2 Web3.0与隐私计算关系

        隐私保护是维护用户权利的基石,也是Web3的重要发展方向之一。在开放且用户主导的Web3,隐私保护是一种标配。在日益复杂的交互环境中,很多关键信息需要外部保障来防止隐私信息被恶意利用。Web3提倡还权于用户,构建去中心化的价值互联网,改变Web2时代用户隐私被忽视的现状。在Web3中,隐私不仅需要保密性,也需要实现匿名性,涵盖数据隐私、身份隐私和计算隐私等多个方面。数据隐私和身份隐私的解决方案会逐渐成熟,基本实现数据内容的隐私保护和物理身份与数字身份的隔离。

        比如多方安全计算(MPC)拓展至Web3领域,将去中心化数据所有权与隐私保护技术无缝结合。确保高度安全的在线环境,同时保护了个人的数据自主权。在Web3.0与MPC的交汇点上,用户可以掌控自己的私密数据【5】。比如TEE机密计算在Web3应用中可以建立可信的去中心化系统,无需盲目信任,通过机密计算验证数据和过程,增强了用户对系统的信任。在不暴露数据的前提下使用数据。增强智能合约功能,使智能合约可以安全访问敏感数据,支持复杂的去中心化应用场景。赋予个体数据主权,个人可以共享数据而不失去控制权,进一步保障数据隐私【6】。此外,零知识证明特别适合匿名身份管理,在Web3中,去中心化身份是一个重要的领域。零知识证明可以让用户证明他们拥有某些特定属性(例如年龄、国籍等),但不透露完整身份信息。

        这里给一个具体应用案例:Web 3.0 场景下的MPC 钱包。MPC 钱包是基于多方计算方法创造的数字加密货币钱包的子工具。它们允许多个用户创建一个联合钱包来存储数字资产,而不会出现单点故障。在实际应用中,用户可独立访问、操作和修改 MPC 钱包,而不会泄露彼此的身份或将共享的数字资产置于危险之中。

2.3 物联网+隐私计算

        物联网(IoT)整合了数十亿个由不同组织和个人所拥有的设备,利用这些物联网设备提供的信息,为解决以前太大太难的互联网规模问题提供了机会。物联网应用(IoT)有可能获取敏感的用户数据,就像其他基于网络的信息系统一样,IoT也必须应对大量网络安全和隐私威胁,这些威胁甚至可能将整个行业的数据甚至国家的数据作为人质,如下图监控设备例子所示【8】。

        IoT必须有效地应对这些威胁,并确保从IoT设备收集和提炼的信息的安全和隐私。IoT分为设备层、基础设施/平台层和应用层,需要确保在这三个IoT层之间端到端隐私。隐私保护技术利用多个IoT云数据存储来保护从IoT收集的数据的隐私。【9】提出了一套隐私保护的IoT架构和概念验证实现。

2.4 大模型+隐私计算  

        关于隐私计算与大模型的结合,出发点主要有两个:

        (1)高质量数据的消耗殆尽,未来可能需要更多私域的高质量数据,而私域数据一般不出域,需要利用隐私计算技术,来实现多方高质量数据的训练应用。

        (2)大模型本身存在的一些隐私保护风险。比如敏感场景下用户的prompt需要进行保护,或者大模型自身的关键模型参数需要保护。

        之前,我们在《大模型的安全由隐私计算来保护》、《全同态加密应用场景案例(隐私云计算中的大模型推理)》中介绍了隐私计算技术在大模型训练、预测等场景的应用案例。

        【10】对大模型中隐私保护进行了分类。红色表示各种攻击技术,蓝色代表通过处理训练数据或模型来保护隐私的当前可行方案。最后,橙色标注的是现有的隐私保护工具。

        除了我们之前文章中介绍的案例外,这里再给三个新的应用案例(24年发表),帮助理解如何利用隐私计算技术实现大模型的隐私保护处理。

        【10】中提到采用差分隐私技术,在模型中,通常是通过在训练梯度中加入噪声(DP-SGD)来实现隐私保护。但在语言模型的所有训练参数的梯度中添加噪声往往成本较高。因此参数高效微调技术可以减少训练参数的数量,从而降低在这些梯度上应用差分隐私的成本。     

        【11】涉及关于敏感用户指令的处理方法。大模型应用的服务提供商在真实环境中收集用户指令,并利用这些指令进一步调整模型,使其更符合用户意图。但是,这些指令可能包含敏感信息,并在数据标注过程中被人工处理,导致隐私优化无法解决的新隐私风险。因此提出使用合成指令替代真实指令进行数据标注和模型微调。通过使用经过隐私微调的生成器生成合成指令,可确保差分隐私。为了实现所需的实用性,设计过滤算法使合成指令的分布与真实指令的分布相匹配。在有监督微调和基于人类反馈的强化学习中,合成指令集效果可与真实指令相媲美。

        【12】提出了一种两方密态推理框架 Nimbus,专门用于 Transformer 神经网络的隐私保护推理,为 Transformer 神经网络中线性层的矩阵乘法及非线性层的激活函数提出了针对性的加速,比如线性层采用基于外积编码的高效矩阵乘法协议、非线性层采用输入分布感知的分段多项式拟合,针对那些出现概率较高的区间给予更精细的拟合,而对于低概率出现的区间,则允许其存在一定程度上的拟合误差。该框架在保护模型和用户数据隐私的前提下,实现了高效的推理过程,支撑大模型的隐私推理场景。

        

3. 参考材料

【1】dsMTL: a computational framework for privacy-preserving, distributed multi-task machine learning 

【2】Privacy-Preserving Distributed Energy Resource Control with Decentralized Cloud Computing

【3】What Web 3.0 Looks Like

【4】Web3.0知识要点

【5】Securing the future of data privacy with multiparty computation                

【6】Secure and Private Data Processing in Web3: A Deep Dive into Arcium and Confidential Computing

【7】MQX 在 Web 3.0 领域的应用:MPC 钱包安全交易方案

【8】Privacy-Preserving Protocols for Smart Cameras and Other IoT Devices

【9】Privacy preserving Internet of Things: From privacy techniques to a blueprint architecture and efficient implementation

【10】Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions

【11】Privacy-Preserving Instructions for Aligning Large Language Models

【12】Nimbus: Secure and Efficient Two-Party Inference for Transformers

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2241303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【提高篇】3.4 GPIO(四,工作模式详解 下)

四,模拟输入输出 上下拉电阻断开,施密特触发器关闭,双 MOS 管也关闭。该模式用于 ADC 采集或者 DAC 输出,或者低功耗下省电。但要注意的是 GPIO本身并不具备模拟输出输入的功能。 4.1 模拟输入 STM32内置ADC(模数转换器),可以将模拟信号转换为数字信号。GPIO引脚可以…

【青牛科技】D4147漏电保护电路介绍及应用

1、标题: D4147漏电保护电路 2、简介: 我司代理电源管理芯片,产品具有失效率低、可靠性高等特点。 3、具体应用: 相关产品介绍: 4、D4147 应用框图: D4147 方案介绍: 接地零线故障引起的接地…

【C++】深入理解自定义 list 容器中的 list_iterator:迭代器实现详解

个人主页: 起名字真南的CSDN博客 个人专栏: 【数据结构初阶】 📘 基础数据结构【C语言】 💻 C语言编程技巧【C】 🚀 进阶C【OJ题解】 📝 题解精讲 目录 📌 引言📌 1. 为什么 list 容器需要 list_iterator…

MuMu模拟器安卓12安装Xposed 框架

MuMu模拟器安卓12安装Xposed 框架 当开启代理后,客户端会对代理服务器证书与自身内置证书展开检测,只要检测出两者存在不一致的情况,客户端就会拒绝连接。正是这个原因,才致使我们既没有网络,又抓不到数据包。 解决方式: 通过xposed框架和trustmealready禁掉app里面校验…

MongoDB分布式集群搭建----副本集----PSS/PSA

MongoDB分布式集群 Replication 复制、Replica Set 复制集/副本集 概念 一、 副本集的相关概念 1.概念 “ A replica set is a group of mongod instances that maintain the same data set. ” 一组MongoDB服务器(多个mongod实例)(有不…

Java篇String类的常见方法

目录 一. String类的概念 1.1 String类的特性 二. 字符串的构造方式 三. 常用方法 3.1 字符串查找 3.2 字符串转换 3.3 字符串比较 3.3.1 equals( )方法 3.3.2 compare To( )方法 3.3.3 compare ToIgnoreCase( )方法 3.4 字符串替换 3.4.1 replace( )方法 3.4.2 r…

「QT」文件类 之 QDataStream 数据流类

✨博客主页何曾参静谧的博客📌文章专栏「QT」QT5程序设计📚全部专栏「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C」C/C程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制…

MySQL45讲 第二十三讲 是怎么保证数据不丢的?

文章目录 MySQL45讲 第二十三讲 是怎么保证数据不丢的?一、binlog 写入机制(一)事务执行与 binlog cache(二)事务提交与 binlog 文件写入 二、redo log 写入机制(一)事务执行与 redo log buffer…

pgaudit插件-pgslq

使用pgaudit插件 一.介绍 postgresql可以通过log_statementall 提供日志审计,但是无法详细的提供日志信息,使用ogaudit能够提供详细的会话和对象审计日志,是PG的一个扩展插件 注意:pgAudit可能会生成大量日志。请谨慎确定要在您…

系统掌握大语言模型提示词 - 从理论到实践

以下是我目前的一些主要个人标签: 6 年多头部大厂软件开发经验;1 年多 AI 业务应用经验,拥有丰富的业务提示词调优经验和模型微调经验。信仰 AGI,已经将 AI 通过自定义 Chatbot /搭建 Agent 融合到我的工作流中。头部大厂技术大学…

Vue 项目打包后环境变量丢失问题(清除缓存),区分.env和.env.*文件

Vue 项目打包后环境变量丢失问题(清除缓存),区分.env和.env.*文件 问题背景 今天在导报项目的时候遇到一个问题问题:在开发环境中一切正常,但在打包后的生产环境中,某些环境变量(如 VUE_APP_B…

群控系统服务端开发模式-应用开发-前端菜单功能开发

今天优先开发菜单及角色,明天将开发岗位配置、级别配置等功能。具体看下图 而前端的路由不需要手动添加,是依据数据库里面存储的路径。 一、添加视图 在根目录下src文件夹下views文件夹下permission文件夹下menu文件夹下,新建index.vue&…

数据结构Python版

2.3.3 双链表 双链表和链表一样,只不过每个节点有两个链接——一个指向后一个节点,一个指向前一个节点。此外,除了第一个节点,双链表还需要记录最后一个节点。 每个结点为DLinkNode类对象,包括存储元素的列表data、…

【HarmonyOS学习日志(8)】UIAbility,HAP,AbilityStage组件及其生命周期

基本概念 UIAbility组件是一种包含UI的应用组件,主要用于和用户交互。 在项目创建时,系统默认生成的EntryAbility类继承了UIAbility类。 ExtensionAbility组件:是基于特定场景(例如服务卡片、输入法等)提供的应用组件…

【Linux】多线程(中)

目录 一、线程互斥 1.1 互斥概念 1.2 互斥量mutex 1.3 互斥量相关API (1)初始化互斥量 (2)销毁互斥量 (3)互斥量加锁和解锁 1.4 互斥量原理 1.5 重入和线程安全 二、死锁 2.1 概念 2.2 造成死锁…

【数字图像处理+MATLAB】基于 Sobel 算子计算图像梯度并进行边缘增强:使用 imgradientxy 函数

引言 在图像处理中,边缘通常是图像中像素强度变化最大的地方,这种变化可以通过计算图像的梯度来量化。梯度是一个向量,它的方向指向像素强度增加最快的方向,它的大小(或者说幅度)表示像素强度增加的速度。…

Nuxt.js 应用中的 schema:beforeWrite 事件钩子详解

title: Nuxt.js 应用中的 schema:beforeWrite 事件钩子详解 date: 2024/11/14 updated: 2024/11/14 author: cmdragon excerpt: schema:beforeWrite 钩子是 Vite 提供的一个功能强大的生命周期钩子,允许开发者在 JSON Schema 被写入之前执行自定义操作。利用这个钩子,您可以…

k8s服务内容滚动升级以及常用命令介绍

查看K8S集群所有的节点信息 kubectl get nodes 删除K8S集群中某个特定节点 kubectl delete nodes/10.0.0.123 获取K8S集群命名空间 kubectl get namespace 获取K8S所有命名空间的那些部署 kubectl get deployment --all-namespaces 创建命名空间 web界面上看到的效果,但是…

MinIo在Ubantu和Java中的整合

1.MinIo在Ubantu中的部署 首先准备好一台已经安装好Ubantu系统的服务器 MinIO是一个开源的对象存储服务器,兼容Amazon S3,性能卓越,适合存储非结构化数据,例如照片、视频、日志文件、备份和容器镜像等。 1:更新系统…

设计模式-参考的雷丰阳老师直播课

一般开发中使用的模式为模版模式策略模式组合,模版用来定义骨架,策略用来实现细节。 模版模式 策略模式 与模版模式特别像,模版模式会定义好步骤定义好框架,策略模式定义小细节 入口类 使用模版模式策略模式开发支付 以上使用…