大数据 不等于 数据要素
大数据:大数据指的是体量巨大、增长迅速且结构复杂的数据集合。传统的数据处理工具无法有效存储和分析这些数据。大数据的处理涉及新的技术和方法,以提取有用的信息和知识。
数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。
数据要素:数据要素是指那些以电子形式存在的、通过计算的方式参与到生产经营活动并发挥重要价值的数据资源。
数据要素是什么
“数据要素”一词是面向数字经济,在讨论生产力和生产关系的语境中对“数据”的指代,是对数据促进生产价值的强调,即数据要素指的是根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态,投入于生产的原始数据集、标准化数据集、各类数据产品及以数据为基础产生的系统、信息和知识均可纳入数据要素讨论的范畴
数据要素的三次价值实现方式
- 数据投入生产的一次价值体现在支撑企业、政府的业务系统运转,实现业务间的贯通。企业、政府主要工作重心是业务数字化及各类业务信息系统建设。
- 数据要素投入生产的二次价值释放体现在通过数据的加工、分析、建模,可以揭示出更深层次的关系和规律,使生产、经营、服务、治理等环节的决策更智慧、更智能、更精准。数据二次价值释放过程对企业数据挖掘和洞察能力提出更高要求。
- 数据要素投入生产的三次价值释放让数据流通到更需要的地方,让不同来源的优质数据在新的业务需求和场景中汇聚融合,实现双赢、多赢的价值利用。在数据的三次价值释放过程中,数据要素市场及其技术路径成为行业关注的焦点。
数据要素市场的三种流通方式
培育数据要素市场的目标是数据在各市场主体间高效有序自由流通。按照数据与资金在主体间流向的不同,可分为开放、共享、交易三种流通形式。
- 数据开放是指提供方无偿提供数据,需求方免费获取数据,没有货币媒介参与的数据单向流通形式。
- 数据共享是指互为供需双方,相互提供数据,没有货币媒介参与的数据双向流通形式。
- 数据交易是指提供方有偿提供数据,需求方支付获取费用,主要以货币作为交换媒介的数据单向流通形式。
总体来说,就是让数据增长变成数据资源,数据资源变成资产,数据资产变成资本。数据流通时做到数据可用不可见。
隐私计算
隐私计算(Privacy computing)是指在保证数据不对外泄露的前提下,由两个或多个参与方联合完成数据分析计算相关技术的统称,其目的是在数据计算和分析过程中保护数据隐私和安全。这些技术确保在数据被处理、共享和分析的同时,不会泄露或暴露个人敏感信息。随着数据隐私和数据安全要求的不断提高,隐私计算技术变得越来越重要。
隐私计算情景:
已知小明和小红的钱数在十块钱以内,小明有五块钱,小红有八块钱,他们想要知道谁的钱多,但不想让对方知道自己有多少钱(暂不考虑相等的情况)?
答:
- 首先拿出10个箱子,分别给他们编号1-10,代表钱数。首先把这10个箱子给小明,编号小于钱数的话放一个黑球,编号大于钱数的话放一个红球,那么1-4号箱子里是黑球,6到10箱子里是红球。
- 接下里把这些箱子交给小红,小红把和她钱数对应编号的箱子取出来,也就是把8号箱子取出来,交给小明。
- 小明打开八号箱子发现里面是红球,因此可以知道小红的钱数比小明多。
联邦学习
联邦学习(Federated Learning)是一种分布式机器学习方法,允许多个数据持有者在不共享原始数据的情况下,协同训练机器学习模型。它通过将计算移动到数据所在的位置,并仅共享模型更新(而不是原始数据),实现了数据隐私保护和联合建模的目标。
初始化全局模型:中央服务器初始化一个全局模型,并将其发送到各参与方(例如,智能手机、医院、金融机构等)。
本地训练:各参与方在其本地数据上训练全局模型,并计算模型参数的更新(例如权重、梯度等)。
汇总更新:各参与方将其计算的模型更新发送回中央服务器,而不共享其本地数据。
更新全局模型:中央服务器聚合各参与方的模型更新,更新全局模型,并将更新后的模型再次发送给各参与方。
迭代训练:重复上述步骤,直到模型收敛或达到预定的性能指标。
联邦学习是一种创新的分布式机器学习方法,通过在保护数据隐私和安全的前提下,实现多方协同建模。
隐私计算和联邦学习的关系
- 联邦学习是隐私计算的一种具体实现方法,特别是当涉及到分布式数据和联合建模时,通过分布式数据处理,模型更新传输,安全聚合等方式实现隐私计算。
- 隐私计算技术可以增强联邦学习的隐私保护能力,确保数据在传输和处理过程中的安全性。