数据要素的大海,如何流向千行百业?

news2024/11/16 16:45:56

文|白    鸽

编|王一粟

当数智化的风吹向银行业,是从底层数据的融合开始的。

在银行风控场景中,一个人想要进行风险投资或借贷,银行往往会评估这个人的信贷和风控策略。在以往的办理模式中,会需要办理人提交各种资料,但也无法对其情况进行更精准判断。

但如果多家银行能够合规共享这个人的相关数据,那么这个人在多家银行的的信用和风险数据就可以被精准融合分析,针对这个人的信贷和风控策略也就会更准确。

这就是数据流通的价值。当前,数据正在成为新质生产力,数据流通的价值也正在被深度挖掘。

据5月24日举办的数字中国峰会上发布的《数字中国发展报告(2023)》显示,2023年我国数据生产总量达32.85ZB,同比增长22.44%。

国内众多企业也纷纷开展相关布局,如电信构建了“数链智网(DCAN)”数据要素能力体系,华为打造了数据要素流通解决方案参考架构等。

“现阶段各行业对数据的需求正在急剧提升,但数据要素一定要跨域流转,才能够释放更多的价值。”蚂蚁集团副总裁、首席技术安全官韦韬说道。

然而,数据想要真正以要素的形态进入市场,在主体间进行流转,也面临着诸多挑战。

其中,数据流通中的安全、成本和易用性,像一个「不可能的三角」。想要打破这个三角,需要一个有力的方式破局。

技术层面,韦韬认为,未来数据要素在外循环流通过程中,基于密码学与可信的密算技术,将为数据可信流通提供全流程保障。密态计算,将是数据要素流通的必经之路。

现阶段,密态计算整体的技术发展基本已经成熟,而随着行业对数据流通价值需求的不断爆发,可以说万事俱备,只差成本和易用性的东风。而这股东风,需要借助市场机制及产品标准化能力。

于整个行业而言,接下来要做的,就是降低技术成本,推动数据大规模可信流转,从而通过低成本的密态计算技术,让数据价值像自来水一样即开即用。

数据流通从局部到广域

隐私计算关键“管道”技术

数据要素要“用得好”,关键是“流得动”。

蚂蚁集团董事长兼CEO井贤栋以城市自来水网来打比方,数据要素的流通发展,就像城市自来水网的发展一样,会经历四个阶段:

第一阶段,原始的数据孤岛,企业拥有数据自研能力,自产自销,就像自家水井;

第二阶段,实现数据要素点对点流通,就像桶装水,基础设施不完善,流通的范围也有限;

第三阶段,数据要素在行业和区域进行可信流转,就像城市自来水网;

第四阶段,数据广域可信流转,好比综合水利工程,实现跨行业、跨地域和跨云可信流转和互联互通,真正普惠千行百业。

目前,数据要素流通正在迈向第三阶段,也就是实现行业和区域间的可信流转。

在前两个阶段中,数据流通往往采用传统的数据交易方式,通常是基于对主体的信任,双方之间用明文数据流通,“直接拷贝一份或者接个API”,也就是用裸露的明文数据去共同计算、合作。

这种方式数据价值全面且成本低,但风险很高。韦韬表示:“数据本身的复制成本非常低,明文数据很容易造成二次分发,一旦分享出去就容易失控。”

数据在脱离自身控制后,对方是否会任意复制、是否会交给第三方、是否会将这些数据用于违法犯罪,这些问题变成了一个未知。

过去在各类安全标准未完全完善的情况下,数据交易中出现信息泄露以及其他合规风险的可能性较大,这也导致产业链相关方存在“不敢流通”、“不会流通”、“流通不起”等问题,大大抑制了数据要素的流通性。

随着 “数据二十条”等引导、规范数据要素流通的政策文件落地,各领域对数据要素的需求全面爆发,而随着数据资源开发能力的持续增强,也为智慧城市建设运行、工业互联网开发利用、金融行业等数智化应用提供了丰富的“原料”。

在2024年数字中国建设峰会上,国家数据局会同多个部门发布了首批20个“数据要素X”典型案例,涵盖了工业制造、现代农业、商贸流通、交通运输等12个行业和领域,通过典型经验做法,进一步促进数据要素开发利用。

但数据要素的流通依然面临非常多的挑战,尤其是涉及到数据隐私安全等问题。那么,如何才能实现数据在行业和区域中进行可信流转,最大化发挥数据要素价值?

推动数据要素从局部流通,进入到广域流通,隐私计算是关键的“管道”技术。

在韦韬看来,数据只有以密态形式的流通,保障存储、计算、运维、研发,直到销毁全链路的控访,才能实现有效的流转,并兼顾好安全和发展的诉求。

为什么密态计算能够解决数据流转过程中的安全问题?

蚂蚁集团隐私计算部隐语总经理王磊解释道,密态计算的本质逻辑,是机构一将数据通过密态环境给到机构二。在这个密态环境中,机构二知道有这部分数据,且能够使用这部分数据,但在使用的过程中,机构二并不能够看到这些数据。

因此,机构二只能够按照双方约定方式使用数据,且其通过加工后的数据也只能存放到密态环境中,并不能够随意取用,只有当双方经过严格数据确权后,数据衍生产品才能够成为明文数据析出。

“密态计算,实际上就是把对人的信任转移到对技术的信任,从而实现数据跨主体流通过程中跨域管控的问题。”王磊如此说道,通过利用密态计算技术,实现数据密态流转,做到数据“可用不可见,可控可计量”。

密态计算解决了数据流通中的安全问题,但迈向数据密态时代的过程中,在保证多方数据安全的前提下,如何实现相对低成本门槛的数据价值合作,则也成为推动数据要素大规模流通的关键。

成本和价值的性价比

是数据流通的关键

当前,由数据泄漏造成的安全成本增加问题正日益严重。

据IBM《2023年数据报告》显示,2023年数据泄露的全球平均成本上升至445万美元,达到历史新高,比2022年的435万美元增加了2.3%,比2020年的386万美元增加了15.3%。

数据泄漏会导致企业数据资产的丢失,为企业造成严重的网络安全危机,从而带来成本的增加。

但现如今问题在于,网络安全技术成本非常高昂,致使行业中对安全技术的投入较低,无法为数据流通提供足够的安全保障。

“现实是,只有约三分之一的企业能够通过自己的安全团队发现问题,大部分公司都无力组建能够跟黑产对抗的安全团队。”韦韬说道。

因此,如何平衡安全技术的成本和数据价值,让密态技术能够更好的为数据流通做底层安全保障,则成为推动数据大规模流转的关键。

一个商品,只有在成本降到一定程度时,才能大规模普及。在数据要素的流通中,亦是如此。

韦韬认为:“数据要素在行业大规模应用和大规模推广的时候,最后一定是要把正向的业务价值和负向的风险综合考虑,让行业的费用达到最优解。”

而能够平衡技术成本和数据价值应用之间的关键,则在于市场的问题需要交给市场解决。

以美国为例,美国公司在进行数字化贸易合作过程中,会要求合作的公司购买网络安全保险,这其实是一个数据流通安全险。

如果在数据流通过程中,合作的公司在数据安全保障中做的比较好,这部分保费就会比较低,后续如果数据流通安全做的不好,风险较高,则保费费用会不断提高。

美国其实是通过一个市场化的机制,来让数据流通的价值与成本实现一种平衡。“这是整个市场自发的调节机制,推动行业在安全方面做更多的投入,最后达到一个综合性的最优。”

因此,韦韬表示:“实际密态计算成本能够控制在数据流通价值的5%以内,就可以达到非常好的阶段,相关数据方也非常愿意把数据拿出来。”

在一个尚未市场化的场景中,5%这个数据是怎么计算得来的?

韦韬解释道,这个数字,来源于安全保险行业的多年实践。美国保险市场发展比较成熟,尤其是在网络安全保险上,其最终要对效果负责,毕竟要真金白银做赔偿。

因此,美国保险的保费费率,是基于对安全技术水平的评估。

目前美国保险保费费率在2%-20%之间,综合大概在10%左右。但当安全工作没做好,风险控制不及预期的时候,往往会上升到10%,甚至到20%以上。

当使用密态技术时,风险会显著降低。目前美国保险公司已基本采用密态技术做相关费用评估,可以实现保费控制在2%以内,整体低于7%。

这也就会让行业对数据流通过程中的安全问题没有后顾之忧,毕竟有保险可以兜底。

“在金融行业,我们的密态计算成本已经低于5%,达到非常好的效果。”韦韬对光锥智能说道,“在不同的领域,随着技术的提升,成本都会逐渐下降,只要其成本低于领域数据流通价值的5%,就可以触发明文数据的密态流通,激发未来数据价值更好的流通和利用。

隐私计算发展至今,最初纯密码学体系的存算成本非常高,体现在数据交易上,则是其在数据流通价值中的占比会非常高,数据流转和交易的成本就非常高。

现如今,随着密态技术的发展,低成本的密态技术能够不断降低数据交易成本,最终则可以让数据价值像自来水一样即开即用。

当密态计算“遇上”云

除通过技术的提升降低成本外,将技术产品化,让千行百业应用起来,也是关键。事实上,密态技术在行业中的应用,也经历了从PoC到规模化应用的阶段。

以蚂蚁集团为例,其早在2016年就开始布局隐私计算技术及规模化应用实践。

2016年-2018年,蚂蚁集团主要做前瞻性的技术布局,此时并未有很多的应用场景出现;2018年-2022年,则开始在中国农信、浦发银行等金融场景中落地一些PoC案例。

2022年至今,得益于国家数据要素市场化大规模的推进,整个数据安全需求开始爆发,隐私计算技术也逐渐开始进行规模化落地应用。

在这一阶段,蚂蚁集团的隐私计算技术在新能源、金融、保险等场景都落地数十家公司。如在金融风控场景中,基于蚂蚁隐私计算技术将多家银行数据进行安全的融合,能够更好的提升风控效果。

规模化落地的背后,源于蚂蚁集团围绕数据要素流通构建的全链路解决方案,包括 “隐语”可信隐私计算开源技术框架,及“星绽”可信执行环境操作系统Occlum等。

这其中,隐语是一个非常重要的开源产品,它能够通过统一的架构、原生应用、开发拓展、性能卓越等特性,显著降低用户使用成本。

比如在统一的架构下,用户能够在不同的场景中,让用户使用不同的技术路线,从而降低需要不同场景切换不同技术路线的成本。在开放拓展下,隐语通过采用模块化设计,可以让用户不需要使用隐语整个产品体系,而是按需使用,并根据场景做定制化设计。

现阶段,隐语已经助力多个场景的数据安全流转与融合。

如在新能源车保险定价场景中,由于缺少新能源汽车产品数据,为了后续不出现亏损,新能源车的保费一般都会略贵于燃油车。蚂蚁集团通过隐语将多方数据安全汇总到一起,并进行分析,能够为保险公司提供更精准的定价。

“目前已落地十多家保险公司,促使新能源车平均保费下降了8%。”王磊如此说道。

在农村金融中,针对农村用户的信贷问题,由于缺乏数据,导致银行无法精准判断客户风险,致使农村金融批贷的时候规模受限。通过密态计算,蚂蚁集团将农业农村部大数据发展中心与网商银行数据做了安全融合,实现了农村金融的秒贷秒批。

截至2024年5月初,已经有超过600万种植户获得贷款额度,其中78.3%农户种植面积不到10亩,是以往金融服务难以覆盖的人群。

虽然隐私计算技术已经进入规模化应用阶段,但从数据流转的角度来看,其还停留在固定场景之中,并未实现从点对点桶装水,到区域和行业城市自来水网的可信流转。

“2024年开始,我们希望通过密态计算技术构建数据可信的流转体系,能够让数据要素像自来水一样开箱即用。”王磊说道,“但想要数据真正实现在大范围内的可信流通,还需要体系化的去解决这里面存、算、研、治、用等全流程的安全问题。”

也正因此,近日蚂蚁还首次对外披露“隐语Cloud”密态计算云服务,可以让企业像购买云服务一样购买隐私计算服务,支持数据跨云跨端可信流通,相关产品和服务将在今年内陆续发布。

已经有了隐语这一开源产品,为什么蚂蚁还要做密态计算云服务?

以金融行业为例,之前数据的使用流转都是点对点,但随着行业的发展,其瓶颈也会非常明显。而数据上云之后,除了规模的优势,还可以实现数据“存算联”的智能使用。

同时,也只有做到数据全链路的安全、高效使用,数据才有价值。“隐语Cloud云服务平台就是是希望去解决数据‘大规模’可信流通的问题。”王磊说道。

据介绍,“隐语Cloud”将围绕数据流转全链路提供数据密算服务、大模型密算服务、密态数据托管、密态数据研发等服务,具有“按需获取、即开即用”特点,让中小微企业也可以低成本地获得密算服务,降低技术门槛,打开产业协作空间。

同时,隐语Cloud也将带来三个核心价值:

一是跨云跨端,通过统一的密算服务打通多云和多端的物理边界,在空间上让数据能够延展到各个地域;二是全生命周期可信,即从数据的采集、使用一直到数据的销毁,在数据的全生命周期中,通过可信的技术与参与管控的能力,确保这些数据在整个时间维度的生命周期中可信可控。

三是成本可控,如果需要大规模的应用支持大规模的可信流通,低成本和高性能是它必不可缺的能力。王磊表示:“通过软硬结合的方式,我们希望密态计算的成本能够缩小至明文计算的2—10倍,性能能够逼近明文的1/2—1/10。”

云计算是数智化时代的算力底座,数据从点对点的流转,到最终大规模的可信流转,必然离不开云的支持。同时,随着大模型时代的到来,数据要素流转价值的需求进一步爆发。

大模型时代

数据的永动机

大模型的到来,让数据流通的需求进一步提升。毕竟,高质量的数据是大模型迭代升级的关键。因此,越到后期,数据的瓶颈就会让大模型对数据的价值更加重视、甚至是渴求。

事实上,在早期人工智能发展过程中,AI虽然也是通过大量数据进行学习,但这些数据必须先经由人类进行分类和标注才能使用。“有多少人工,就有多少智能”也成为当时的真实写照。

在进入大模型时代,基于AI能力能够更快更高效的获取高质量数据后,更重要的则是需要打破数据孤岛,让更多的数据流动起来,才能够产生更高的价值,从而促进整个行业发展。

以医疗行业为例,现阶段各个医院的数据都相对独立,如果有一个全医疗行业的数据集,汇总所有医疗行业相关数据资源,并能够在保证数据隐私安全的前提下,公开给行业使用,这将大大提升整个行业的效率。

如果说大模型是一个动力机,那么依托隐私计算的数据,就是保证动力机源源不断升级、发电的高质量燃料。未来,还需要不断释放我国海量数据和丰富场景优势潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1713636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

看看最新的B端登录界面,你是不是被潮流抛弃了?

毛玻璃风格(Frosted Glass Style)是新拟态设计风格中的一种分支,它灵感来源于现实世界中的毛玻璃材质。毛玻璃是一种通过在玻璃表面加工处理的方式,使其具有模糊、云翳和透明效果的特殊玻璃。 在设计中,毛玻璃风格通常…

OrangePi Kunpeng Pro体验——安装Hass与驱动SPI小屏幕

OrangePi Kunpeng Pro 是一款面向开发者和爱好者的高性能开发板。在本次测评中,主要将以前的一些代码在该开发板上实现,包括docker部署hass,引脚驱动SPI小屏幕。中间遇到了一些小小问题,但都成功了,一起来试试吧~ 一、…

NoSQL是什么?NoSQL数据库存在SQL注入攻击?

一、NoSQL是什么? NoSQL(Not Only SQL)是一种非关系型数据库的概念。与传统的关系型数据库不同,NoSQL数据库使用不同的数据模型来存储和检索数据。NOSQL数据库通常更适合处理大规模的非结构化和半结构化数据,且能够…

n后问题 回溯笔记

问题描述 在nn格的棋盘上放置彼此不受攻击的n个皇后。 按照国际象棋的规则,皇后可以攻击与之处在同 一行或同一列或同一斜线上的棋子。n后问题等价于在nn格的棋盘上放置n个皇后,任何2个皇后不放在同一行或同一列或同一斜线上。 代码 import java.uti…

史上最全排序算法整理!(1)

1.排序的概念及其应用 1.1排序的概念 排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序,若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之&#…

linnux上安装php zip(ZipArchive)、libzip扩展

安装顺序: 安装zip(ZipArchive),需要先安装libzip扩展 安装libzip,需要先安装cmake 按照cmake、libzip、zip的先后顺序安装 下面的命令都是Linux命令 1、安装cmake 确认是否已安装 cmake --version cmake官网 未安装…

基于k-NN + GCN的轴承故障诊断模型

目录 往期精彩内容: 创新点: 前言 1 轴承故障数据的预处理 1.1 导入数据 1.2 数据预处理,制作数据集 2 基于Pytorch的GCN轴承故障诊断 2.1 定义GCN分类网络模型 2.2 设置参数,训练模型 2.3 模型评估 代码、数据如下&…

乡村振兴与农业科技创新:加大农业科技研发投入,推动农业科技创新,促进农业现代化和美丽乡村建设

一、引言 在当代中国,乡村振兴已成为国家发展的重要战略之一。作为国民经济的基础,农业的发展直接关系到国家的稳定和人民的福祉。随着科技的不断进步,农业科技创新在推动农业现代化和美丽乡村建设中发挥着越来越重要的作用。本文旨在探讨如…

深入理解JVM:内存结构、垃圾收集与性能调优

目录 JDK、JRE、JVM关系? 启动程序如何查看加载了哪些类,以及加载顺序? class字节码文件10个主要组成部分? JVM结构 画一下JVM内存结构图 程序计数器 Java虚拟机栈 本地方法栈 Java堆 方法区 运行时常量池? 什么时候抛出StackOverflowError? 例如&…

SAP_SD模块 物料科目分配/成本简介

SAP系统各模块与财务都有个方面的集成。文本主要说明销售模块中的科目分配和成本的一个对应关系。 1、首先是在物料主数据上销售视图中的物料科目分配组,S1主营、S2材料等字段,物料销售的时候会将这个物料产生的记录到对应的科目中。 首先是物料主数据中…

FreeRTOS【7】队列使用

1.开发背景 操作系统提供了多线程并行的操作,为了方便代码的维护,各个线程都分配了专用的内存并处理对应的内容。但是线程间也是需要协助操作的,例如一个主线程接收信息,会把接收的信息并发到其他线程,即主线程不阻塞&…

数分之SQL查询电商数据案例

1,Python连接SQL数据库 以下是使用Python连接MySQL数据库并进行操作的示例代码: import random import time import pymysql# 定义名字数据 xing ["王", "李", "张", "刘", "陈", "杨", "黄&q…

2024年 云南 融资融券怎么开通,利率多少?4.2

一个小动作,每年节约几万块? 勤俭节约的传统,真的在很多年轻人当中是被嫌弃的,有人要说“吃多了对身体也不好”、“反正食堂饭菜很便宜”之类 但是有效利用资源的观念还是需要培养的。最近了解到很多朋友在券商融资利率很高6%&a…

Pyinstaller打包exe文件解决指南

打包命令 打包 Python 文件 输入如下格式的命令即可 默认命令 Pyinstaller 文件名.py Pyinstaller -option1 -option2 -... 要打包的文件 Pyinstaller 文件名.pyPyinstaller -option1 -option2 -... 要打包的文件 参数选项比较多,这里我列一个表:…

Downie 4 for Mac:视频下载的新选择

对于Mac用户来说,想要轻松下载网上的视频内容,Downie 4无疑是一个绝佳的选择。这款专为Mac打造的视频下载工具,凭借其强大的功能和简洁的操作界面,让视频下载变得轻松又高效。 Downie 4支持从众多网站下载视频,包括各…

LeetCode --- 399周赛

题目列表 3162. 优质数对的总数 I 3163. 压缩字符串 III 3164. 优质数对的总数 II 3165. 不包含相邻元素的子序列的最大和 一、优质数对的总数I 这里由于数据范围比较小,我们可以直接暴力枚举,代码如下 class Solution { public:int numberOfPairs…

STP19NF20 丝印 19NF20 场效应管19A 200V 直插 TO-220

STP19NF20 功率MOSFET的应用领域相当广泛,主要包括: 1. 电源管理:用于高效率电源管理电路,如直流-直流转换器和交流-直流电源适配器。 2. 开关模式电源(SMPS):在需要高效能和紧凑型尺寸的开关…

汽车悬架分为哪几类

汽车悬架分为哪几类 1)汽车的悬架系统可根据结构分为两种:独立悬架和非独立悬架,独立悬架根据构造又可以分为CDC运动悬架(CDC电磁悬架系统)和空气悬架; 2)当前比较火热的空气悬架,是独立悬架的一种; 3)前轮主要使用麦弗逊式独立悬架 和 双叉臂悬架,后轮主要使用多…

本特利330130-040-01-00 PLC模块深度解析 询价联系ID

本特利330130-040-01-00 PLC模块深度解析 在工业自动化领域,准确、高效的数据采集和监控是确保生产安全、提高生产效率的关键。本特利(Bently Nevada)作为全球知名的工业自动化和监控设备制造商,其生产的330130-040-01-00 PLC模块…

实验一 MyBatis框架实验

一、实验环境 Windows10、IDEA2023.1.2、mybatis 3.5.6、DataGr 二、实验目的与要求 1、掌握 MyBatis 开发环境的搭建; 2、熟悉 MyBatis 的开发步骤; 3、掌握 MyBatis 基本对象、配置文件和映射文件的使用; 4、掌握 MyBatis 动态 SQL 开…