2023年4月8日,2023隐私计算与人工智能峰会在深圳举办,大会由华东江苏大数据交易中心和热点资讯联合主办,会上,数据宝董事詹臻女士做开幕式致辞。
数据宝与开放群岛(Open Islands)进行战略签约,数据宝轮值CEO肖斌上台与开放群岛共同点亮启动球。
本次峰会以 “聚焦隐私计算,赋能人工智能未来” 为主题,汇聚互联网生态发展,以互联网技术为核心,用户体验为导向,实现公平、开放、安全的网络系统和生态体系。打造隐私计算技术应用与生态互动交流平台,启动新全球数字经济系统。数据宝轮值CEO肖斌受邀以《隐私计算应用场景与数据宝实践探索》为题发表演讲。以下是数据宝轮值CEO肖斌演讲实录(上篇)。
各位嘉宾,各位同仁,大家上午好!我今天代表数据宝跟大家做一个简单的分享和汇报。
汇报大概分为几个方向,第一个是数据宝在隐私计算主要落地场景,第二是数据宝的落地实践探索,第三个是数据宝看隐私计算现状,第四个是数据宝的解决方案探索,最后是介绍一下数据宝。
首先是数据宝在隐私计算主要落地场景。不管是政策红利,还是客观市场上的需要,隐私计算迎来了比较重大的发展机遇。从2019年开始,隐私计算方面的趋势还是逐年递增,在2021年已经迎来了比较高速的发展状态,它在各个方面都有比较多的明显的应用可能性。数据宝在这个方向来说,也有自己的探索和实践,包括金融、保险、政务,当然也包括上一位嘉宾讲到的医疗方面,也有很多这样的应用。
从这个大的饼图里看,在金融侧来说对于隐私计算的需求和市场上落地的角度来说,它的需求量是比较旺盛的。
重点讲几个场景,第一个先说说金融、保险。金融和保险主要解决的问题是什么?数据在应用的时候,不管是数据风控还是保险反欺诈,甚至更多纬度信息的评估,去降低风险。在这个角度来说,它有风控方向的,当然也有包括金融方面,不管是新增方面还是主动营销方面,它需要大量外部的数据,与企业内部进行共融,这时候就需要引入合规的、合法的、安全的、可控的制度去保障数据外部引用之后能够实现在合规场景下的应用。还有一块是监管方向,不管是统计类型还是查询类型,都会解决面向金融,不管是银监会还是证监会,各个监管机构有大量关于信息用户各个纬度的,需要对它的内容进行监管,不管是它的客户还是它的实际交易场景要做各种各样的监管。在这个方向来说,它也需要依赖于融合各方的数据。在融合数据的时候,需要有一个安全合规的解决方案。隐私计算在这里,是能够发挥巨大的作用。这是数据宝通过实践得出的判断。
还有一个方向,是政务方向。在这个方向有很多政策的红利,政策是随着市场化的推进有一个明显变化的趋势,从最早的时候,认知数据是有效的资产,简单理解它是一个金矿。第一阶段首先要解决的是数据能够融通、能够解决孤岛、能够实现未来更多场景应用、实现聚合的方向。在聚合的过程中,其实涉及到大量的包括随着互联网企业高速发展以及一些不良数据应用的场景,在数据应用方面会出现很多问题。国家连续出台几个法律,在我们行业里经常讲的“三法”,不管是数据安全、网络安全还是个人隐私,这几个法律出台之后好像给我们行业增加了一个“紧箍咒”。数据要素市场化流通首先要解决“三法”如何合规的问题,市场变成了什么样的导向呢?先解决合规安全,在合规安全条件下再往前走一步。在现阶段,不管是数据二十条,还是近期出的国家发展规划,大数据经济发展规划里,它的导向又发生了些许变化,期望数据要素能够发挥最大价值,能够创造更多市场上的应用。在创造价值的前提下,要保障它的合规。也就是说,它的顺序发生了一定变化。原本是期望我们能够在安全的状态下做一定的市场价值挖掘,现在变成叫“能够更多地放大它市场价值的前提下保障它的数据安全”,这两个变化,后面我会稍微展开一下。
在政务方向来说,不仅是政务基本数据的共享,还是更多公共数据能够开放出来,尤其是政务相关的数据能够在市场化流通起来,如何做运营方面,都需要给它解决数据安全和合规的问题,包括政府在这里面如何解决监管和信息可控的问题。
数据宝也在这个方面做了一些落地的实践探索。我们先举一个例子,数据宝在国有资源的做代运营,代运营的逻辑是什么?帮助国家各个部委、国央企的数据实现市场化变现,寻找更多市场化增量空间。数据宝代运营了很多部委的数据,做了一些自己的探索,比如在保险场景里,我们是依赖自己的车辆动态相关的大数据,解决了原有简单依靠静态数据去做风险定价的模型,做了一个主动性的探索,增加了动态地很多车辆的风险与自身的车型、自身属性是有很大关系的。与车辆行驶的里程、疲劳的情况、驾驶的情况以及他在运输过程中他的频度、长度有巨大的关联。我们通过这个方向,去做一定的探索。这个案例也是讲我们在小货车方向,小货车具备量级规模比较大,我们数据在引入时候起到了巨大的效果,在企业实践里也得到的验证,我们引入了车辆动态因子,创造了动态化和动静结合的模型,实践上也有比较好的效果。
我们从小货车模型出发,逐渐推广到大货车模型,包括面对车队风险评估的模型,现在也在尝试探索私家车车险定价和反欺诈相关的模型上的应用,结合我们的数据,后面会讲到我们如何引入一些数据安全合规,包括隐私计算相关技术,去解决我们在联合建模、在市场化应用场景里的一些探索。
这是刚才讲到的,我们在车险建模的时候其实就引入了较多的数据源,首先需要有理赔车险数据,也需要车辆的静态数据及交通相关的动态数据。动态数据多元的情况下,每个数据供给方都会对自己的数据保护有强烈的需求,这时候如何解决保护各方数据源、所有方数据利益前提下实现我们数据挖掘呢?数据宝探索了基于联邦学习的方法,应用这个方法去解决。数据宝一侧引入了交通静态和动态的数据,技术解决方案具体的不展开,因为前面几位介绍得比较多。通过这种方式,我们解决了引入多方数据,去提升模型的场景。
我们也探索了另外一种场景,在全同态加密的方式,我们对所有数据在密文状态下进行建模,取得了阶段性成果。在利润状态下,我们建模效果和全明文效果,偏差度最高不超过7%。这是技术相对比较高的,但是从技术方案来说是比较高的。在这个地方我想多讲一句,为我后面做的事情做铺垫。我们公司有比较多的精算人员、算法专家,在精算和算法专家互相PK的时候发生一些比较有趣的现象,算法人员认为依靠全同态加密这种方法,甚至半同态加密,我们也做过尝试,这种状态下做出的效果,偏差度是比较低的。但是从精算和市场角度来说,他们认为是不可接受的。为什么呢?因为在一些场景,比如车险场景里,其实对你最终的盈利能力包括首单投保盈利能力是有阈值的。当偏差超过3到5%的时候,这个处于负利润状态。也就是说这个模型在7%左右,看似在理论上不错,实际商用上是存在一定欠缺的。我们就会尝试联邦学习的方式,包括半同态,这是我们尝试的方向,我们最终解决最终商业价值变现的问题。
这是数据核验类的场景,不管是验证个人、企业各种社会化场景,比如车辆基本信息的情况,包括企业内部车辆一些基本情况,包括企业运力各种情况,有大量验证类的场景。我们采用的是数据宝认为的安全域的产品,有点类似于TEE,实际不是纯的硬件解决方案,是基于商业化策略及我们配套的密码机制去解决安全域的应用场景。
这里稍微展开一点。在核验方会引入比较多的入参,在入参进行加密操作,通过在密文状态下进行传输,中间经过包括数据宝在内的数据方都是密文状态的,不存在数据存储和再应用的场景。进入到数据源方进行验证的时候,他也会在密文状态进行匹配,获得入参信息,数据宝在中间过程包括中间实际应用的企业,不管是金融公司还是互联网公司,甚至包括政府,都能够实现无感知的透传。最终应用终端体验或者终端客户的时候能够完成验证的过程,我们依靠的是产品安全域的解决思路。
这是关于公安的,也类似刚才的场景,我们实际上是把查询方包括能够实现信息匹配的入参唯一性的ID做了公钥、私钥的加密操作。在密文状态下,实现分发。这里引入了一些分片的机制,因为数据存取,包括我可能一对多或者多对一的场景。在多对一场景的时候,我们会把数据进行分片,进行密文的加密,也解决了前三位讲到的说我们通过隐私计算里面具体的技术,能够实现在规模化应用场景下,能够不出现数据的泄露,以及无法感知我具体求取的是哪一个,保证最终得到的结论是保持一致的。
(上篇完)