以下内容整理自清华大学《数智安全与标准化》课程大作业期末报告同学的汇报内容。
第一部分:大数据风控技术及应用现状
在人民币贷款持续增长,市场环境日趋复杂的情况下,利用大数据进行风控是社会主义市场经济进行金融资源合理配置不可或缺的手段之一。
金融大数据风控指的是金融管理者使用大数据技术,对金融业务的数据进行分析判断业务风险的程度,并有效控制风险带来的影响。
基于大数据的金融风控平台有四个基础模块,包括数据采集与处理模块,数据存储与管理模块,数据挖掘与分析模块以及数据可视化与应用模块。
这些技术在国内业务主要有三块,包括风控报告、征信分和联合建模。
大数据风控具体到应用场景上可以分为互联网金融公司,例如蚂蚁金服的芝麻信用,P2P网络借贷平台的线上贷款以及银行等传统金融机构的借贷服务。
在国家采取严厉打击之前,金融大数据风控行业大水漫灌,泥沙俱下,各大风控业务平台都以无线存储、无线数据来吸引业务,出卖用户隐私数据和滥用违法案件屡见不鲜。
在2019年的净网专项活动中,国家为整顿互联网金融行业开始打击网络贷款业务公司,但屡禁不止,然后开始打击为业务公司提供整套业务系统的系统商,还是不能完全限制。最后,上层提出了全链条打击的方针,作为上游的数据风控公司也成为了打击对象。
截至目前,民间大数据风控企业实不存一,个人持牌征信更是只剩余百行和朴道两家背靠央行的官方平台,甚至有业内人士提出了风控行业已死的观点。
第二部分:个人信息在风控中的定位和问题
风控行业触犯法律的痛点,主要是对个人信息的利用边界问题,所以我们需要明晰个人信息在大数据风控中的定位和风险,再结合法律法规相关要求探讨它的边界。
明确个人信息利用存在哪些安全风险,要从数据利用全生命周期出发:
首先,数据采集阶段是整个流程的合规之源,可能存在未经授权过度采集的问题。
其次,数据传输、存储、处理交换阶段,可能存在着解密泄露的问题。
最后,数据销毁阶段,几乎没有企业做到这一点,而个保法要求将存储时间最短化,随着立法越来越严,企业势必会面临到这一问题。
这些数据利用全生命周期问题具体到风控业务应用上大致有这样几类:
风控前数据收集阶段:授权知情同意的异化,非理性用户与隐私协议专业化的矛盾,表象同意和用户真实不同意的矛盾。匿名化定义的模糊,绝对匿名化和数据价值的矛盾。
风控前数据传输阶段:遭到窃取泄露,复原脱敏化以及数据后续遭到传播转售给原数据拥有者造成利益和信誉的损失问题。
第三部分:风控相关法规标准与行业要求
从2005年《中华人民共和国刑法修正案(五)》增设窃取、收买、非法提供信用卡信息罪开始,我国在刑法、民法、行政法规、部门规章、司法解释等多个方面为公民个人信息保护提供了制度保障。
特别是近两年出台的数安法、网安法以及个保法三部法律,为数据利用提供了基本制度框架,形成了政策法规、标准规范、行业要求三位一体的个人信息保护手段。
值得一提的是,近日中共中央国务院发布的数据20条,承认和保护数据要素各参与方的合法权益,合理界定数据要素市场参与方的权利和义务。通过权力分割的方法实现了数据分类确权与授权,充分凝聚了当前的最大共识,也为未来国家立法机关出台数据产权的法律制度开拓的道路营造了社会基础。
第四部分:问卷调查及边界探讨
国家对风控行业的严厉打击,固然能杜绝大部分安全隐患。然而,正如那位业内人士感叹到风控行业已死一样,我们不能因为风险存在就因噎废食,反而要明晰其安全风险探讨其利用边界,运用技术设计制度为其保驾护航,让大数据风控在社会主义市场经济中发挥更大的价值。
因为我们组没有金融背景,所以也设计了相关问卷收集大多数人对大数据风控利用个人信息的看法认识,重点设计了个人信息的种类,通过综合调研回答者对不同个人信息和金融平台提供的功能态度,分析合理的利用边界官员调研部分,结果如下图所示。
受众群体对于大数据风控知情及了解程度偏低。个人信息收集及使用的态度方面,受众态度较为相同,如90%以上的人希望明确告知信息收集目的和范围,且需要本人授权同意的出现明显分歧的回答,使用个人信息提供的功能方面,多数人不同意将家庭情况及社会关系和个人健康生理信息交给平台。
考虑以上差异,我们小组使用spss平台进行数据分析,采取逐步回归分析以及logitsic回归拟合。结果显示,在更加先进的隐私保护手段下,用户会更加信任金融机构,同意提供更多的个人信息,并且要求更加充分的用户服务。当然,由于受访者群众的偏差,本次问卷调查结果仅能提供学生群体的态度参考。
我们认为大数据风控利用个人信息的边界,应当主要从以下两个方面考虑:对数据量的边界划定和对个人信息的边界划定。
无论怎样的大数据风控场景,都一定存在数据量收集以及利用的边界,而根据以上三点对其进行划定,会极大降低个人信息的保护成本。
对敏感和风险程度进行分级比较,有参考意义的是《个人金融信息保护技术规范》以及《金融数据安全 数据安全分级指南》提出的分级标准,而其中又有交叉重合的部分,这种类型的分级标准或许可以作为金融大数据风控利用个人信息的边界划定。
最后总结全篇,提出保护机制和可能的解决措施。因为篇幅和能力问题,我们没有完成全面系统的标准框架设计,只探讨两个边界方向,为标准框架设计提供了可能。
我的汇报到此结束,恳请各位专家,老师批评指正。
编辑整理:陈龙
校对:王欣