我们常说人以类聚,物以群分,确实是这样,杜威说过“所有知识都是分类”!很好理解,分类是认知经济,任何有效分类,都可以极大地节省我们的认知精力。数据分类分级具体说来,其实包含了2个方面,一方面涉及数据架构中的分类,另一方面涉及数据安全的分级。数据分类和分级相辅相成,在数据流通、数据安全、数据共享等方面发挥着重要作用,接下来我们开始聊聊这个话题。
为什么做
我们为什么要做数据的分类分级,为什么要重视数据分类分级这样工作,一个最朴素的目标是让数据发挥价值。我们知道,数据是有价值的,但是前提是流动,流向能够发挥价值的地方去。但是数据安全这座大山是所有“数据泛保护”人群的尚方宝剑,“我们不能开放共享,因为不安全”,为了“绝对的安全”,群众办个事多个部门来回跑,跑断了腿,效率低下,也造成了社会资源的浪费。不是数据共享难推动吗,好吧,那就分类分级,明确有哪些数据,哪些数据能共享,哪些数据不能共享。正如数据安全法强调“保障数据依法有序自由流动”,进行数据流动是激发行业经济活力和降低行业成本的有效解决方案,数据分类分级则为数据安全有序流动保驾护航。各级政府和行业煞费苦心,相关国家标准、行业标准、团体标准层出不穷,最后面附了各地数据分类分级相关规定,作为行业中的重要一员,尤其是各级政府、企事业单位没有理由不做好此项工作。
聊聊方法论
怎么实施数据分类分级呢,国家标准《信息安全技术 网络数据分类分级要求(征求意见稿)》中给出了大致的数据分类分级实施流程,依次为数据资产梳理、数据分类、数据分级、审核上报目录、动态更新管理,但是我认为不全面,应该从业务梳理开始,因为数据是源于业务,没有业务,数据也就成为了无源之水,只有搞清楚业务才能更好地梳理数据资产。标准中给出的实施流程如下图所示,接下来我们从业务梳理入手,聊聊每个环节的关键工作。
业务梳理
数据一般因业务而产生,供业务需要使用;无业务需求,也无数据的产生和消费。因此,研究数据的分类分级一定要搞清楚业务,从业务入手才是做数据工作的不二法门。面向数据做业务梳理不同于面向产品设计,是基于当前的业务系统侧重于理清现有业务对象的产生和关联关系,从现有划定的业务域入手,梳理每个业务域中的业务流程、活动、任务等,找出业务对象,从而构建业务对象的概念模型,具体概念模型的定义参考【数据架构系列-06】一文搞懂数据模型的3种类型——概念模型、逻辑模型、物理模型。接下来我们从概念模型出发,建立起概念模型到当前业务系统物理模型的映射,通俗点说就是数据库中表和业务的对应关系。我们通常把这种从业务入手去梳理数据的方法叫做自上而下的数据梳理方法。
数据资产梳理
数据资产梳理:对数据资产进行全面梳理,包括以物理或电子形式记录的数据库表、数据项、数据文件等结构化和非结构化数据资产,明确数据资产基本信息和相关方,形成数据资产清单。
第一步的业务梳理当然也属于数据资产梳理的范畴,自上而下的数据梳理方法能让我们从业务入手理解数据如何产生如何被使用。这样梳理出来的数据一般是站在核心业务流程上梳理出来的数据,数据梳理的不够全面,此时,我们就要从数据入手去梳理,最典型的就是从数据仓库、BI、数据开放共享平台等数据被加工使用端入手,倒推出数据对象,逐步把我们的数据资产梳理的全面,这种方法叫做自下而上的数据梳理方法。
结合项目实践,我们总结了两种数据梳理的方法,一种为自上而下,另一种为自下而上,这两种方法互为补充,建立起企业的数字资产全景视图。
数据分类
数据分类:按照数据分类分级有关要求,根据行业领域数据管理和使用需求,结合本行业本领域已有的数据分类基础,灵活选择业务属性将数据逐级细化分类,同时对个人信息、敏感个人信息进行识别和分类。
在数据分类中,当然我们要首先依照行业内的数据分类体系建立,比如各个地方、行业数据分类分级指南,像这样的指南分类比较宽泛,不够具体,这就需要我们进一步设计。那么如何进行数据分类呢,我比较推荐用数据仓库面向主题的数据分类思想,通俗的理解就是整合数据对象,把多个业务关联性较大数据对象划分为一个主题,业务上关联的主题组成一个主题域。
以电商为例,数据分类包括供应商主题、商品主题、客户主题和仓库主题,在销售这个更高层级的业务流程中,这些主题都以商品主题而关联,可以组成销售主题域:
- 商品主题可能涵盖的关系表有商品表、供应关系表、购买关系表和仓储关系表;
- 仓库主题可能涵盖的关系表有仓库关系表、仓库表、仓库管理关系表和管理员表。
- 供应商主题可能涵盖的关系表由:供应商关系表,供应关系表等;
- 顾客主题可能涵盖顾客购买表,顾客关系表等;
数据分级
参考多个地方和行业标准,一般都是根据数据被非授权操作后的影响程度,将公共数据划分为3个或4个等级。比如可公开的数据(公开数据)定为1级;受限公开的数据(受限数据)定为2级;敏感数据定为3级;涉密数据定为4级。那么如何进行定级呢,《重庆市公共数据分类分级指南》给出了结构化数据分级判定方法,值得借鉴参考,如下图所示。
对于不同级别的数据在不同环节采取不同程度的保护措施,浙江省杭州市地方标准《数据资源管理 政务数据分类分级》中给出了“数据分级保护基本要点”,定义了不同分级的数据在数据采集、数据传输、数据存储、数据处理、数据共享、数据销毁数据全生命周期的保护要点,定义的非常详细,很值得借鉴学习。
为了方法大家学习,我收集的一些相关标准和论文,请下载。
相关法律法规
法律 | 《网络安全法》 | 2016.11.07 |
法规 | 《数据安全法》 | 2021.06.10 |
《网络安全等级保护条例(征求意见稿)》 | 2018.06 | |
《网络数据安全管理条例(征求意见稿)》 | 2021.11 | |
技术标准(综合性) | 《信息分类和编码的基本原则与方法》 | 2002.07.18 |
《国民经济行业分类》GB/T 4754-2017 | 2017.06.30 | |
《政务信息资源目录体系》GB/T 21063-2017 | 2017.09.10 | |
《大数据安全管理指南》GB/T 37973-2019 | 2019.08.30 | |
《信息安全技术个人信息安全规范》GB/T 35273-2020 | 2020.03.06 | |
《信息安全技术网络安全等级保护定级指南》GB/T 22240-2020 | 2020.04.28 | |
《信息技术大数据数据分类指南》GB∕T 38667-2020 | 2020.04.28 | |
信息安全技术 网络数据分类分级要求(征求意见稿) | 2022.09.14 | |
地方文件 | 《贵州省政府数据数据分类分级指南 DB52/T1123-2016》 | 2016.09.28 |
《坪山区政务数据分类分级管理办法(试行)》 | 2020.10.22 | |
浙江省《数字化改革 公共数据分类分级指南 DB33/T 2351-2021》 | 2021.07.05 | |
《重庆市公共数据分类分级指南(试行)》 | 2021. 10 | |
《上海市公共数据开放分级分类指南(试行)》 | 2021 | |
北京市《政务数据分级与安全保护规范(征求意见稿)》 | 2021 | |
技术标准(行业) | 《电信和互联网服务用户个人信息保护分级指南》YD/T 2782-2014 | 2014.12.24 |
《证券期货业数据分类分级指引》JR/T 0158—2018 | 2018.09.27 | |
《个人金融信息保护技术规范》JR/T 0171-2020 | 2020.02.13 | |
《工业数据分类分级指南(试行)》工信厅信发〔2020〕6号 | 2020.02.27 | |
《金融数据安全数据安全分级指南》JR/T 0197-2020 | 2020.09.23 | |
《基础电信企业数据分类分级方法》YD/T 3813-2020 | 2020.12.09 | |
其他 | 《汽车数据安全管理若干规定(试行)》 | 2021.08.16 |
《网络安全标准实践指南——网络数据分类分级指引》 | 2021.12.31 | |
《互联网平台分类分级指南(征求意见稿)》 | 2021.10.29 |
数据分级保护基本要点(截取部分)
参考文章
- 数据资产目录建设之数据分类全解(上)
- 数据资产目录建设之数据分类全解(下)
- 全国信息安全标准化技术委员会:网络安全标准实践指南 —数据分类分级指引.pdf
- 金融数据安全 数据安全分级指南.pdf
- 证券期货业数据分类分级指引.pdf
- 智慧民航数据治理规范-数据安全.pdf
- 信息安全技术 网络数据分类分级要求(征求意见稿)