数据分类分级概念、方法

数据分类分级概念：

根据《GB/T 38667-2020 信息技术-大数据-数据分类指南》的定义，数据分类是根据数据的属性或特征，按照一定的原则和方法进行区分和归类，以便更好地管理和使用数据。数据分类不存在唯一的分类方式，会依据企业的管理目标、保护措施、分类维度等形成多种不同的分类体系。

数据分类是数据资产管理的第一步。不论是对数据资产进行编目、标准化，还是数据的确权、管理，或是提供数据资产服务，进行有效的数据分类都是其首要任务。数据分类更多是从业务角度或数据管理的方向考量的，包括行业维度、业务领域维度、数据来源维度、共享维度、数据开放维度等。同时，根据这些维度，将具有相同属性或特征的数据，按照一定的原则和方法进行归类。

数据分级则是按数据的重要性和影响程度区分等级，确保数据得到与其重要性和影响程度相适应的级别保护。影响对象一般是三类对象，分别是国家安全和社会公共利益、企业利益（包括业务影响、财务影响、声誉影响）、用户利益（用户财产、声誉、生活状态影响），可与系统定级方面有相关内容。

企业建议选取影响程度中的最高影响等级为该数据对象的重要敏感程度。同时，数据定级可根据数据的变化进行升级或降级，例如包括数据内容发生变化、数据汇聚融合、国家或行业主管要求等情况引起的数据升降级。数据分级本质上就是数据敏感维度的数据分类。

级别	重要程度	影响范围何程度	数据特征描述
5级	极高	数据遭到破坏或泄露后，会对国家安全造成严重损害	数据仅针对特殊人员公开，且仅为必须知悉的对象访问或使用
4级	高	数据遭到破坏或泄露后，会对公共秩序、公共利益产生严重损害，或对国家安全造成损害	数据仅针对内部人员公开，且仅为必须知悉的对象访问或使用
3级	较高	数据遭到破坏或泄露后，对个人、企业、社会团体、党政机关及事业单位等产生严重损害，或对公共秩序、公共利益产生损害，但不危害国家安全	数据针对内部人员公开，且仅限内部人员访问或使用
2级	中	数据遭到破坏或泄露后，会对个人、企业、社会团体、党政机关及事业单位等产生损害，或对公共秩序、公共利益产生轻微损害	数据有条件的公开，可被公众获知、使用
1级	低	数据遭到破坏或泄露后，对个人、企业、社会团体、党政机关及事业单位等无负面影响，且不危害公共秩序、公共利益和国家安全	数据完全公开，可被公众获知、使用

GB-T 22240-2020 信息安全技术网络安全等级保护定级指南

任何时候，数据的定级都离不开数据的分类。因此，在数据安全治理或数据资产管理领域都是将数据的分类和分级放在一起，统称为数据分类分级。

目前分类分解存在的挑战有：

1. 复杂业务的分类分级标准与规则不好定义，行业标准对落地细则的指导不足。

2. 数据分类分级之后缺乏对应的有效管理和使用策略，让数据分类分级流于形式。

3. 部分业务数据不具备明显数据特证，通过规则自动识别准确率不高。特别是针对非结构化数据的分类分级识别困难较大。

目前已经出具的数据分类分级相关标准

标准/指南名称	发布机构	主要内容
金融数据安全分级指南（JR/T 0197—2020）	中国人民银行	金融数据安全分级的目标、原则和范围，以及数据安全定级的要素、规则和定级过程。
证券期货业数据分类分级指引（JR/T 0158-2018）	中国证券监督管理委员会	根据数据泄露或损坏造成的影响将数据分为不同级别，为证券期货业的数据安全提供分级方法。
基础电信企业数据分类分级方法YD/T 3813-2020	工业和信息化部	电信行业的数据分类分级涉及通信安全、用户隐私保护等方面。
个人金融信息保护技术规范（JR/T 0171—2020）	中国人民银行	主要关注个人金融信息的收集、存储、处理等环节的安全保护。
个人信息安全规范（GB/T 35273-2020）	国家标准化管理委员会	规定了个人信息的收集、存储、使用、共享等方面的安全要求，以保护个人信息不被非法获取和使用。
车联网数据安全技术要求（YD/T3751-2020）	车联网数据安全技术要求（YD/T3751-2020）	车联网数据安全技术要求（YD/T3751-2020）
车联网用户个人信息保护要求（YD/T3746-2020）	工业和信息化部	主要关注车联网环境下用户个人信息的保护，包括个人信息的收集、使用、存储等环节的安全措施。
《网络安全标准实践指南——网络数据分类分级指引》	全国信息安全标准化技术委员会	这份指南适用于指导数据处理者开展数据分类分级工作，以帮助他们更好地管理和保护各类数据。

企业数据分类分级实现：

行业发布的数据分类分级标准可以为企业实施提供参考，但企业真正着手建立企业内部数据分类分级规范并不能完全照搬行业标准，行业标准的内容一般较为宏观，分类的颗粒度相对较粗，可能不能完全覆盖企业的主要数据类型。这就需要企业结合自身业务场景及行业实践来建立适合本业务特性的分类分级标准。

数据分类分级实施路径

在实际落地过程中，通常会把数据分类分级的实施路径总结成为五步：

第一步，咨询调研分析。基于行业相关的监管政策和标准规范，对业务系统、数据资产现状和数据安全现状等进行全面调研分析，从而对企业业务、数据及安全现状做到“心中有数”。

第二步，数据资产梳理。自动化识别数据资产，对数据资产进行梳理打标，构建好数据资产目录和数据资产清单，为企业数据分类分级打好基础。

第三步，数据分类方案。基于数据资产清单进行数据分类体系设计，完成数据分类打标实施。打标实施完之后，再进行分类分级规则调优，提升自动化分类的比例和准确率。

第四步，数据分级方案。先进行数据分级体系设计，接下来进行数据分级的规则调优，尽量提升自动化分级的覆盖率和准确率，降低人工成本，然后是数据等级变更维护机制和工具平台设置。

第五步，数据分类分级全景图。构建数据分类分级清单，实现数据分类分级可视化。同时产出一些数据分类分级运营机制，为数据安全分级保护打好基础，做好准备。

数据分类

数据分类是指根据数据的属性或特征，按照一定的原则和方法进行区分和归类，并建立起一定的分类体系和排列顺序，以便更好的管理和使用数据的过程。

从数据分类视角出发，结合数据分类方法对数据进行分类，把数据分类的方法分成三种，线分类法、面分类法和混合分类法。

线分类法旨在将分类对象按选定的若干个属性或特征，逐次分为若干层级，每个层级又分为若干类别。同一分支的同层级类别之间构成并列关系，不同层级类别之间构成隶属关系。同层级类别互不重复，互不交叉。

面分类法是将所选定的分类对象依据其本身的固有的各种属性或特征，分成相互之间没有隶属关系即彼此独立的面，每个面中都包含了一组类别。将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起，可以组成一个复合类别。面分类法是并行化分类方式，同一层级可有多个分类维度。

混合分类法是将线分类法和面分类法组合使用，克服这两种基本方法的不足，得到更为合理的分类。混合分类法的特点是以其中一种分类方法为主，另一种做补充。适用于以一个分类维度划分大类、另一个分类维度划分小类的场景。

分类的维度可以有很多，包括数据的来源、内容和用途等，有时候可能是多维度的结合，例如，从个人信息的维度，将数据分为个人信息和非个人信息；从业务维度，分为财务数据、业务数据、经营数据等。

数据分类示例：

数据分级

数据的分级一般是依据数据重要性和敏感度高低来划分的。《中华人民共和国数据安全法》要求，根据数据一旦遭到篡改、破坏、泄露或者非法获取、非法利用，对国家安全、公共利益或者个人、组织合法权益造成的危害程度，将数据从低到高分成一般数据、重要数据、核心数据共三个级别，这是从国家数据安全角度给出的数据分级基本框架。

企业比较常用的分级规则是将一般数据的敏感/重要程度从低到高分为公开（1级）、秘密（2级）、机密（3级）、绝密（4级）四个级别，如下示例：

级别	敏感程度	判断标准
1级	公开	由公司确认为公开或者对外公开的数据，主要包括内部管理制度、非敏感的内部通信/会议信息、已发布的产品信息或者经过脱敏处理后允许对外公开的数据等。
2级	秘密	对公司运作重要的数据，此类数据不可直接对内全员公开、支撑业务运行。对此类数据进行统计分析或加工等处理无法获得组织的重要信息，用户隐私信息或商业机密，但部分数据泄露仍会对组织在同行竞争带来不利的影响。如系统非敏感操作日志、产品级群体的用户画像与标签等。此类数据只能限定授权给相关人员使用。
3级	机密	对组织至关重要的数据，此类数据的泄露将直接或间接对公司或个人造成不利影响，如:给公司带来法律、财务、声誉方面的损失。如一般个人信息、产品日活、产品技术方案等，此类数据的访问仅限少量的相关人员，且需要得到授权许可。
4级	绝密	机密性和重要性程度最高，此类数据泄露后会给组织带来法律、财务声誉方面的灾难性后果。如用户个人敏感信息、公司战略规划、涉密项目(产品)信息、公司级营收与成本、核心知识产权信息、员工薪酬等。此类数据仅限于特定角色按需在特定的范围内使用，且严禁非授权人员获取。

工业和电信领域企业，如涉及国家核心数据和重要数据的分类分级可参考《工业和信息化领域数据安全管理办法（试行）》中第七条至第十条要求。

以金融行业数据分级为例，金融行业数据等级一般分为五级：

五级数据指对国家安全造成影响，或对公众权益造成严重影响数据。
四级数据指对公众权益造成一般影响，或对个人隐私或企业合法权益造成严重影响，但不影响国家安全数据。例如个人健康生理信息、个人身份鉴别信息等。
三级数据指对公众权益造成轻微影响，或对个人隐私或企业合法权益造成一般影响，但不影响国家安全数据。例如比较常见的个人信息，姓名、身份证，联系方式等。
二级数据指对个人隐私或企业合法权益造成轻微影响，但不影响国家安全、公众权益数据。
一级数据指对个人隐私或企业合法权益不造成影响，或仅造成微弱影响，但不影响国家安全、公众权益数据。

数据分类类别，包括但不限于研发数据、生产运行数据、管理数据、运维数据、业务服务数据、个人信息等。

数据分级级别，按照国家有关规定，根据数据遭到篡改、破坏、泄露或者非法获取、非法利用，对国家安全、公共利益或者个人、组织合法权益等造成的危害程度，将数据分为一般数据、重要数据和核心数据三级。

分级原则如下：

合法合规原则：分级应遵循有关法律法规及部门规定要求，优先对国家或行业有专门管理要求的数据进行识别和管理，满足相应的数据安全管理要求。

就高从严原则：数据分级时采用就高不就低的原则进行定级，例如数据集包含多个级别的数据项，按照数据项的最高级别对数据集进行定级。

动态调整原则：数据的级别可能因为多个低敏感的数据聚合提高数据级别，也可能因为脱敏或者过期等原因降低数据级别。

完成数据资产的识别与分类分级定义后，需要制定并发布企业的《数据安全分类分级标准》及配套的安全要求，以在企业内统一规则及实施流程。安全标准重点是需要针对不同安全级别的数据采取差异化的安全策略，对高敏（机密、绝密级）数据进行重点管理，而公开和秘密级别的安全措施要适度。特殊业务场景下，可以通过对高敏数据进行脱敏、加密以及采用隐私计算等措施来降低数据管级，提高数据的内部流转，实现数据价值。

分类分级在业务中的应用

分类分级标准制定只是企业数据分类分级安全管理工作的起点。真正要落实数据分类分级安全要求，需要建立配套的实施流程与工具。确保在不同的业务场景中能够识别并标识出数据的分类与分级，并实施对应的安全措施，例如：在权限申请和数据分享的场景，不同级别的数据采用分级安全控制策略与审批流程；在安全事件处理场景，不同级别的数据的事件定级及响应处理流程有差异等等。

1. 数据源验证、合规评估、个人信息采集告知同意

2. 数据源验证、访问控制、传输加密、个人敏感信息内容加密

3. 数据使用审计、权限控制、数据脱敏、安全计算

4. 联邦学习、访问控制、数据访问审计

5. 访问控制、数据脱敏、特权管理

6. 数据脱敏、外发安全审计、API管控

7. 服务端数据存储加密、数据库访问控制、安全审计、分类分级

8. 敏感数据识别、数据分类分级

9. API安全监测、访问控制、安全审计

10. 数据脱敏、安全审计

11. WEB数据展示/下载管控/审计/脱敏

12. 动态脱敏、特权管理、安全审计、运维审计

13. 安全评估、保密协议、数据脱敏、加密传输

14. 数据分类分级、文件加密、数据防泄漏、远程办公安全

敏感数据规则库：

敏感数据规则库的建立是自动化识别的基础能力，规则库采用的技术包括关键字、正则表达式、基于文件属性识别、基于元数据信息的自定义识别、机器学习等。

例如：

银行卡号、证件号、手机号，有明确的规则，可以根据正则表达式和算法匹配；

姓名、特殊字段，没有明确信息，可能是任意字符串，可以通过配置关键字来进行匹配；

营业执照、地址、图片等，没有明确规则，可以通过自然语言算法来识别，使用开源算法库。

数据分类分级保障措施及相关建议：

数据分类分级是数据安全治理和数据管理的主要措施，是数据的安全合规使用的基础。数据分类分级不仅能够确保具有较低信任级别的用户无法访问敏感数据以保护重要的数据资产，也能够避免对不重要的数据采取不必要的安全措施。

人、安全体系、技术这三方面是数据安全治理三个方面：

数据分类分级保障条件-组织架构

数据分类分级工作的开展应具备组织保障，设立并明确有关部门（或组织）及其职责。

决策层：决策层负责制定企业数据战略、审批或授权，全面协调、指导和推进企业的数据分类分级工作。数据分类分级工作的领导组织及其负责人，主要负责数据分类分级相关审批、决策等工作；

管理层：决策层主要负责建立企业数据分类分级的完整体系，制定实施计划，统筹资源配置、建立数据分类分级常态化控制机制，组织评估数据分类分级工作的有效性和执行情况，制定并实施问责和激励机制。数据分类分级工作的管理部门（或组织）及其负责人，主要负责数据分类分级相关工作的组织、协调、管理、审核、评审等工作；

执行层：执行层在管理层的统筹安排下，根据数据分类分级相关制度规范的要求，具体执行各项工作。负责数据分类分级体系建设和运行机制，根据数据分类分级各职能域的管理要求承担具体工作。信息科技部门及其负责人，主要负责落实数据分类分级有关要求，并主导数据分类分级实施工作。

各业务部门是数据分类分级执行工作的责任主体，负责本业务领域的数据分类分级执行工作，管控业务数据源。确保数据被准确记录和及时维护，落实数据分类分级管控机制，执行监管数据相关工作。各业务部门及