【精选】数据治理项目实施(合集)05——解码“数据架构”,数据架构包含哪些内容?

news2024/11/16 10:28:37

        上一篇讲到了数据治理项目的前期调研工作,继数据调研工作完成之后,就要开始关于治理工作的各项方案设计,整体方案设计包括数据架构、元数据、主数据、数据质量、数据安全、指标标签体系、数据生命周期管理和管理评价等内容。这一篇重点讲一下数据架构的具体内容。

        数据架构与企业的其他架构(如应用架构、技术架构、业务架构等)密切相关,它们共同构成了企业的整体架构体系。数据架构是这些架构中的桥梁,将不同的系统、应用和业务领域连接起来,实现数据的共享和协同。

01 数据架构的定义

        那么首先来说,什么是数据架构?关于架构的定义有很多种说法。在国际标准ISO/IEC/IEEE 42010:2011当中,架构的定义为系统的基本结构,具体体现在架构构成中 的组件、组件与组件之间的相互关系,以及管理其设计和演变的原则。数据架构的定义,主流的有DAMA和国标DCMM当中的定义。

        DAMA体系中认为,数据架构是识别企业的数据需求(无论数据结构如何),设计和维护总蓝图以满足这些需求。使用总览图来指导数据集成、控制数据资产,并使数据投资与业务战略保持一致。内容包括企业数据模型和数据流的设计。

        DCMM(GB T 36073-2018 数据管理能力成熟度评估模型)定义的数据架构是通过组织级数据模型定义数据需求,指导对数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据管理的规范。内容包括数据模型、数据分布、数据集成与共享、元数据管理。

         从实施层面而言,关于数据架构的定义还有华为的《数据治理之旅》,其中定义了信息架构(Information Architecture):以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。信息架构包括数据资产目录、数据标准、级数据模型和数据分布四个组件。

        数据资产目录编制: 厘清本单位的数据信息资源ꎬ 支撑数据标准、数据模型、元数据与主数据管理。

        数据标准管理: 规范业务对象在信息系统中的定义和应用ꎬ 支撑数据使用和交换的一致性和准确性。

        数据模型构建: 对业务模式和业务规则的数据需求进行分析和重新组织,支撑应用系统设计和开发。

         数据模型分布: 数据在业务流程、系统和数据源之间的流转关系。

        数据架构规划一般包含这四个步骤:

  1. 明确业务需求:在规划数据架构之前,需要明确企业的业务需求和数据需求,了解企业的业务目标、战略方向、组织架构等。

  2. 设计数据资产目录:根据业务需求,设计数据资产目录,列出企业所有的数据资产,包括数据的来源、类型、格式、用途等。

  3. 制定数据标准:制定数据标准,定义数据的格式、命名规则、编码方式等,确保数据的一致性和准确性。

  4. 设计数据模型和数据分布:根据业务需求和数据资产目录,设计数据模型和数据分布方案,实现数据的高效存储和查询。

01 数据资产目录的定义

         数据资产目录是数据架构的基础,它列出了企业所有的数据资产,包括数据的来源、类型、格式、用途等。数据资产目录有助于企业清晰地了解自身的数据资源,为数据的利用和管理提供依据。

        常用的数据资产编目方式包含数据资源、数据主题、数据来源部门、数据管理对象等方式进行编目,编目的内容设计数据的流通属性、管理属性、业务属性、物理属性和逻辑属性。以上编目的内容大部分都可以从数据前期调研的内容中进行获取。

       (一)、数据资产目录的创建步骤

        数据资产目录的创建步骤一般分为六步:首先结合前期调研的情况,对数据资产进行盘点,形成数据资产目录,再从业务角度、技术角度、管理角度对目录信息进行补充,其实这部分内容也属于元数据的一部分,最后再明确数据资产组织信息。

        关于数据资产目录的内容,各个行业都有对应的目录标准,这里以政务数据目录为例,主要包括数据的信息项、共享属性、信息资源分类方式、业务属性、安全属性等内容。具体可以参考当前行业的相关标准进行统计。

(二)、数据资产主题分类方式

        数据资产目录中明确了数据资产的层级结构,便于对数据资产进行分层分级的管理,包括五个层级,主题域分组(L1)、主题域(L2)、业务对象(L3)、逻辑数据实体(L4)和属性(L5)。

02 数据模型定义

        为什么要做数据模型?为了解决架构设计和数据开发不一致,而对数据开发中的表名、字段名等规范进行约束。数据模型在数据标准和数据开发之间起到一个承上启下的作用,即数据模型需要依赖数据标准指导数据开发中的表名、字段名等标准规范的落地。

        数据模型的设计一般分为概念模型、逻辑模型、物理模型,三者的关系并不是严格的顺序关系,实际项目当中可能直接从概念模型过度到逻辑模型。

(一 )、数据模型的建设模式

        数据模型的建设模式一般从两个视角进行建设,一是从企业架构视角进行建模,这种方式主要是由组织层面发起,通过对数据的宏观把握和分析,梳理和整合不同部门和系统之间的业务逻辑和数据关系。二是从应用场景视角进行建模,从某个特定的业务场景出发,通过对数据的深入挖掘和分析,梳理和分析具体场景中的数据关系和业务逻辑。

        基于企业架构视角的数据模型建设方式,通常适合于跨部门或系统的业务需求较多的组织。这种方式主要是由组织层面发起,通过对数据的宏观把握和分析,梳理和整合不同部门和系统之间的业务逻辑和数据关系,通常实施开发周期较长,适合于组织重构数据模型或创新业务模式的时期。

        基于应用场景视角的数据模型建设方式,则通常适合于精细化分析的业务需求较多的组织。这种方式主要是从某个特定的业务场景出发,通过对数据的深入挖掘和分析,梳理和分析体场景中的数据关系和业务逻辑,实施开发周期与业务场景及需求有关,适合于组织对已有数据模型进行改造或升级的时期。

(二 )、数据模型的建设步骤

        数据模型的建设步骤依据企业架构视角和应用场景一般分为五个步骤。

          从企业架构视角建模

        第一步,识别需求。通过研讨会、访谈、业务手册等方式,识别业务重点关注的内容。

        第二步,构造业务对象。提取相关名词形成候选核心实体,并基于核心实体形成业务对象。

        第三步,界定数据范围。提炼业务数据,界定系统的数据范围。

        第四步,划分主题域。对业务数据进行分类,抽象业务对象,最终梳理出业务实体,及实体间的业务关联规则。

        第五步,完善业务对象清单。结合流程模型验证已识别业务对象的正确性和完整性,识别完善与细化业务对象清单。

 从应用场景视角建模

        第一步, 识别需求。明确需要建模的业务场景及模型应用诉求, 例如风险评估、客户分析等场景。

        第二步,系统调研。对现有源系统进行信息调研,获取相关数据源、数据分布等信息。

        第三步,数据梳理。基于业务需求梳理数据项,包括数据指标、业务实体等,并逐步迭代定义实体关,标识实体属性。

        第四步,建立映射。在实施过程中与底层库表建立完善的映射关系,持续优化建立描述各业务场景的数据模型。

(三)、资源库和主题库设计

        数据建模完成后,需要规划数据资源库、主题库以及数据分层的设计。

        原始库:数据经过按需提取、清洗、关联、比对、标识(也就是数据标签)等多种数据处理后,进入资源库。

        资源库:资源库中可以进行结构化数据提取和清洗去重,净化数据;资源库数据在通过对象化提取、清洗归并,进行关联和标识(对象标识),输出到主题库。

        主题库:通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。业务库:业务库内部数据也可以按需进行数据处理,供业务系统使用。

        知识库:资源库、主题库和业务库均有可能用到知识库,通过对资源库、主题库和业务库进行挖掘,可反哺和进一步完善知识库。

(四 )、数据模型的分层设计

       数据分域应业务应用维度进行划分,建议采用以业务为主的1+N+1数据主题域划分方法:各级主题命名应能准确表达主题的含义和功能。业务主题域命名一般采用动宾结构的短语(动词+名词,或名词+动词),为动词化的名词,动词为业务的概括说明,名词为过程或对象。

03 数据标准的定义

        为什么要做数据标准,这个话题得从秦始皇说起,从秦始皇统一六国,他统一了货币、统一了文字、统一了度量衡,废弃分封制,建立郡县制,加强中央集权。他采取了一系列国家治理的措施,我们可以发现他做的最核心的一件事情——标准化。同样,我们做数据治理的一个目的也是要对数据进行标准化,这个数据标准的定义有很多种来源

        数据的命名、定义、结构和取值的规则。——GB T 36073-2018 数据管理能力成熟度评估模型。

        是保障数据的内外部使用和交换的一致性和准确性的规范性约束。——大数据技术标准委员会《数据标准管理实践白皮书1.0》。

        并非是一个专有名词,而是一系列“规范性约束”的抽象。但是,数据标准的具体形态通常是一个或多个数据元的集合,即数据元是数据标准的基本单元。 ——大数据技术标准委员会《数据资产管理实践白皮书6.0》。

        数据标准管理的目标是通过制定和发布由数据利益相关方确认的数据标准,结合制度约束、过程管控、技术工具等手段,推动数据的标准化,进一步提升数据质量。 ——大数据技术标准委员会《数据资产管理实践白皮书6.0》。

        标准是指为了在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件。数据标准是指对数据的表达、格式及定义的一致约定,包括数据业务属性、 技术属性和 管理属性的统一定义。业务属性包括中文名称、业务定义、业务规则等,技术属性包括数据类型、数据格式等,管理属性包括数据定义者、数据管理者等。——JR/T0105-2014 银行数据标准定义规范。

        在DAMA体系中,数据标准没有单独拿出来作为一个活动的内容来阐述,这是因为DAMA认为,数据标准贯穿与数据治理的各项活动当中。

        做数据标准前,首先要考虑三个问题:

        问题1:什么数据需要制定哪些标准?

        并非所有基础类数据都要建立标准,纳入标准的数据项需要满足共享性、重要性和可行性的准入原则。如:基础通用型数据(国家标准、行业标准、企业标准)、主数据类数据、类型和维度数据(分类码、维度码)、报送类(指标、标签)。

        问题2:什么系统落什么标准?

        核心业务系统、重点业务系统,通过试点逐步推进标准建设,也可反推源头标准化改造。

        问题3:什么人与什么时间执行?

        数据标准的统一最直接的影响就是数据使用方和提供方,什么时候执行标准,执行哪些标准,按什么方式来执行是需要慎重考虑的问题。

        通过下面表格的内容,可以发现数据标准从源头落地,会减少数据的处理成本,提高数据应用的效益,缺点是对于存量系统和外购系统存在较大改动风险和成本。
        如果从数据的仓库层进行落标,比较容易着手处理,落标后的下游数据系统则自动统一数据标准,然而数仓层的报表应用与业务系统的报表存在口径不一致性在所难免,仍然需要源数据层进行必要调整。无论从哪一层入手,模型的优良设计环节都是必要条件,否则整个落标过程会没有抓手,流程将不顺畅。

04 数据分布的定义

        数据分布主要记录这几项内容:数据在业务流程中的应用、某个环境中的数据存储或数据库、网段(用于安全映射)、业务角色(描述哪些角色有职责创建、更新和删除数据)等。

        数据在业务流程中的应用可以用数据流的方式进行表达,通过二维矩阵或数据流图的方式呈现。通过矩阵可以清晰地展现创建和使用数据的过程。采用矩阵方法显示数据需求的优势是可以清晰看出数据不是只在一个方向上流动。在复杂数据使用场景中,数据交换是多对多的,并会在多种地方出现,而且通过矩阵方法可以明确流程中的数据获取职责及数据依赖关系,反过来也可以促进流程的制定。只需要将流程轴转变为系统能力,对业务熟悉的人便可以很容易上手使用。

 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

———— 数据治理行业资料及实施模板获取请加入获取————

———— 星球资料部分内容————

 数据治理实施交付物合集


 

 

  数据治理行业合集


 

 

   数据治理方案合集


 

 

           ———— 更多资讯请添加公众号————

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1869507.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GIT-LFS使用

0.前言 目前git仓库有很多很大的文件需要管理,但是直接上传,每次clone的文件太大,所有准备使用git-lfs解决。 1、下载和安装 Git LFS 1.1、直接下载二进制包: Releases git-lfs/git-lfs GitHub 安装 Git LFS sudo rpm -ivh…

RabbitMQ基本概念

RabbitMQ是AMQP协议的一个开源实现,所以其基本概念也就是的 AMQP 协 议中的基本概念。如图3-1所示是 RabbitMQ 的整体架构图。 Message(消息):消息是不具名的,它由消息头和消息体组成。消息体是不透明的, 而消息头则由一系列可选属性组成&…

ROS1通信机制——以topic为例

ROS1 的通信机制 ROS1是一个分布式框架,为用户提供多节点(进程)之间的通信服务。 ROS1通信时有一个中心节点(ROS Master),进行信息匹配等工作。 ROS1 的话题通信机制 通信链接:XML/RPC 信息传…

GMSB文章六:微生物SCFA关联分析

欢迎大家关注全网生信学习者系列: WX公zhong号:生信学习者Xiao hong书:生信学习者知hu:生信学习者CDSN:生信学习者2 介绍 微生物短链脂肪酸(SCFAs)是由肠道微生物发酵膳食纤维、抗性淀粉、低…

蒸汽架空管道中的关键守护者:滑动管托、导向管托与固定管托

蒸汽架空管道中的关键守护者:滑动管托、导向管托、固定管托与补偿器的重要角色在蒸汽架空管道系统中,每一个组件都扮演着不可或缺的角色,共同确保管道的安全、高效运行。今天,我们就来深入探讨滑动管托、导向管托、固定管托以及补…

信息安全时代,大学生是否有必要考取NISP证书?

在数字化浪潮席卷全球的今天,信息安全已成为国家、企业乃至个人都必须正视的重要议题。作为新时代的大学生,我们身处这个信息爆炸的时代,如何提升自己的信息安全素养,成为了一个值得深思的问题。而NISP(国家信息安全水平考试)证书…

单例模式(下)

文章目录 文章介绍步骤安排及单例讲解step1:注册单例类型(main.cpp)step2:定义类和私有构造函数(keyboardinputmanager.h)step3:(keyboardinputmanager.cpp)step4:在qml中…

云端智慧,赋能风电场:工业级控制系统云监控网关

风力发电场监控平台实现对风电场的运行状态和风机的实时数据进行监测、控制和管理,提高风电场的可靠性和运行效率,降低维护成本,实现智能化管理。 风机机组PLC、多功能仪表、无线测温、温度变送器、档位变送器、设备接入网关上传数据服务器。…

第1章 框架学习的基石与实战策略

第1章框架学习的基石与实战策略 1.1 框架学习的引路人:权威教程的重要性 在编程的世界里,掌握一个框架就像是装备了一套精良的工具,这不仅能显著提升开发速度,还能展现一个程序员的专业水平。对于那些刚刚踏入编程领域的初学者来…

在线开发、实时交互 | 三维天地低代码开发平台助力提高项目交付速度

1.什么是低代码开发平台? 低代码开发平台基于北京三维天地科技股份有限公司自研原生技术架构研发。三维天地作为国内知名的检验检测信息化领域软件开发服务商,拥有多项自主知识产权及自主研发核心技术,致力于为客户提供信息化整体解决方案及相关软件产品与服务。 三维天地低…

【Java面试场景题】如何优化系统架构设计来缓解流量压力提升并发性能?

一、问题解析 我会以直播互动为例,带你看看读多写多的情况下如何应对流量压力。- 一般来说,这种服务多数属于实时互动服务,因为时效性要求很高,导致很多场景下,我们无法用读缓存的方式来降低核心数据的压力。所以&…

B端系统:配置页面如何设计,这可是用户体验的关键的关键。

提升配置页面体验的十大原则 设计B端系统的配置页面时,用户体验确实是非常关键的。以下是一些设计原则和建议,可以帮助提高配置页面的用户体验: 简洁明了:配置页面应该尽量简洁明了,避免过多的复杂选项和信息。使用清…

基于先验知识引导的三域Transformer-GAN,直接从低计数正电子发射断层扫描图像重建| 文献速递-先进深度学习疾病诊断

Title 题目 Prior Knowledge-guided Triple-Domain Transformer-GAN for Direct PET Reconstruction from Low-Count Sinograms 基于先验知识引导的三域Transformer-GAN,用于直接从低计数正电子发射断层扫描图像重建 01 文献速递介绍 正电子发射断层扫描&…

动手学深度学习(Pytorch版)代码实践 -计算机视觉-38实战Kaggle比赛:图像分类 (CIFAR-10)

38实战Kaggle比赛:图像分类 (CIFAR-10) 比赛链接:CIFAR-10 - Object Recognition in Images | Kaggle 导入包 import os import glob import pandas as pd import numpy as np import torch import torchvision from torch.utils.data import Dataset…

【应届应知应会】Linux常用指令

SueWakeup 个人主页:SueWakeup 系列专栏:学习技术栈 个性签名:保留赤子之心也许是种幸运吧 本文封面由 凯楠📸友情提供 目录 文件与目录管理 目录操作命令: ls [选项] [目录或文件] mkdir 文件操作命令&#xf…

MacOS java多版本安装与管理

安装sdkman curl -s "https://get.sdkman.io" | bashsource "$HOME/.sdkman/bin/sdkman-init.sh"sdk version正常出现sdkman版本号就安装成功了 # 安装java # 安装java8 sdk install java 8.0.412.fx-zulu建议和上述一样安装 fx-zulu 的jdk&#xff0c…

谷歌SEO在外贸推广中的应用效果如何?

谷歌SEO在外贸推广中非常有效。通过优化网站,可以提高在搜索结果中的排名,这意味着更多的潜在客户会看到你的产品和服务。 一个高排名的网站能带来更多自然流量,不需要花费广告费用。这种流量通常质量较高,因为用户是主动搜索相关…

【仿真建模-anylogic】Scale解析

Author:赵志乾 Date:2024-06-27 Declaration:All Right Reserved!!! 1. 应用场景 Scale是比例尺,用于长度单位和像素之间的换算,anylogic默认为每个agent生成一个scale,…

1.iptables

iptables 防火墙iptables工作流程iptables表与链filter表nat表 防火墙 防火墙开源iptables、firewalld管理控制网络流量、封端口、封IP、nat、(snat、dnat)映射 共享上网硬件防火墙思科、华三等、深信服、路由器内置防火墙保护内部网络、检测和阻挡恶意…

ISO 50001能源管理体系:激活绿色动能和共塑可持续发展

在当今全球化加速和工业化水平不断提高的背景下,能源消费呈现出前所未有的增长趋势。然而,能源资源的有限性、能源价格的波动以及能源消费对环境造成的影响,尤其是温室气体排放导致的全球气候变化问题,已经成为全球关注的焦点。为…