217页企业大数据能力平台建设技术方案(word可编辑)

news2024/11/25 18:59:14

1.1.1.1 建设方案架构

数据治理平台覆盖了从标准、设计、采集、开发到使用,再到交付的全数据治理流程,为组织提供了一站式数据治理运营平台,可满足数据共享交换、数据开发、数据运营多种应用场景,并通过构建数据工厂,实现数据治理的标准化、流程化与组件化。

e784a0e4e56c0b42f746c1dcda2edeb5.jpeg

1.1.1.2 平台功能架构

311b7a9200149781bdec5a6d9b5eace0.jpeg

1.1.1.3 数据治理开发流程

e84b6b7b767969a148978fa4c9d5814e.jpeg

1.1.1 数据标准管理

数据标准规范了业务术语,元数据,参考数据,基础数据,指标数据的规范定义、获取原则、管理要求等。 包括设计基础类和分析类数据标准,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计为前提,调动业务部门、技术部门和系统技术团队共同参与数据标准设计,建立全局数据标准流程,制定总体落地计划,推动数据标准落地执行,增强内部对数据标准的理解,指导信息化建设中对数据标准的参照。

1.1.1.1 数据标准管理规范

数据标准管理体系主要包含数据标准管理、落地实施机制、及数据标准管理平台维护三部分。

平台通过对数据标准管理、落地实施机制、及数据标准管理平台维护三部分进行数据资源管理,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计。落地实施机制从规范推广、技术平台支撑两方面保障;数据标准平台维护主要包括建设数据标准技术平台,支撑数据标准日常管理工作两方面。

Ø 数据标准管理机制设计

设计基础类和分析类数据标准,制定数据标准管理制度和流程,明确数据标准管理组织和职责,以明确的组织、职责、流程设计为前提,调动业务部门、技术部门和系统技术团队共同参与数据标准设计,建立企业级数据标准流程,制定总体落地计划,推动数据标准落地执行,增强对数据标准的理解,指导信息化建设中对数据标准的参照。

Ø 数据标准分类规范

数据标准是对数据的名称、含义、结构、取值等信息的统一定义,达成对数据的业务理解、技术实现的一致性。

基于数据模型理论将数据标准延伸至5个分类,涵盖技术、业务多个视角。

业务术语:从一致性、通用性等方面统一业务术语定义。

数据项标准:用来描述实体的某种属性,包含数据项的名称、编号、别名、简述、数据项的长度、类型、数据项的取值范围。

参考数据标准:识别参考数据,并建立参考数据的统一标准样例,使参考数据可在不同系统中被使用而保持统一标准值。

主数据标准:主数据编码是应用系统中的重要数据类型之一,通常用来描述业务操作的具体对象及其特征,注重唯一性,特征一致性,稳定性及有效性。

唯一性:在一个系统,一个平台甚至整个范围内同一主数据编码要求具有唯一的识别标志(代码,名称,特征描述等),用以明确区分业务对象,业务范围和业务的具体细节

特征一致性:主数据在不同系统中,均按统一标准出现

稳定性:主数据相对稳定,本身属性不会随交易过程而被修改

有效性:贯穿该业务对象的全生命周期过程,只要该业务对象存在,则此数据不会丧失有效性

指标数据标准:需要收集指标的管理信息、业务定义、以及维度定义,需要兼顾通用性和个性化,个性化方面支持各使用部门个性化定制

Ø 数据标准设计规范

以分析型应用建设和操作型应用集成为导向,两套方法结合,建立数据标准设计体系

分析型应用建设导向:以分析应用指标范围为依据,重点结合业务战略及管理要求,自上而下追溯数据源,聚焦数据标准范围。

操作型应用集成导向:自上而下的原则,基于实际业务流程及操作,重点识别跨业务、跨流程的集成点及关键步骤,分析提炼共享数据,完成业务流程和应用共享的数据映射,删除冗余、非重点数据,精简数据标准建设范围。

1.1.1.2 数据元管理

数据元管理主要包括数据元新增、数据元导入、数据元发布、数据元修改、数据元删除、数据元停用、数据元检索等功能。同时支持数据元版本管理及版本之间的差异核对功能以及支持基于基础库、主题库的元数据快速创建标准数据元,并建立和相关元数据的关联关系。

1.1.1.3 标准代码配置

标准代码配置支持代码的分类、标准代码项的新增、导入、导出功能,提供了标准代码维护的能力;可关联到国标、地标代码字典,为数据的规范性提供了更加详细的描述,为后续的数据质量、数据标准等工作提供支撑。

标准数据元具有唯一的编码(标准代码),按照实际的业务领域进行分类之后,可以形成带有业务领域特征的相关编码,比如“FR00001”代表法人相关的数据元标准代码。

5042cf6bc8ae211426a6811c5930b03f.jpeg

1.1.1.4 常用规则配置

数据元的值有部分需要满足固定格式的标准,治理过程中需要通过固定的值组成规则来规范数据源值的格式,例如身份证、电话号码、电子邮箱等格式。包括通用规则及各部门根据自身需求实际制定的规则,常用规则配置会针对公共数据的特性内置部分常用的规则,同时提供了规则的配置修改能力。

1.1.2 元数据管理

按照数据整合的层次结构、主题域划分,需要实现各层的各种对象,如表、存储过程、索引、数据链、函数和包等的管理。清晰的表示各层次结构之间的数据流程、各对象之间的关系,以及向外提供的各类数据服务的信息。

1.1.2.1 元数据管理内容

元数据内容涉及到整个大数据资源平台的各个数据环节,包括数据采集、逐层加工稽核,数据服务到最终应用展现的处理,元数据管理贯穿了整个流程,并与各环节实现有效互动。

1.1.2.2 元数据管理分类

按照元数据的定义分类,综合价值分析系统元数据管理分为业务元数据、技术元数据、管理元数据三类。其中:

(1)业务元数据

l 使用者的业务术语所表达的数据模型、对象名和属性名;

l 访问数据的原则和数据来源;

l 系统所提供的分析方法及公式、报表信息;

l 对业务元数据来源的管理和差异性对比;

(2)技术元数据

l 系统结构的描述(各个主题的定义,星型模式或雪花型模式的描述定义等);

l 整合数据层的机构单位的数据模型描述(以描述关系表及其关联关系为形式);

l 对数据稽核规则的定义、汇总数据层模型描述与装载描述(包括维度、层次、度量以及相应事实表、概要表的抽取规则);

(3)管理元数据

系统内部用户的数据处理操作规则,包括抽取、转换、加载、汇总等各类操作的用户权限、操作时间窗管理、异常处理规则等;

外部访问用户(主要针对该系统对外提供的数据服务)的操作规则和方式,包括所提供的数据服务接口、数据访问方式、操作;

各类用户的操作记录日志,包括操作用户、登录方式、操作对象、持续时间、操作类型等相关信息。

1.1.2.3 元数据管理组织

为了保障元数据管理目标的顺利达成,需要从组织架构层面建立专业的元数据管控组织予以保障,确保元数据管控要求得以落实、制度得以执行。

1.1.2.4 元数据管理流程

元数据维护管理流程是以需求提出作为开始,经历规划设计、开发实施、需求验收等项目阶段的元数据建立和校验,最后实现元数据的发布和运维管理。在这些阶段中,元数据管控组负责元数据信息的全生命周期流程的管理和监控。

1.1.2.5 元数据管理功能

元数据管理包括元数据基础数据管理和元数据应用,由元数据自动获取、元数据检索、数据模型管理、元数据管理、血缘关系等功能组成等。

58166b84c60f1061ec3bbcf26efc9e01.jpeg

Ø 元数据管理功能架构

Ø 元数据自动获取

对元数据获取数据源以及这些数据源之间的关系进行集中登记管理,并形成自动获取数据源的全局视图,实现元数据自动获取数据信息。

要实现元数据的自动获取,需要在集成的元数据平台中配置自动获取策略和调度时间等,使元数据能够按预设的调度策略触发相应的元数据自动获取过程,满足元数据自动获取的时效性。

调度策略包括时间周期触发、事件触发两种方式。例如,在每周星期一凌晨00:00到01:00之间触发数据资源平台元数据的自动获取过程,或者在数据处理程序更新后12小时内触发相应的映射关系元数据自动获取过程。

Ø 元数据维护

包括元数据的定义、变更及版本管理,对主机信息、数据库信息、用户信息、数据对象信息、业务规则信息、加工逻辑等进行维护和管控。

Ø 元数据扫描

支持以手动或定时的方式扫描指定的数据库资源,并提取和解析相关的信息在比较扫描数据和原有数据的差异后自动将差异数据维护到指定的元数据目录。

Ø 元数据检索

在元数据管理首页用户通过输入关键字后,系统采用全文检索的方式迅速查找和关键字匹配的权限范围内的元数据信息,并将信息返回给用户。用户能够通过展示的路径信息快速定位到元数据组织树上的节点。

Ø 元数据版本

版本管理分为元数据对象版本管理与基线版本管理两种类型。

元数据对象版本:对元数据的每次提交形成版本(上一版本形成历史版本),提供历史版本间,历史版本与当前版本对比功能;

基线版本,对某一阶段产生的元数据对象形成数据集,提供不同阶段产生的数据集的版本比较

Ø 权限管理及查询

统一实现数据库的访问和操作管控,对用户进行角色权限、对象权限、数据权限等方面的管控和查询;

Ø 元数据的导入/导出

在系统层面实现元数据的导入/导出功能,以保证数据模型、数据对象能够灵活的迁移,支持模型间的检查和比对,以便于数据模型的维护和扩展。

1.1.2.6 元数据血缘分析

平台提供血缘分析功能,通过可视化的图形界面,对数据资产及所有来源的关联数据资产进行展示,可帮助用户分析数据来源和定位数据质量问题。

94899340ae35c94041b88c77caa05069.jpeg

Ø 元数据血缘分析

元数据分析算法包括以网状模式展示对象等血缘关系和以父子依赖关系展示对象等有向血缘关系。

24778654b5dc5c822e2f5295bf240348.jpeg

1.1.3 数据质量管理

数据质量管理主要包含对数据完整性、准确性、鲜活性、权威性的分析和管理,并对数据进行跟踪、处理和解决,实现对数据质量的全程管理,提高数据的质量。

能够提供规则配置、质量监控、问题处理等功能,及时发现并分析数据质量问题,不断改善数据的使用质量,从而提升数据的可用性,挖掘数据更大的价值。

1.1.3.1 质量模型配置

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/424190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于ArcGIS、ENVI、InVEST、FRAGSTATS等多技术融合提升环境、生态、水文、土地、土壤、农业、大气等领域数据分析能力与项目科研水平

目录 专题一、空间数据获取与制图 专题二、ArcGIS专题地图制作 专题三、空间数据采集与处理 专题四、遥感数据处理与应用 专题五、DEM数据处理与应用 专题六、采样数据处理与应用 专题七、土地利用处理与应用 专题八、土地利用景观格局分析 专题九、土壤数据处理与应用…

【音视频第12天】GCC论文阅读(3)

A Google Congestion Control Algorithm for Real-Time Communication draft-alvestrand-rmcat-congestion-03论文理解 看中文的GCC算法一脸懵。看一看英文版的,找一找感觉。 目录Abstract1. Introduction1.1 Mathematical notation conventions2. System model2.1 …

代码随想录第17天 | 654.最大二叉树 617.合并二叉树 700.二叉搜索树中的搜索 98.验证二叉搜索树

654.最大二叉树 /*** Definition for a binary tree node.* function TreeNode(val, left, right) {* this.val (valundefined ? 0 : val)* this.left (leftundefined ? null : left)* this.right (rightundefined ? null : right)* }*/ /*** param {numbe…

2.docker-本地镜像发布

1.发布到阿里云 前往 容器镜像服务 (aliyun.com) 进入容器镜像服务 1.创建命名空间 2.创建镜像仓库 3.进入仓库管理页面获得脚本 # 需要输入密码,终端输出 Login Succeeded 则为登录成功 docker login --username用户名 registry.cn-hangzhou.aliyuncs.com# 标记 docker tag …

TCP 协议的相关特性

TCP 协议的相关特性🔎TCP协议的特点🔎TCP协议段格式🔎TCP协议的相关特性确认应答(ACK)超时重传三次握手四次挥手三次挥手与四次握手的注意事项🔎结尾TCP(Transmission Control Protocol) 传输控制协议 🔎TCP协议的特点…

Hbase伪分布安装配置

Hbase安装配置 文章目录Hbase安装配置Hbase安装前提下载Hbase压缩包软件版本兼容性Hadoop和HbaseHbase和JDK软件安装软件位置创建数据保存和日志保存文件夹修改配置文件修改hbase-site.xml文件修改hbase-env.sh文件修改~/.bashrc文件启动hbase并验证权限问题Permission denied修…

外源6-BA在缓解多花黄精种子出苗过程中的代谢及转录组学变化

文章标题:Transcriptomics and metabolomics changes triggered by exogenous 6-benzylaminopurine in relieving epicotyl dormancy of Polygonatum cyrtonema Hua seeds 发表期刊:Frontiers in Plant Science 影响因子:6.627 作者单位&a…

电镀废水中的三价铬去除效率

电镀废水中铬的主要存在形式为六价铬(绝大多数)和三价铬,二者在一定条件下可互相转换,且二者都可能具有致癌左右,有所区别的是六价铬的毒性大约是三价铬毒性的100倍。 目前电镀废水中对铬的处理工艺一般为先将毒性较大…

KD2684S绕组匝间故障检测仪

一、产品简介 KD2684S匝间冲击耐压试验仪适用于电机、变压器、电器线圈等这些由漆包线绕制的产品。因漆包线的绝缘涂敷层本身存在着质量问题,以及在绕线、嵌线、刮线、接头端部整形、绝缘浸漆、装配等工序工艺中不慎而引起绝缘层的损伤等,都会造成线圈层…

【高危】Apache Linkis <1.3.2 存在反序列化漏洞(CVE-2023-29216)

漏洞描述 Apache Linkis 是一个用于将上层应用与底层数据引擎解耦,提供标准化接口的中间件。 该项目受影响版本存在存在反序列化漏洞,由于SqlConnection.java中未对host、port、username,、password等参数进行充分过滤,当恶意用户完全控制应…

SpringSecurity之权限模块设计

目录 前言 实现思路 代码结构 使用说明 前言 前面我们了解了关于微服务权限设计方案以及J W T的相关介绍,今天我们来聊一下,如何避免自己重复的写相同的代码,一次代码实现,即可完美复制到任何项目中实现权限相关的功能。 实现…

进阶方案:仅主机+NAT实现真机与虚拟机实现真正的互联互通

序 昨天写了NAT模式下使用端口转发实现真机可以访问到虚拟机的方案,但是我觉得应该还可以更简单,不需要使用端口转发,然后今天花了一上午的时间终于解决了这个问题,总结一下 仅主机模式 仅主机模式可以让真机跟虚拟机之间形成一…

【数据结构】算法的时间复杂度和空间复杂度 (上)(附leetcode练习题)

☃️个人主页:fighting小泽 🌸作者简介:目前正在学习C语言和数据结构 🌼博客专栏:数据结构 🏵️欢迎关注:评论👊🏻点赞👍🏻留言💪&…

智慧园区系统未来发展前景及应用趋势分析

完善的系统功能,强大的技术支持,使得智慧园区的应用趋势更加多元化,下面我们一起来了解一下智慧园区系统未来发展前景及应用趋势。 1、人工智能。人工智能技术是智慧园区未来发展的重要方向。人工智能可以帮助园区更好地解决实际问题&…

Docker笔记1 | Docker学习和简介

1 | Docker学习和简介1 学习来源2 官方学习资源3 Docker简介3.1 Docker是什么?3.2 Docker应用场景3.3 Docker架构3.3 Docker的优势3.3 与传统虚拟机的区别1 学习来源 本系列笔记学习主要参考书籍《Docker-从入门到实践》以及结合官网的教程,仅作为个人学…

电脑开机后进不了系统怎么办?

案例:我的电脑开机之后,进入不了系统怎么办? 【今天我打开电脑时,发现进入不了系统,以前从来没有出现过这种情况。有没有小伙伴有解决的办法?在线等,急!】 电脑开机后无法进入系统…

node 服务发布后无法访问

node 服务发布后无法访问问题描述:在本地环境访问ip3060端口能正常访问,部署到服务器后访问接口一直超时 解决方法: 看端口是否对外暴露 操作步骤 设置防火墙 点击Windows defender 防火墙 点击高级设置 点击入站规则 新建规则 将3060端口…

《程序员面试金典(第6版)》面试题 10.10. 数字流的秩

题目描述 假设你正在读取一串整数。每隔一段时间,你希望能找出数字 x 的秩(小于或等于 x 的值的个数)。请实现数据结构和算法来支持这些操作,也就是说: 实现 track(int x) 方法,每读入一个数字都会调用该方法; 实现 g…

全球首个完全开源的指令跟随大模型;T5到GPT-4最全盘点

1. Dolly 2.0:世界上第一个完全开源的指令跟随LLM 两周前,Databricks发布了类ChatGPT的大型语言模型 (LLM)Dolly,其训练成本不到 30 美元。今天,他们发布了 Dolly 2.0,这是业内第一个开源的指令跟随LLM,并根…

飞项的5种应用方法,帮助你轻松学会项目管理

随着时代的更新变化,在现代企业中,项目管理已经成为一项非常重要的能力考核。 而对于刚开始入门项目管理的新手,很多都不知道从哪里入手,怎么入手。同执行者相比,管理者所思考的维度又大不相同,接下来我们就…