关于数据仓库那些事 - 数据质量和数仓主题

news2024/9/25 17:15:25

数字化时代,数据成为了人类社会中必不可少的元素,也变成了现代企业经营管理中的关键。借助海量的数据,企业进行了深层次的数字化改革,把数据当成了企业发展的核心,但无效的数据即使规模再大,也对企业没有意义,所以数据质量也就愈发重要。

数仓主题是什么

数据仓库主题是指透过“上帝视角”将企业不同业务流程信息进行汇总、分类然后对其进行分析利用的一个抽象化的概念。也是指企业中某一分析领域具体的分析对象,这样一来,每一个数仓分析领域都有一个数仓主题相呼应。

分析对象是一个较为主观的选择过程,说它主观是因为不同的企业有不同的业务重心,没有办法统一分析得出一个普遍适用的结论。但这也让数据仓库的主题类型拥有了更多可能性,分析活动也变得更加灵活,具有针对性。

图片来源:派可数据

就拿企业分析时经常用到的生产系统举例,它并不能帮你直接获取答案,而是将整个业务流程中涉及到的生产机器、工人、工厂、仓库、经销商、顾客等链条中的每个角色分别建立主题,比如工厂主题、仓库主题以及经销商主题等。

待到需要对数据仓库中的数据进行实际分析时,分析人员就可以直接在不同主题数仓中按照需求自行处理数据,不需要再去寻找不同来源的数据并导入到数据仓库中。

数仓主题域是什么

让我们来看看百度上的定义,数仓主题域是指将业务对象高度概括的概念层次归类,目的是便于数据的管理和应用。

其实说白了,数据仓库主题域就是把那些关联紧密但不同的数据主题,交汇融合到一个更大的主题域当中,让他们能够凭借相通点更完善的储存在数仓中,也更容易被分析人员调取利用。

同样,为了方便理解,举个例子,一名顾客通过手机在APP上购买了一件衣服,在这个过程中涉及到了顾客主题、库存主题、产品主题、订单主题等,这些主题虽然不同但因为关系紧密可以融入到一个更大的主题域。

更简单粗暴点理解,主题就是主题域的子集。

如何划分主题域

就和多个主题组合成主题域一样,主题域自然也能进一步地分解、细化为不同的主题,这些主题也可以再次分解,产生更多的“小主题”,直到触及业务流程才不能再继续划分。

图片来源:派可数据

在企业实际搭建数据仓库时,一般都是把一个比较深层的主题或部分主题当做核心,围绕它来进行建设。这种建设方式因为涉及到主题的选择,必须先由最终用户和数据仓库建设人员共同确认主题域,然后继续完成搭建过程。

进行划分主题域时需要数仓建设人员了解业务流程,通过总结和分析清楚各个不同的业务流程都有哪些业务活动参与其中。

划分主题域的方法有很多,不同企业采取的方法也有所不同,总的来说,用得最多的有下面几种。

1.按照业务系统划分

因为大部分企业都已经经历过了信息化建设或者正处于信息化建设当中,企业各种业务系统都已经部署完成,财务部门有财务系统、销售部门有销售系统、生产部门有生产系统、供应链部门有供应链系统......

这些不同的业务系统,因为只会储存对应业务流程中产生的数据,下级数据主题都互相紧贴,是天然的主题域,业务系统有几种,就可以划分为几种主题域。

图片来源:派可数据

2.按照需求划分

很多时候,企业需要长期对某个方向进行分析,因为这个长期分析的过程涉及到各种主题,会对数据进行细分、归纳,在这个过程中,就由需求诞生了主题域。

就拿销售分析来说,这个分析过程会涉及到的对象有产品、仓库、经销商、顾客等,其中每一个分析对象就是一个数仓主题,而包含归纳这些主题的销售分析就成为了一个相应的主题域。

图片来源:派可数据

3.按照功能划分

在现代社会,软件是每个加入互联网的网民都会使用到的东西,这些由企业开发的软件拥有着不同的功能模块,比如说社交软件中就会有聊天、朋友圈、群聊、发送文件等功能。

从这些功能中选一个模块,聊天模块会涉及到数据仓库中的用户主题、图片主题、文字主题等,所以聊天模块也能被归纳为聊天主题域。

图片来源:派可数据

4.按照部门划分

现代企业都有着不同的业务部门,这些部门也会形成各种不同的主题域,比如说销售域、生产域、财务域等,而这些主题域也是由不同的数据主题组成的。

图片来源:派可数据

主题域的注意事项

  • 为了保证整个数仓体系的健康成长,主题域必须要长期维护,而且不能轻易变动
  • 划分主题域时尽量覆盖业务流程中所有的业务需求
  • 体系中增加新的业务流程时,要及时拓展新的主题域或是自然添加到已有的主题域中
  • 划分主题域时不能总想着一次性解决全部问题,要先明确主题,然后依托主题慢慢发展

数据质量概述

1.数据质量管理的定义

数据管理系统 - 派可数据 BI 可视化分析平台

数据质量管理是一种为了满足企业对于数据的需求,对各种业务活动产生的数据进行规范存储,然后通过ETL方法处理后把不同来源数据统一存放在一个数据仓库中的过程。

数据质量不是短时间进行数据处理的工具,也不是一种数据处理的技术,更不是一个软件系统,而是一种长期循环的管理活动,是包含着方法论、业务和管理的数据类技术解决方案。

2.数据质量的标准

数据质量标准 - 派可数据 BI 可视化分析平台

虽然在企业经营活动中会产生很多业务数据,但这些未经处理过的数据很多都是对企业发展无效的。真正可以为企业所用的数据,也就是说数据质量是有一定标准的,符合这些标准的才算是高质量且能被实际应用的数据。

完整性

数据的完整性是企业利用数据时最关心的一点。

企业数据的完整性一般受两个方向的影响,第一个方向是企业业务流程不规范,没有形成数据驱动的意识,导致某项数据缺失或记录遗漏。比如旗下门店服装店员交接不规范导致消费者购买记录缺失,造成数据不全,或是企业根本没有意识到要设置存储消费者购买衣服颜色的数据,导致无法对消费者喜爱衣服颜色进行分析;

第二个方向就是企业TI信息技术部门出现问题,这个问题在企业中也很常见。比如技术人员没有完善好业务数据库的设置,缺少关键的主键,导致业务流程中产生的数据有一部分不能存储到数据库中。

准确性

数据的准确性是企业能够放心利用数据的关键。

业务活动中,企业业务数据的准确性经常受到挑战,就拿路边随时能看到的餐饮连锁店来说,目前大部分线下店还是采用的店员手动点餐,这就相当于是手动记录业务信息,一旦店员疏忽记错餐品或是太忙没有顾及细节,即使线下店铺能够解决业务问题,其产生的数据也已经进入系统后台中,只能依赖后续的增删改来保证数据的准确性。

及时性

数据的及时性决定了企业能否在一定时间内利用数据。

企业中有些数据是非常强调实时性的,相关的IT或分析人员需要在短时间内利用数据,一旦数据没有及时到位,超出了预定的时间,对于企业而言这个数据就已经失去了价值。举个例子,有些企业喜欢在周五进行复盘总结,对下周的业务进行调整,如果这周的业务数据直到下周才能调取,那这些数据的意义已经不大了。

一致性

数据的一致性是企业数据存储的基础。

企业在建设数据库前,一般都需要先确定指标体系,对企业的各种业务进行抽象化,也就是确定好不同业务之间的命名、结构、层次等。得到业务流程中各个节点的具体指标后,技术人员根据指标提前设置好后台数据库,这样一线业务人员储存数据时,海量的数据就能根据设置好的规则自动找到位置,避免数据出现错误、冲突。

唯一性

数据的唯一性是影响数据质量的重要因素。

想要在数据库海量的数据中寻找某种数据,实现相关业务数据的快速查询,最关键的就是数据唯一性,它不仅可以在数据库中帮助识别重复数据,还能轻松获取企业业务的复盘数据,帮助管理人员更好决策。

数据质量管理

数据质量管理阶段 - 派可数据 BI 可视化分析平台

和文章开篇提到的数据质量管理定义一样,数据质量管理是一个长期持续的,需要企业所有员工共同努力奋斗的解决方案。这个数据质量管理方案会贯穿业务数据从生产到利用的整个流程,将会给企业带来巨大增益。

1.数据规划

企业管理人员必须先确定好数据质量管理体系的顶层设计,从思维的方向出发把企业文化变成数据驱动型文化,然后提前做好数据规范,将其融合到企业的KPI指标中,利用奖惩制度监督员工,把数据确立为企业的基石。

2.数据存储

部署派可数据商业智能BI,将企业原本拥有的业务信息系统以及其它不同来源的数据统一连接到数据仓库中,再经过ETL过程处理后,企业的数据质量就能飞速提高。

3.数据利用

可视化分析 - 派可数据 BI 可视化分析平台

数据分析人员可以通过派可数据BI中的可视化分析功能,从图表直连数据仓库取数,实现流程的自动化,避免出现其他干扰,然后通过联动、钻取等功能实现不同图表之间的互动,深化可视化分析报表展现的数据量和深度。

4.形成闭环

业务活动产生数据,分析人员利用数据判断出业务发展趋势,辅助管理人员对业务发展进行决策。在这么一个不断优化的闭环流程中,数据质量将会不断提高,逐渐将企业数据精细化到极致,进而产生变革。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/832998.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

EasyExcel工具类,一键实现表格导入导出,有无对应实体类均可

EasyExcel工具类,一键实现表格导入导出,有无对应实体类均可 Java解析、生成Excel比较有名的框架有Apache poi、jxl。但他们都存在一个严重的问题就是非常的耗内存,poi有一套SAX模式的API可以一定程度的解决一些内存溢出的问题,但…

linux du命令解析(递归计算文件子目录大小)(计算大小)(计算容量)

文章目录 du命令简介用法常用选项示例 文档原 中文选项详细解释示例递归统计某个目录下所有文件大小(不足单位会向上取整)(注意:可能会将目录大小也统计进去,目录大小为4096字节4kb?) du命令使用…

【第一阶段】kotlin语言的String模板

1.在Java中拼接字符串使用的是“” 2.在kotlin中使用"${}" 3.kotlin语言中if是表达式,更灵活 fun main() {val city"西安"val time24//java中写法println("我在"city"玩了"time"小时")//kotlin中写法&#xff0…

2023年华数杯C题思路

c题 母亲身心健康对婴儿成长的影响 母亲是婴儿生命中最重要的人之一,她不仅为婴儿提供营养物质和身体保护,还为婴儿提供情感支持和安全感。母亲心理健康状态的不良状况,如抑郁、焦虑压力等,可能会对婴儿的认知、情感、社会行为等方面产生负面影响。压力…

一文读懂芯片内存

1.导读 一个芯片通常需要三种主要的物理内存类型:SRAM、Flash和DDR。 SRAM(静态随机存储器):SRAM是一种高速、易访问和易擦写的存储器类型。它通常用于存储变量、缓冲区、堆栈和其他动态数据。SRAM的特点是读写速度快&#xff0c…

指针经典笔试题强训(附图详解)

目录 笔试题1: 解析: 运行结果: 笔试题2 解析: 运行结果: 笔试题3 解析: 运行结果: 笔试题4 解析: 运行结果: 笔试题5 解析: 运行结果:…

基于人工智能的状态监测帮助结束冷却塔的维护“噩梦”

冷却塔是将水蒸气冷却成较低温的水、将系统的废热排到大气层的排热装置,在工业生产中扮演着不可或缺的关键角色。大型工业冷却塔的主要用途是用来冷却在水冷系统中的循环水。这些水冷系统广泛应用于发电厂、炼油厂、石化厂、天然气制造厂、食品加工厂、半导体厂等工…

<C++> 类和对象(上) 面向对象

1.面向对象 C语言是面向过程的,关注的是过程,分析出求解问题的步骤, 通过函数调用逐步解决问题。 C是基于面向对象的,关注的是对象,将一件事情拆分成不同的对象,靠对象之间的交互完成。 2.类 C语言结构…

基于 JavaScript 的富文本编辑器框架简单使用

1.打开wangEditor wangEditor开源 Web 富文本编辑器&#xff0c;开箱即用&#xff0c;配置简单https://www.wangeditor.com/ 2.html文件 <link href"https://unpkg.com/wangeditor/editorlatest/dist/css/style.css" rel"stylesheet"> <style&…

竞争之王CEO商战课,聚百家企业在京举行

竞争之王CEO商战课&#xff0c;于2023年7月29-31日在北京临空皇冠假日酒店举办&#xff0c;近百家位企业家齐聚一堂&#xff0c;共享饕餮盛宴。 竞争之王CEO商战课是打赢商战的第一课。 竞争环境不是匀速变化&#xff0c;而是加速变化。 在未来的市场环境中&#xff0c;企业间…

一种新型的系统设计解决方案:模块树驱动设计

1.前言 系统设计的核心作用是在业务现实世界和抽象的IT实现之间建立起一道桥梁。 与其他行业被物理特性限制所束缚不同&#xff0c;软件世界可以变得无限庞大&#xff0c;而限制软件发展的其实是人的认知能力。所有软件设计服务的目标其实都是管理人的认知&#xff0c;是关于人…

Excel功能总结

1&#xff09;每一张表格上都打印表头 “页面布局”-->“打印标题”-->页面设置“工作表”页-->打印标题“顶端标题行” 如&#xff1a;固定第1~2行&#xff0c;设置成“$1:$2” 2&#xff09;将页面内容打印在一页【缩印】 1.选好需要打印的区域&#xff0c;“页面布…

挠曲疲劳测试系统比例阀放大器

挠曲疲劳测试系统技术是用于测试材料、部件、产品等在重复弯曲应变下的疲劳性能的技术。该技术通过在试样上施加重复弯曲应力和应变&#xff0c;模拟材料、部件、产品在实际使用环境中的弯曲疲劳行为。 挠曲疲劳测试系统由试验设备、控制系统和数据分析系统组成。试验设备包括…

精通GPU编程,高效处理Pandas

大家好&#xff0c;当正在使用python处理大型数据集&#xff0c;那么很可能会感受到&#xff0c;当基于CPU的pandas DataFrame难以执行操作时&#xff0c;等待数小时才能完成查询的挫败感。正是在这种情况下&#xff0c;pandas用户应该考虑使用RAPIDS cuDF利用GPU的强大功能进行…

opencv37-形态学操作-开运算(先腐蚀后膨胀)cv2.morphologyEx()-参数 op 设置为“cv2.MORPH_OPEN”

腐蚀操作和膨胀操作是形态学运算的基础&#xff0c;将腐蚀和膨胀操作进行组合&#xff0c;就可以实现开运算、闭运算&#xff08;关运算&#xff09;、形态学梯度&#xff08;MorphologicalGradient&#xff09;运算、礼帽运算&#xff08;顶帽运算&#xff09;、黑帽运算、击中…

Dockerfile构建LNMP镜像(yum方式)

目录 Dockerfile构建LNMP镜像 1、建立工作目录 2、编写Dockerfile文件 3、构建镜像 4、测试容器 5、浏览器访问测试&#xff1a; Dockerfile构建LNMP镜像 1、建立工作目录 [roothuyang1 ~]# mkdir lnmp/ [roothuyang1 ~]# cd lnmp/ 2、编写Dockerfile文件 [roothuyang1 …

安达发专注于APS高级计划管理系统解决方案

随着全球制造业竞争日益激烈&#xff0c;企业对于提高生产效率、降低成本的需求越来越迫切。为此&#xff0c;安达发近日发布了全新的APS高级计划管理系统解决方案&#xff0c;旨在帮助企业在有限产能条件下&#xff0c;实现交期产能精确预测、工序生产与物料供应最优详细计划&…

[代码案例] 快速入手matlab绘图基本指令

主要内容 Matlab绘图指令基本语法&#xff0c;涵盖画布位置大小&#xff0c;坐标调整&#xff0c;图例标签&#xff0c;子图绘制等 part 1 生成绘图数据据 part 2 绘图基本指令 part 3 多条曲线绘制 part 4 子图分块绘制方法 part 5 指定画布绘制 代码 % part 1 t0:0.01:30;…

C语言sprintf函数的简明介绍(头文件/自动添加杠0/与printf函数的区别)

介绍 一句话&#xff0c;与printf唯一的区别&#xff1a; printf函数打印输出到屏幕上&#xff0c;而sprintf函数打印到字符串中。 与printf同样支持&#xff1a;控制精度、将多个数值数据连接起来、打印某变量的地址、格式化数字字符串 自动在末尾添加\0&#xff0c;不用担…

Knife4j系列--解决不显示文件上传的问题

原文网址&#xff1a;Knife4j系列--解决不显示文件上传的问题_IT利刃出鞘的博客-CSDN博客 简介 本文介绍使用Knife4j时无法上传文件的问题。 问题复现 依赖 <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-…