海睿思分享 | 颠覆传统方式的数仓构建工具

news2024/12/23 5:26:52

你还在为构建数仓的低效率而发愁吗?

你还在为数仓构建不能体系化而苦恼吗?

也许大家都不愿意承认,但是绝大部分的企业当前是没有统一、标准、公共、全局的模型设计的,而仅仅是把数据同步上来,然后基于业务需求做烟囱式的数据开发,这种方式会存在什么样的问题呢?

✦ 存在大量的重复工作,增加开发成本

✦ 数据的质量和一致性无法保证

✦ 后期维护困难,增加维护时间和成本

一种颠覆性的数仓构建工具--总线矩阵,可以高效率、体系化地完成数仓构建。

1

什么是总线矩阵

总线矩阵是一种新型的数据仓库构建理念,是实质由行和列组成的矩阵,其中行代表数据仓库中的不同业务过程,列代表数据仓库中的不同维度。

通过将不同的业务过程和维度组合在一起,就可以构建出一个完整的数据仓库。

同时,它可以将数据仓库中的不同数据源进行分类和组织,从而使得数据仓库更加灵活、可维护和可扩展。

2

总线矩阵的优势

❖ 灵活性:总线矩阵可以根据不同的业务需求进行高效的调整和修改,从而使得数据仓库更加灵活。

❖ 一致性:总线矩阵可以确保数据在不同的数据源之间保持一致,并且可以对数据进行质量检查和清洗,提高了数据的质量和一致性。

❖ 可扩展性:总线矩阵可以根据不同的业务需求进行扩展、体系化构建,以满足不断变化的业务需求。

❖ 可维护性:总线矩阵可以将数据仓库中的不同数据源进行分类和组织,更加轻松地管理数据源、数据模型和数据仓库功能,减少了维护时间和成本。

3

总线矩阵的构建步骤

① 业务调研

通过客户现场调研,确定客户需要哪些业务域,以及业务域对应的指标需求,形成初步的指标体系,在每个指标节点与客户确认指标相关的业务逻辑描述,通过思维导图的方式把企业通用指标进行了一个梳理:

指标业务逻辑

② 总线矩阵填写并导入

平台内置了总线矩阵填写功能,根据上述指标需求,与客户一起参与总线矩阵内容的填写。

✦ 提高数据可靠性根据总线矩阵中的原子指标来源数据域,分别为销售、采购、HR、生产、营收、现金流,在平台生成对应的数据域、业务过程、事实表、原子指标、业务限定、派生指标、维度表(在公共域内)。

✦ 随后根据总线矩阵填写内容一键生成数仓的数据域、业务过程、事实表、原子指标、业务限定、派生指标、维度表。

数仓规划构建流程

此时,总线矩阵的整个框架就已经完全搭建好了。通过这种总线矩阵的方式让维度建模更加的便捷,节省了大量的时间。

③ 标准化处理

接下来需要做的是将业务数据源接入进来,并进行简单的标准化处理。

✦ 平台提供了可视化配置的方式完成各类型数据的清洗、标准化。数据标准化的过程可以改进数据的质量,有助于提高其后的决策过程的精度和性能。

数据标准化界面

✦ 标准化的数据与中间表字段进行一一映射。只需要通过简单的字段连接即可完成数据映射。

数据标准化映射

④ 汇总表生成

举例说明:

✦ 原子指标A:生产人员数量

数据来源:人力资源生产人员数量事实表

✦ 原子指标B:销售人员数量

数据来源:人力资源销售人员数量事实表

✦ 派生指标A:生产人员数量_岗位为生产_历史至今

来源原子指标:生产人员数量

统计周期:历史至今

业务限定:岗位为生产

✦ 派生指标B:销售人员数量_岗位为销售_历史至今

来源原子指标:销售人员数量

统计周期:历史至今

业务限定:岗位为销售

✦ 复合指标:生产和销售总人数

来源派生指标:

派生指标A-生产人员数量_岗位为生产_历史至今

派生指标B-销售人员数量_岗位为销售_历史至今

计算方式:生产人员数量_岗位为生产+销售人员数量_岗位为销售

⑤ 可视化选择汇总表指标及统计维度

指标构建好之后,在平台进行相应的计算逻辑配置,选择维度,形成最终的应用指标。

汇总表可视化

此时,总线矩阵的整个框架就已经完全搭建好了。通过这种总线矩阵的方式让维度建模更加的便捷,节省了大量的时间。

4

总结

总线矩阵是一种颠覆传统方式的数据仓库构建方式,它可以在数仓构建中发挥重要作用,简化数据集成过程、提高数据质量和一致性、支持数据仓库的扩展和提高数据仓库的可维护性。

海睿思S-DW智能数仓通过构建总线矩阵,实时将企业的各类数据进行整合和汇聚,为企业运营活动和管理决策提供更加准确、全面的指标支撑!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/584424.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pwn中利用off by null的一个思路,构造假chunk的难以触及pre_size咋整

题目分享 children_tcache 链接:https://pan.baidu.com/s/1jARmxmGaoN_VADlb6m0D8A?pwdra0l 提取码:ra0l 参考博客: tcache在pwn题中常见的利用姿势 - 先知社区 (aliyun.com) 开始: 这道题的具体写法我就不说了&#xff0…

如何快速运用R语言实现生物群落(生态)数据统计分析与绘图

R 语言作的开源、自由、免费等特点使其广泛应用于生物群落数据统计分析。生物群落数据多样而复杂,涉及众多统计分析方法。本次以生物群落数据分析中的最常用的统计方法回归和混合效应模型、多元统计分析技术及结构方程等数量分析方法为主线,通过多个来自…

【课程】12 水资源大系统多目标理论

2022级博士研究生课程笔记。 仅供学习交流,如若侵权,请联系我删除,谢谢。 感谢董老师的精彩分享!

【课程】13 数据同化理论和方法

2022级博士研究生课程笔记。 仅供学习交流,如若侵权,请联系我删除,谢谢。 感谢时沈老师的精彩分享!

MySQL分库分表方案及sharding-spher(1)

一、数据库瓶颈 不管是IO瓶颈,还是CPU瓶颈,最终都会导致数据库的活跃连接数增加,进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是,可用数据库连接少甚至无连接可用。接下来就可以想象了吧(并发…

史上最完整的Spring Bean的生命周期

Bean的生命周期总 Spring Bean 的生命周期 Spring中的bean的生命周期主要包含四个阶段:实例化Bean–> Bean属性填充–>初始化Bean—>销毁Bean 加载Bean定义 通过 loadBeanDefinitions 扫描所有xml配置、注解将Bean记录在beanDefinitionMap中创建Bean对象…

超级厉害的复盘能力,让你2023年下半年扬帆起航

不知不觉2023年的上半年已经过去了,上半年你过得怎么样?树立得目标有没有完成呢? 复盘,这个概念现在可谓是无人不知,无人不晓。好得复盘可以让我们避免犯错,让我们更加快速得接近我们得目标。 今天就和大…

不是说00后已经躺平了吗,怎么还是这么卷.....

都说00后已经躺平了,但是有一说一,该卷的还是卷。 前段时间我们部门就来了个00后,工作都还没两年,跳到我们公司起薪20K,都快接近我了。 后来才知道人家是个卷王,从早干到晚就差搬张床到工位睡觉了。最近和…

App上架流程(推荐)

准备 • 开发者账号 • 完工的项目 上架步骤 • 一、创建App ID • 二、创建证书请求文件 (CSR文件) • 三、创建发布证书 (CER) • 四、创建Provisioning Profiles配置文件 (PP文件) • 五、在App Stor…

ctfshow 每周大挑战 RCE极限挑战3

目录 题目源码1 跑一下正则2 分析解题用什么payload3 构造payload如何获取字母N构造出_POST及其他拼接内容POST传参 4 完整解题payload 题目源码 1 跑一下正则 <?php for($i32;$i<127;$i){if (!preg_match("/[a-zA-Z2-9!#%^&*:{}\-<\?>\"|~\\\\]/…

接口测试工具Postman接口测试图文教程

目录 一、前言 二、Postman安装和使用 三、请求方式 四、资金记录接口实例演示 一、前言 在前后端分离开发时&#xff0c;后端工作人员完成系统接口开发后&#xff0c;需要与前端人员对接&#xff0c;测试调试接口&#xff0c;验证接口的正确性可用性。而这要求前端开发进…

公网使用 SSH远程连接安卓手机 Termux -Android 手机服务器

文章目录 1.安装ssh2.安装cpolar内网穿透3.远程ssh连接配置4.公网远程连接5.固定远程连接地址 转载自cpolar极点云的文章&#xff1a;公网SSH远程连接Termux – 电脑使用安卓Termux 「无需公网IP」 使用安卓机跑东西的时候&#xff0c;屏幕太小&#xff0c;有时候操作不习惯。不…

增强型本地文件搜索工具:Find Any File

Find Any File是mac上一款增强型本地文件搜索工具&#xff0c;可以让你在本地磁盘上搜索、查找任何文件&#xff0c;包括本地磁盘的名称、 创建或修改日期、 大小或类型和创建者代码等。小编现为大家提供最新Find Any File Mac破解版&#xff0c;欢迎需要的朋友下载使用。 Find…

I/O 端口

概述 I/O 端口的主要功能特性&#xff1a; ⚫ GPIO 引脚最高耐5.5V 电压 ⚫ GPIO 数字输入具有施密特特性 ⚫ 部分GPIO 输入支持模拟滤波 ⚫ 部分GPIO 输入支持数字滤波 ⚫ GPIO 可配置为上拉、开漏输出 ⚫ 低功耗模式下保持状态 PAD 结构 GPIO&#xff0c;输入输出使能&#…

sqlserver获取每天最接近整点的一条数据

思路&#xff1a;要取到整点数据&#xff0c;首先想到了是利用数据里面的时间整点部分进行分组&#xff0c;通过时间正序&#xff0c;取到分钟第一条数据就行了 1&#xff0c;简单的group by 做法就比较复杂了&#xff0c;复杂的分组做法都采用了partition by 分区函数处理&a…

开源2.4g遥控小飞机控制板

原理图 主控 6轴IMU 2.4G通信 电机驱动 特性 主控采用STM32F103CBT6&#xff0c;外设资源比较丰富&#xff0c;国产替代也很容易。红绿双色LED&#xff0c;GPIO控制&#xff0c;可用来提示程序运行状态。1个复位按键&#xff0c;1个用户按键可以用作输入。SWD&UART调试接…

学校机房如何监控?手把手教你操作

随着现代科学技术的不断发展&#xff0c;特别是现代建筑技术、现代通讯技术、现代控制技术、现代仪器仪表技术和现代计算机技术的不断更新、发展、完善和整合&#xff0c;计算机机房智能化的趋势日益明显。 学校机房常见4大安全隐患 01.电气安全隐患 电源电流异常、市电环境不…

常见的DNS攻击类型与应对措施盘点(中科三方)

DNS解析是互联网中一项非常重要的功能&#xff0c;是用户访问网站的关键环节&#xff0c;我们日常工作生活使用网络都伴随着大量的DNS服务做支撑。DNS将用户容易记忆输入的域名指向可由计算机直接识别的IP地址&#xff0c;是确保用户通过域名访问网站&#xff0c;维持网络空间正…

电脑一直自检无法开机怎么办?

电脑一直自检无法开机是指电脑自检程序一直处于检查中无法进入系统&#xff0c;从而导致电脑无法开机。在了解电脑一直自检无法开机之前&#xff0c;我们需要明白电脑自检程序检测的是什么。 电脑自检也称加电自检(POST&#xff0c;Power On Self Test)&#xff0c;电脑在接通电…

DVWA靶场的安装-超详细

一、安装phpstudy环境 phpstudy下载地址&#xff1b;小皮面板(phpstudy) - 让天下没有难配的服务器环境&#xff01; 二、下载DVWA包 VWA官网 http://www.dvwa.co.uk/ 下载DWVA压缩包DVWA-master.zip&#xff0c;很小只有1M多 三、安装DVWA 1、解压DVWA压缩到phpstudy/www&…