大数据测试之数据仓测试怎么做(下)

news2024/10/5 14:25:24

前面的文章我们为大家介绍了一个常见的互联网大厂的数据仓的技术框架,也就是下面这张图所展示的内容。 

为大家介绍了从操作数据层,到DW层,再到汇总数据层,最后到维度层和数据应用层的整个流程。本文我们将整个架构打平来展示制作了下面的流程图,为大家做一个更为详细的介绍。


我们在这里拿“订单信息”举了一个例子,它在原数据库的时候这张表叫做order_info,是一张订单信息表。它出库的时候这张表的名字就变成了ods_order_info,到达我们的ods层,这层只是保存数据,并不做任何处理。

然后数据经过清洗、转换,会存储到dw层,也就是我们上图中看到的dw_order_info。

数据经过清洗转换之后,可能会有一些公共的数据要整合。之后我们会把这些数据模型整合成一张大的数据框表,比如说订单信息这边有可能还会集成一些用户信息等会进行整合。

明细数据会存到明细数据模型数据这边,模型这边要对这些数据进行一些汇总指标的处理。数据表在这里可能会集成一些其他表的属性,名称就变成了dm_order_info。dm层存储的数据颗粒度比较细,主要是方便应用层数据的开发。

如果我们要分析用户数据的话,我们可以直接从dm层这边取用户信息进行汇总就行了,这里数据表就变成st了。

应用层数据处理、储存好了之后会把数据推送到数据报表、数据平台或者其他数据接口,供其他数据产品或者业务、管理层使用。

了解完一个互联网公司比较常见的数据框架,接下来的文章我们继续为大家讲解大数据测试的一些概念、方法以及质量标准,欢迎大家继续关注。

(本系列文章根据《优品软件培育计划》公益直播内容整理,观看直播回放可以私信我获取观看链接。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/763387.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

我们正在开发一套组件库,欢迎你的加入~

项目地址 github地址 可以先点进来康康~ 技术栈 目前我们整体采用的是vue3typescriptless作为整体的开发的选择 需要说的是,我们并没有采用很多组件库采用的TSX的写法,而是选择了SFC的写法,这是因为我们觉得对于大部分的vue开发者来说&am…

用得最多的企业文件加密软件【企业文件加密软件前十】

企业文件加密软件是一种专门设计用于保护企业敏感信息的软件工具。它通过使用加密算法将企业的文件、文件夹和移动设备上的数据转化为不可读的格式,以防止未经授权的访问和数据泄露。这些软件通常提供了多种加密算法和安全控制选项,以满足不同企业的安全…

国外访问学者博士后常用的网络视频面试软件

面试是获得邀请函的重要环节,随着网络的广泛应用,现在视频面试逐渐取代了电话面试,本篇知识人网小编介绍几种国外访问学者博士后常用的网络视频软件。 在申请国外博士后或者访问学者职位时,当接收方导师收到CV(简历&am…

postgis上传 上千个资源文件

需求背景所需工具解决流程1. 获取文件名信息2.复制到 excel 表格中3.转成 csv 文件 需求背景 需要把上千个文件资源上传到远端,并建立数据表 所需工具 Notepad 7wps office 11.1.0 解决流程 1. 获取文件名信息 复制文件路径,在 cmd 中进到文件夹&…

Python程序设计基础:列表与元组(二)

文章目录 一、数值列表的生成1、通过input()函数输入创建列表2、通过list()函数转换3、列表生成式4、数值列表的几种统计计算 二、元组1、元组的定义2、元组的操作3、元组作为列表元素 三、转换函数1、元组和列表之间的转换2、字符串和列表之间的转换3、split()方法 一、数值列…

深度学习模型:Pytorch搭建ResNet、DenseNet网络,完成一维数据分类任务

2023.7.17 DenseNet和ResNet都是深度学习中常用的网络结构,它们各有优缺点。 DenseNet的优点是可以充分利用网络中的信息,因为每个层都可以接收来自前面所有层的信息。这种密集连接的结构可以提高网络的准确性,减少过拟合的风险。此外&…

教你一招,动态规划思想

动态规划 什么是动态规划? 动态规划也是算法设计的一种方法/思想。它将一个问题分解为相互重叠的子问题,通过反复求解子问题,来解决原来的问题。 基础案例 场景一 斐波那契数列 当前数等于前面两个数的和。 定义子问题:f(n)…

Python异步网络编程框架Twisted使用方法

Twisted概念 Twisted是一个Python异步网络编程框架,它可以帮助我们开发高性能的网络应用程序。它提供了一些基本概念,如reactor、protocol、transport和factory等,用于构建高效的网络应用程序。 优点: 异步并发处理&#xff1a…

Ceph集群

目录 一、存储概述 1.单机存储设备 1.1 DAS 1.2 NAS 1.3 SAN 2. 单机存储的问题 3. 商业存储解决方案 4.分布式存储(软件定义的存储 SDS) 4.1 分布式存储的类型 二、Ceph简介 1.Ceph 优势 2. Ceph 架构 2.1 RADOS 基础存储系统 2.2 LIBRADOS…

Arch - 多线程设计架构模式

文章目录 概述细节 概述 多线程设计架构模式是一种通过合理地使用线程来提高系统性能和响应能力的设计模式。以下是一些常见的多线程设计架构模式: 线程池模式:通过预先创建一组线程,将任务提交到线程池中执行,避免了线程的频繁创…

Perforce Helix Core新版本推出资源压力感知功能,提升服务器可用性,助力大规模开发

您的版本控制系统帮助团队进行主动监控吗? Perforce Helix Core的客户经常在不同维度上测试规模和性能的极限。其中一些维度包括文件数量、文件大小、用户数和并发事务数量。随着这些维度的压力增加,服务器资源(如内存和CPU)通常…

时刻领先丨PingCAP 用户峰会 2023 圆满收官

7 月 13 日,PingCAP 用户峰会 2023 在北京西南华邑酒店成功举办。 大会有哪些精彩看点,快跟小编来看看吧! 提升中国开源数据库在国际市场的影响力和竞争力 倪光南 中国工程院院士 在全球数字科技创新的浪潮中,数据库作为核心数…

EVO 工具常见使用记录

计算ATE 第一种 evo_ape tum GT_robot_0.txt robot0_estimated.txt --plot --plot_mode xyz --align_origin第二种 evo_ape tum GT_robot_0.txt robot0_estimated.txt --plot --plot_mode xyz -a参数解析 GT pose 跟 estimated pose 文件的相对顺序。先 GT pose 的文件…

Boojum:zkSync的高性能去中心化STARK证明系统

1. 引言 2023年7月17日zkSync官方twitter Say hello to Boojum宣称在不regenesis的情况下,将zkSync Era迁移至Boojum证明系统。 Boojum为STARK证明系统(PlonkFRI),开源代码见: https://github.com/matter-labs/era-…

【kubernetes系列】Kubernetes之调度器和调度过程

Kubernetes之调度器和调度过程 概述 当用户请求向API server创建新的Pod时,API server检查授权、权限等没有任何问题的话,他会把这个请求交由Scheduler,由Scheduler检查所有符合该Pod要求的列表,开始执行Pod调度逻辑&#xff0c…

mongdb基本操作

如果要查看刚刚创建的数据库 创建集合class 将数据插入 进行查找练习 查看班级所有人信息 db.class.find()查看班级中年龄为10岁的学生信息 db.class.find({age:10})查看年龄大于10岁的学生信息 用到范围条件查询 db.class.find({age:{$gt:10}})查看年龄在 4—8岁之间的学…

Jetpack入门:DataBinding

目录 一、DataBinding简介 设置 Data Binding 数据绑定表达式 双向绑定 二、例子 例1:DataBinding实现文本绑定和点击事件 MainActivity : CountStart : Food: OnClickListener : activity_main: build.gradle: 运行结果…

用vscode远程连接Linux服务器后,如何创建自己的账号

1. 打开终端(Terminal)窗口 2. 在终端中创建新的用户账号 (假设您要创建的用户名为 “newuser”),在命令执行期间,需要提供新用户的密码。按照提示进行操作。 先输入登录的管理员账号密码。 再输入创建的…

2.2 Entry Text输入,文本框

2.2 Entry & Text输入,文本框 窗口主体框架 每一个tkinter应用的主体框架都包含以下几部分: 主窗口: window,及主窗口的一些基本属性(标题、大小)让窗口活起来:window.mainloop() import tkinter as…

热插拔-udev机制

一、什么是udev? udev是一种设备管理工具,以“守护进程”的形式运行,通过侦听内核发出来的uevent来管理/dev目录下的设备文件。它能够根据系统中的硬件设备的状态动态更新设备文件,包括设备文件的创建,删除等。使用ud…