ETL到底是什么?

news2024/11/20 8:38:01

各位数据的朋友,大家好,我是老周道数据,和你一起,用常人思维+数据分析,通过数据讲故事。

在这里插入图片描述

前段时间和大家聊了一个话题,就是为什么要用构建数据仓库,而不是直连数据源的方式开发报表?通过这次的话题,大家知道了构建数据仓库就等于是打好坚实的地基,而BI大厦也才能越建越高!在构建数据仓库的过程需要用到一个工具,也就是ETL。今天就和大家聊一下,ETL到底是什么?

ETL到底是什么?

ETL是Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。看字面意思不是很好理解,那ETL到底是什么?先讲一个故事吧。

小强和小丽结婚一年了,事业家庭都稳定了下来,准备要生BB了,父母听到这个消息,非常高兴,坚持要从另一个城市搬过来帮忙。但是,小强现在住的地方是一个一房一厅,有点小,所以,得搬一个大点的房子。于是,小强找到了一间新房子:三房两厅两卫,还有一个大阳台。

终于落实好,就要准备搬家了。一个周末,小夫妻两个人将旧住所中需要的东西打好包,而一些不再需要的东西就只有丢掉了,忙碌了整整一个上午。中午,搬家公司来了,将打包的东西运到新住所,接下来,两个人又开始忙碌,将打包的东西解开,重新整理,摆放。原来的洗衣机是挤在卫生间的,现在终于可以放到阳台上了…。

下午,父母的东西也运过来了。要将他们个人的东西放到另一个卧室,对了,他们还带了一个电饭煲,小强原来也有一个的,这个还得想办法处理一下…好了,好像还缺点什么,需要再去采购些物品…

经过周末两天的忙碌,终于,按照自己和父母的喜好,重新摆放好了,真舒适啊:一进客厅,黑白色调的沙发、茶几和电视显的素雅而高贵,特别是墙上的照片,从两个人认识、恋爱到结婚,讲述着一个迷人的爱情故事。餐桌上摆着父母带来的青花瓷茶具,泡出来的茶中溢着岁月的沉香;进到主卧,大大的梳妆台和衣柜是女主人的最爱,而床头的书架,则是男主人的地盘…进到客卧,深色的衣柜和床,有些复古的感觉,窗台上的白玉兰花沐浴着阳光,这是父母共同的爱好…

小强和小丽牵着手,看着这个温馨的家,脸上洋溢着幸福,窗外的阳光洒落进来,镜头拉远,定格,The End,故事讲完了。这个故事是在讲都市爱情故事呢?还是房地产公司精心策划的广告?

都不是,我们想用它来说说ETL是什么的。好吧,言归正传,我们重新来讲一遍故事。

小强(即已经使用的ERP)因为要生BB(即正要实施的MES)加上父母(即已经使用的HR)要过来,所以,需要换一套大的房子(即DW数据仓库)。大房子会根据实际的需求进行规划(三房两厅两卫,还有一个大阳台)。捋一下,就是将ERP/HR/MES的数据整合到数据仓库中去。

ETL其实就是数据搬家的过程。

搬家第一步,我们要将旧住所的东西打包;第二步,我们叫来搬家公司将打包的东西运输到新住所;第三步,我们在新住所将打包的东西解开,重新整理,摆放。

ETL就是数据搬家的过程,第一步,将有用的表和字段整理出来;第二步,将这些字段搬到另外一个数据库中,实现物理上的转移;第三步,再按新的分析需求,重新清洗整理这些数据。听到现在,你可能觉得好像是有些理解了。但具体是怎么实现ETL的过程呢,且听我慢慢道来。

第一步打包,到底怎么将有用的表和字段打包呢?

生活中的搬家,我们在打包的时候,大家通常是整理每个房间,看哪些物品是有用的,就放在一个箱子里,整理的时候,只会考虑这个物品是不是有用,至于这个物品搬到新家后放在哪里,是不会去过多的思考的。如果我们先想着哪些东西都是要放到新房子主卧的,再将这些东西全部放在一起打包。那一定是有强迫症了。

ETL过程中,有些朋友就会这样,习惯了原来写SQL或存贮过程开发报表的方式,在搬数据时,也是写视图或存贮过程,将结果搬到数据仓库中去。这种方式非常不好,为什么呢?首先,它仍然是老思路,只是原来是存贮在临时表中,现在改为存贮在物理表中。技术或工具的升级,其实首先是要升级思维方式;其次,一旦需求发生变化,就需要频繁修改视图或存贮过程,后端开发的工作量很大。

正确的做法是,只考虑分析需求中的数据,来自哪些表或字段,就把涉及到的表与字段原封不动的搬过去,至于搬过去后怎么用,等搬过去再说,先不着急。

不同的业务系统,会有许多相同的基础资料,如都有部门这个基础资料,但大家的编码或名称可能不一样,这就需要额外处理一下,就好像父母也带了一个电饭煲需要想办法处理一样。

构建数据仓库时,总会有一些数据可能并不存在于某个业务系统中,如电商平台的数据,或者手工维护的预算数据。要使用这些数据,就需要额外导进去,就好像还缺点什么,需要再去采购些物品一样。

小强小两口周末两天的忙碌是辛苦的,但也是值得的。ETL的意义或价值,就好像小强小两口的忙碌一样,是为了最后有一个舒适的新家。

数据仓库构建好后,才有可能基于数据仓库来构建分析模型并根据自己的喜好展现最终的结果。客厅里一目了然的就是管理驾驶舱,既有ERP的信息(小强的电视),也有HR的信息(父母的茶具),而进到主卧,则好像进入到某个具体的分析主题一样;而进到客卧,则相当于切换到另外一个分析主题。

ETL的质量决定了BI是否成功(小强从此过上了幸福的生活。)

总结

ETL就是数据搬家的过程,第一步,将有用的表和字段打包;第二步,将这些字段搬到数据仓库中,实现物理上的转移;第三步,再按新的分析需求,重新清洗整理这些数据。

老周道数据,和你一起,用常人思维+数据分析,通过数据讲故事,我们下一讲再见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/491869.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

七、MyBatis自定义映射resultMap

文章目录 七、自定义映射resultMap7.1 resultMap处理字段和属性的映射关系7.2 多对一映射处理级联方式处理映射关系使用association处理映射关系分步查询 7.3 一对多映射处理collection分步查询 本人其他相关文章链接 七、自定义映射resultMap 注意:下面两行表看看…

公司新来的00后真是卷王,工作没2年,跳槽到我们公司起薪18K都快接近我了

说00后躺平了,但是有一说一,该卷的还是卷。这不,前段时间我们公司来了个00后,工作都没两年,跳槽到我们公司起薪18K,都快接近我了。后来才知道人家是个卷王,从早干到晚就差搬张床到工位睡觉了。 …

分布式光伏发电大规模应用,运维难题如何解?

国家能源局数据显示,2022年我国光伏新增装机达 87.4GW,同比59%,其中:集中式装机达36.29GW,同比41.8%;分布式装机达51.11GW,同比207.9%,已连续两年超过集中式电站。 近年来&#xff…

如何在Windows系统中恢复丢失的分区?

有些时候,您突然发现自己的分区丢失,并且无法在Windows文件资源管理器中看到它,进入磁盘管理工具,丢失的分区也将被显示为额外的未分配空间,而不是原始分区。如果您遇到了与上述案例类似的情况,某个分区丢失…

AntDB数据库受邀参加第六届上海人工智能大会,分享AIGC时代核心交易系统升级方案

近日,第六届上海人工智能大会春季论坛圆满落幕。大会以“数智互联,瞰见未来”为主题,邀请了来自国内外十余个国家和地区的学术界顶级学者和业内知名企业的技术大咖,探讨人工智能的学术、人才、技术、行业发展痛点。亚信科技AntDB数…

新闻月刊 | GBASE 4月市场动态一览

产品动态 4月,GBASE南大通用大规模分布式并行数据库GBase 8a MPP Cluster中标人保财险“2022年基础软件产品及服务采购”项目。这是自2019年GBASE与人保财险达成合作以来支持建设的第三期项目。项目上线后,将极大满足人保财险大数据中心及研发中心的增量…

学网络安全怎么挖漏洞?怎么渗透?

前言 有不少阅读过我文章的伙伴都知道,我从事网络安全行业已经好几年,积累了丰富的经验和技能。在这段时间里,我参与了多个实际项目的规划和实施,成功防范了各种网络攻击和漏洞利用,提高了安全防护水平。 也有很多小…

css div上下左右排序

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>div上下左右排序</title> </head> <style>.div-box {display: grid;grid-auto-flow: column; /* 排序方式&#xff1a; column-先列…

编译链接再认识+gdb认识+makefile了解+缓冲区的理解+进度条的实现

索引 一. 编译链接再认识1.预处理2.编译3.汇编4.链接1.静态链接2.动态链接 二.gdb三.makefile/make四.缓存区的理解五. 进度条的实现 一. 编译链接再认识 主要针对gcc展开 一个文件从源文件编译成可执行文件大致要经历四个步骤 预处理&#xff08;进行宏替换&#xff09;编译…

office@word官方文档查看@审阅@批注@修订

文章目录 office官方文档microsoft office 文档教程语言切换文档官网word官方培训资源找到合适的文档 word共享共同创作的相关支持word审阅重点修订批注审阅窗格右侧边窗格修订选项区分标记和修订 officeword官方文档查看审阅批注修订 office官方文档 microsoft office 文档教…

国家信息安全水平考试中NISP三级(专项)网络安全证书介绍

国家信息安全水平考试中NISP三级&#xff08;专项&#xff09;网络安全证书介绍 ​1、什么是NISP? 国家信息安全水平考试&#xff08;National Information Security Test Program&#xff0c;简称NISP&#xff09;&#xff0c;是由中国信息安全测评中心实施培养国家网络空间…

c++ 11标准模板(STL) std::vector (六)

定义于头文件 <vector> template< class T, class Allocator std::allocator<T> > class vector;(1)namespace pmr { template <class T> using vector std::vector<T, std::pmr::polymorphic_allocator<T>>; }(2)(C17…

I/O常用扩展方法与芯片

主要有四种I/O扩展方法&#xff1a; (1)并行总线扩展的方法 (2)串行口扩展方法 (3)I/O端口模拟串行方法 (4)通过单片机内I/O的扩展方法 IO口扩展可以通过以下芯片来实现&#xff1a; 1、并行扩展芯片&#xff0c;比如8255 &#xff0c;8155等。 2、锁存器或缓冲器来扩展&#x…

README.md编写

一、摘要 项目一般会有个描述文件&#xff0c;对于项目的代码来讲&#xff0c;这个描述就是README.md文件&#xff0c;可以描述各模块功能、目录结构等。该文件可以方便让人快速了解项目的代码结构和功能。当然&#xff0c;若要深层次的了解项目&#xff0c;就得看项目总体的需…

Postman(接口测试工具)使用教程

目录 Postman(接口测试工具) Postman 介绍 Postman 相关资源 Postman 安装 具体安装步骤 ● 安装 Postman 快速入门 快速入门-实现步骤 其它说明 Postman(接口测试工具) Postman 介绍 1. Postman 是一款功能超级强大的用于发送 HTTP 请求的 测试工具 2. 做 WEB 页面开…

(MAX5048BAUT+T)ASEMI代理美信MAX5048BAUT+T车规级芯片

编辑-Z MAX5048BAUTT特征&#xff1a; 型号&#xff1a;MAX5048BAUTT 可控上升和下降时间的独立源和汇输出 4V至12.6V单电源 7.6A/1.3A峰值吸收/源极驱动电流 0.23Ω 开路漏极N沟道吸收输出 2.Ω 漏极开路P通道源极输出 12ns&#xff08;典型&#xff09;传播延迟 反相…

Mybatis方式完成CRUD操作

Mybatis方式完成CRUD操作 文章目录 Mybatis方式完成CRUD操作1、java以Mybatis方式操作DB1.1、配置数据源-创建 resources/mybatis-config.xml1.2、创建java bean-Monster1.3、配置Mapper接口声明方法1.4、配置xxMapper&#xff0c;完成SQL配置,实现CRUD操作1.5、Test测试 2、需…

AI生成天空盒!泰裤辣!

我经常做一些奇奇怪怪的梦&#xff0c;醒来的时候特别想把这些NB的场景给画下来分享给别人。 我尝试过AI绘画&#xff0c;但是还没达到我想要的那种沉浸的效果。如果能通过我的描述生成3D场景就好了。 直到我发现了它&#xff01; 先来欣赏一下它的杰作&#xff1a; 这个工具通…

微信公众号扫码登录(一)—— 获取微信公众号二维码

引言 这几天在研究微信登录&#xff0c;今天解决了获取微信二维码问题&#xff1b;在这里总结一下 关于微信登录想说的话 第一次接触微信登录&#xff0c;开始就弄混了登录方式&#xff1b;简单来说&#xff0c;微信扫码登录分为两种&#xff0c;一种是微信公众平台&#xf…

SAP 从入门到放弃系列之工作中心(workcenter)

目录 概念 数据收集 主要配置点&#xff1a; 工作中心类别 工作中心字段选择 工作中心公式 标准值码 工作中心位置 工序控制码 概念 工作中心是为制造过程增加价值的一台机器或一组机器、一个人或一组人&#xff0c;或一组人和机器。 数据收集 在 实施项目期间&#x…