GaussDB数据库SQL系列-SQL与ETL浅谈

news2025/1/10 3:23:25

目录

一、前言

二、SQL与ETL的概述

三、ETL过程中的SQL示例(GaussDB)

1、提取(Extract)

2、转换(Transform)

3、加载(Load)

四、附DataArts Studio介绍

五、小结

一、前言

在SQL语言中,ETL(抽取、转换和加载)是一种用于将数据从源系统抽取到目标系统的过程。ETL过程通常包括三个阶段:抽取(Extract)、转换(Transform)和加载(Load)。但这些其实都脱离不了数据库系统,本节从GaussDB数据库生态出发,给大家简单讲一下SQL 与 ETL的过程与关系。

二、SQL与ETL的概述

SQL(结构化查询语言)

SQL是一种用于管理关系数据库系统的标准编程语言(例如、MySql、GaussDB等)。它用于查询、插入、更新和删除数据库中的数据。SQL语言主要用于数据库管理系统的交互,它并不是一种通用的编程语言,而是专门设计用于操作关系数据库的。

ETL(Extract-Transform-Load)

ETL是一个过程,用于从源系统提取数据,将其转换为目标系统所需的格式,然后将其加载到目标系统库。ETL是数据集成的一部分,用于将分散的、不一致的数据整合到一起,然后通过统一的接口将数据传输到目标系统库进行分析和应用。

ETL是数据库处理数据的重要环节,当在ETL过程中使用SQL时,通常涉及如下图操作。

三、ETL过程中的SQL示例(GaussDB)

本章节涉及到的SQL适用于GaussDB等数据库。

1、提取(Extract)

在ETL过程中,抽取是将数据从源系统中获取并传输到目标系统的第一步。这可能涉及到连接到数据库、读取文件、调用API等操作。在抽取数据时,需要考虑以下几个方面:

  • 数据源的选择:根据具体业务需求选择数据源,并考虑数据量、数据质量、数据类型等因素。
  • 抽取方式的选择:可以选择增量、全量更新等不同的抽取方式。
  • 数据抽取的调度:需要考虑时间、频率、并发等因素,以确保数据的及时性和准确性。

常用SQL语句示例:

1)全量(表)提取

SELECT * FROM source_table;

2)增量提取(例如,根据日期字段,按天、月、年提取,或其他维度)

SELECT * FROM source_table WHERE t_date=’20230907’;

Tip根据业务需求提取全字段或者指定字段。

2、转换(Transform)

在ETL过程中,转换是对抽取的数据进行清洗、转换、过滤和格式化等操作,以满足目标系统的需求。转换的主要操作包括:

  • 数据清洗:包括去重、填充缺失值、异常值处理等操作,以确保数据的质量和准确性。
  • 数据转换:包括数据类型转换、字段计算、格式化等操作,以使数据符合目标系统的数据结构和数据类型。

常用SQL语句示例:

1)数据行去重

--数据行去重(随机保留或者优先保留)

SELECT order_id, user, product, number

  FROM (

     SELECT * ,ROW_NUMBER() OVER (PARTITION BY order_id ORDER BY proctime ASC) as row_num

     FROM Orders)

  WHERE row_num = 1;

参数说明:

ROW_NUMBER(): 从第一行开始,依次为每一行分配一个唯一且连续的号码。

PARTITION BY col1[, col2...]: 指定分区的列,例如去重的键。

ORDER BY time_attr [asc|desc]: 指定排序的列。升序( ASC )排列指只保留第一行,而降序排列( DESC )则指保留最后一行。

WHERE rownum = 1: ROW_NUMBER()生成的编号1

可参考上一篇文章:

GaussDB数据库SQL系列-数据去重_Gauss松鼠会的博客-CSDN博客

2)字段清洗(例如:去空格)

通过TRIM()、REPLACE()、CASE WHEN … THEN … END等关键字或函数进行异常字符处理。

--清洗空格

SELECT length(' 去空格 ')

              ,length(TRIM(' 去空格 '))       

              ,length(REPLACE(' 去空格 ',' ','')) 

              ,length(CASE WHEN ' 去空格 ' <>'去空格' THEN '去空格' END);

说明:

Trim(),通过去空格函数进行清洗

Replace(), 通过替换清洗

case when … then …end 与字典表比对进行清洗,此处的与字典表比对省略,具体根据业务需求进行。

3)非法日期清洗

创建日历表calendar,存储19000101到30001231的所有日期,通过比对判断是否为合规的日期格式。

--与字典表比对

SELECT *,CASE WHEN create_date NOT IN (SELECT c_date FROM calendar) THEN  0  ELSE 1 END status FROM T1

--剔除所有非法日期行

DELETE FROM T1 WHERE status =0;

Tip: 上文写法适合GaussDB等关系型数据库,且都是比较基础的示意说明,具体需要根据业务需要进行编写。

3、加载(Load)

在ETL过程中,加载是将转换后的数据加载到目标系统中,通常是数据仓库或数据集市。加载的主要操作包括:

  • 数据映射。将转换后的数据映射到目标系统中,包括表、字段等。
  • 数据加载。将转换后的数据加载到目标系统中,并进行数据校验、数据整合等操作。

常用SQL语句示例:

1)增量表(累加,字段、表一 一映射)

INSERT INTO target_table (column1, column2, column3) SELECT column1, column2, column3 FROM source_table;

2)全量表(全删全插,字段、表一 一映射)

--情况目标表

TRUNCATE table target_table;

--全量插入

INSERT INTO target_table (column1,column2,…) SELECT column1,column2,… FROM source_table;

3)作业重跑,清空指定分区数据,重新加载

--清理表分区的数据

--清空分区etl_date

ALTER TABLE orders TRUNCATE PARTITION etl_date;

--或者清空分区etl_date=20230911。

ALTER TABLE orders TRUNCATE PARTITION for (20230911);

--插入新数据

INSERT INTO target_table (column1,column2,…,etl_date) SELECT column1,column2,…,etl_date FROM source_table;

Tip:数据加载涉及到的算法及表设计非常复杂,例如,涉及历史拉链表(关链、开链)、全量表(全删全插)、增量表(累加)等。设计时需要从数仓/数据集市的全局架构出发,确保合理、准确、高效等。

四、附DataArts Studio介绍

华为云GaussDB相关的生态工具DataArts Studio数据治理中心是一个强大的ETL工具和技术,它可以帮助开发人员设计、编写和管理ETL脚本。以下是DataArts Studio在这些方面的主要功能和优势:

  • 可视化的ETL设计:DataArts Studio提供了一个直观的可视化界面,使开发人员能够以图形化方式设计和配置ETL流程。通过拖放组件和连接线,开发人员可以轻松定义数据提取、转换和加载的步骤,而无需编写复杂的代码。
  • 内置的数据转换和处理功能:DataArts Studio提供了丰富的内置转换和处理组件,如数据清洗、数据格式转换、数据合并、数据计算等。开发人员可以直接使用这些组件,而无需自行编写转换逻辑,从而加快开发速度并减少错误。
  • 强大的数据连接和集成能力:DataArts Studio支持与各种数据源的连接和集成,包括关系型数据库、文件系统、云存储、API接口等。开发人员可以轻松地配置数据源连接,并直接从这些数据源中提取数据。
  • 可扩展的脚本编写和管理:虽然DataArts Studio提供了可视化的ETL设计界面,但它也支持自定义脚本编写。开发人员可以使用内置的脚本编辑器编写自定义的ETL脚本,以满足特定的需求。此外,DataArts Studio还提供了ETL脚本的版本控制和管理功能,方便团队协作和脚本的维护。
  • 实时监控和调试:DataArts Studio提供了实时监控和调试功能,开发人员可以实时查看ETL流程的执行状态、数据处理的结果和错误信息。这有助于快速发现和解决问题,提高ETL脚本的质量和可靠性。

五、小结

SQL与ETL的关系在于,SQL语言通常用于ETL过程中的数据提取和转换阶段。通过使用SQL查询语句,可以从源数据库中提取所需的数据,然后使用SQL语句对数据进行必要的转换和处理,以便将其加载到目标系统。   

当然了,现在好多企业都有专门的ETL工具,但其实后台都是通过类似“PYTHON + SQL”、“PERL + SQL”等方式实现的,其重点在于ETL过程中的SQL处理。 同样,在GaussDB数据库生态中也是不可或缺的,掌握GaussDB数据库相关的SQL写法必不可少。

——结束

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1002882.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何像专业人士一样调试 Kubernetes 应用程序错误(一)

在当今迅速发展的技术景观中&#xff0c;从单体架构迁移到微服务架构正变得越来越普遍。然而&#xff0c;对于那些在这个领域经验较少的人来说&#xff0c;适应这些新资源可能会带来重大的挑战。 无论您是开发团队、DevOps、基础设施还是其他技术团队的一部分&#xff0c;本文…

万博智云加入光合组织,携手为信创发展贡献力量

日前&#xff0c;万博智云信息科技&#xff08;上海&#xff09;有限公司&#xff08;以下简称“万博智云”&#xff09;正式加入海光产业生态合作组织&#xff08;以下简称“光合组织”&#xff09;&#xff0c;并由海光产业生态合作组织颁发“海光产业生态合作组织成员单位证…

成都优优聚为什么值得信任?

成都优优聚能信任作为一家专业的电商服务公司&#xff0c;拥有丰富的经验和专业的团队&#xff0c;能够为商家提供全方位的美团代运营服务。 美团外卖作为国内领先的外卖平台&#xff0c;具有庞大的用户群体和丰富的商家资源。然而&#xff0c;美团代运营对于很多刚开始接触美团…

一文读懂高速电机主轴的技术特性及应用

在现代化的加工制造业中&#xff0c;高速电机主轴是不可或缺的重要设备&#xff0c;它的质量和性能直接影响加工效率和产品质量。本文将介绍高速电机主轴的技术特性及应用&#xff0c;更好地了解这一重要设备。 一、高速电机主轴的技术特性 1.高稳定性 高速电机主轴采用特殊…

长胜证券:融券打新虽失宠 券源分配仍需透明

近期&#xff0c;关于战略投资者出借限售股作为融券券源的准则备受商场热议。不少投资者担心&#xff0c;跟着新股的大都券源被量化私募掌握&#xff0c;量化私募融券打新的战略有或许成为新股上市首日上涨后回身跌跌不休的首要原因。 券源分配是否有失公允&#xff1f;融券打…

高精度(加减乘除)

高精度算法出现的原因 当参与运算的数的范围大大的超出了标准数据类型&#xff0c;如int&#xff08;-2147483648 ~ 2147483647&#xff09;或者long long的范围&#xff0c;就需要使用高精度算法来进行数的运算。高精度运算的特点是代码长度比较长&#xff0c;本质是对数学运算…

使用Python编写高效程序

在当今竞争激烈的互联网时代&#xff0c;搜索引擎优化&#xff08;SEO&#xff09;成为了各类网站提升曝光度和流量的关键策略。而要在SEO领域中脱颖而出&#xff0c;掌握高效的网络抓取程序编写技巧是至关重要的。本文将分享一些宝贵的知识和技巧&#xff0c;帮助你使用Python…

2023年9月制造业NPDP产品经理国际认证报名来这错不了

产品经理国际资格认证NPDP是新产品开发方面的认证&#xff0c;集理论、方法与实践为一体的全方位的知识体系&#xff0c;为公司组织层级进行规划、决策、执行提供良好的方法体系支撑。 【认证机构】 产品开发与管理协会&#xff08;PDMA&#xff09;成立于1979年&#xff0c;是…

【ES6知识】简介、语法变化、解构赋值

文章目录 一、概述1.1 ECMAScript 简介1.2 ECMAScript 背景1.3 ECMAScript 的历史1.4 ES6 的目标与愿景1.5 学习路线图1.6 环境搭建 二、语法变化2.1 let 与 const2.2 解构赋值2.3 Symbol 一、概述 1.1 ECMAScript 简介 ES6&#xff0c; 全称 ECMAScript 6.0 &#xff0c;是 …

高性能MySQL实战(二):索引 | 京东物流技术团队

我们在上篇 高性能MySQL实战&#xff08;一&#xff09;&#xff1a;表结构 中已经建立好了表结构&#xff0c;这篇我们则是针对已有的表结构和搜索条件为表创建索引。 1. 根据搜索条件创建索引 我们还是先将表结构的初始化 SQL 拿过来&#xff1a; CREATE TABLE service_lo…

成功解决怎么使用Arthas定位CPU突然飙高的问题

1.Arthas的下载地址 https://alibaba.github.io/arthas/arthas-boot.jar 2.启动Arthas&#xff08;提前下载放到环境上&#xff09; java -jar arthas-boot.jar 3.dashboard 命令查看线程&#xff0c;CPU情况 可以看到发现确实有几个线程CPU占用过高 4.thread命令查看最繁…

K8S基础概念

1、Node Node作为集群中的工作节点&#xff0c;运行真正的应用程序&#xff0c;在Node上Kubernetes管理的最小运行单元是Pod。Node上运行着Kubernetes的Kubelet、kube-proxy服务进程&#xff0c;这些服务进程负责Pod的创建、启动、监控、重启、销毁、以及实现软件模式的负载均…

边缘计算技术

边缘计算是指在靠近数据源头的网络边缘侧&#xff0c;融合网络、计算、存储、应用核心能力的分布式开放平台&#xff0c;就近提供边缘智能服务&#xff0c;满足行业数字化在敏捷连接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。它可以作为连接物理和数字…

count(*) 和 count(1) 有什么区别?哪个性能最好?

哪种 count 性能最好&#xff1f; count() 是什么&#xff1f; count() 是一个聚合函数&#xff0c;函数的参数不仅可以是字段名&#xff0c;也可以是其他任意表达式&#xff0c;该函数的作用是统计符合查询条件的记录中&#xff0c;函数指定的参数不为 NULL 的记录由多少条。…

淘宝api:本地图片上传至淘宝 获取url(联合拍立淘接口)

upload_img-上传图片到淘宝 请求参数 请求参数&#xff1a;imgcodehttps://img14.360buyimg.com/n0/jfs/t1/52280/38/7464/140698/5d511f6bE08290bd7/f0bb32ddb47451e8.jpg 参数说明&#xff1a;imgcode:base64加密后的图片内容(post方式),或者是直接上传(file方式) 响应参数…

无涯教程-JavaScript - NPV函数

描述 NPV函数通过使用折现率以及一系列未来付款(负值)和收入(正值)来计算投资的净现值。 语法 NPV (rate,value1,[value2],...)争论 Argument描述Required/OptionalRateThe rate of discount over the length of one period.RequiredValue11 to 254 arguments representing…

SQL数据分析实战:从导入到高级查询的完整指南

&#x1f482; 个人网站:【工具大全】【游戏大全】【神级源码资源网】&#x1f91f; 前端学习课程&#xff1a;&#x1f449;【28个案例趣学前端】【400个JS面试题】&#x1f485; 寻找学习交流、摸鱼划水的小伙伴&#xff0c;请点击【摸鱼学习交流群】 当进行SQL数据分析实战时…

2023年上半年系统规划与管理师下午真题及答案解析

试题一(25分) 小李是跨国公司新任命的IT服务经理&#xff0c;帮助提升中国区总部的IT服务管理水平。中国区总部的运维管理体系运营了近三年&#xff0c;内外部环境发生了很多变化&#xff0c;其中&#xff1a; (1)内部变化包括团队组织结构调整、部分团队精简改为外包支持、I…

LeetCode_拓扑排序_BFS_中等_1462.课程表 IV

目录 1.题目2.思路3.代码实现&#xff08;Java&#xff09; 1.题目 你总共需要上 numCourses 门课&#xff0c;课程编号依次为 0 到 numCourses - 1 。你会得到一个数组 prerequisite &#xff0c;其中 prerequisites[i] [ai, bi] 表示如果你想选 bi 课程&#xff0c;你必须先…

解决Spring Boot文件上传问题:`MultipartException` 和 `FileUploadException`

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f405;&#x1f43e;猫头虎建议程序员必备技术栈一览表&#x1f4d6;&#xff1a; &#x1f6e0;️ 全栈技术 Full Stack: &#x1f4da…