同步、异步ETL架构的比较

news2025/1/23 20:09:47

背景介绍:

数据的抽取,转换和加载 (ETL, Extract, Transform, Load) 是构建数据仓库过程中最复杂也是至 关重要的一个步骤,我们通常用两种办法来处理 ETL 流程:

一种是异步(Asynchronous) ETL 方式, 也称为文本文件(Flat file)方式

另外一种是同步(Synchronous) ETL 方式,也称为直接传输 (Direct transfer) 方式。根据项目的各自特点,合理选择恰当的数据抽取流程,确定抽取过程中的监督核 查机制,对于 DW 项目的成功可以起到事半功倍的作用。在第一种模式中,数据被从源数据库 抽取到文本文件中,通过网络传输被传送到目标服务器,然后再装载到目标数据库中。对于后一 种模式,顾名思义,数据抽取过程是直接从源到目标的,没有通过中间路径或者手段。在数据仓 库工程的开发中,这两种体系架构被普遍采用,不能绝对地评价哪一种模式好,哪一种模式坏。 运用之妙,存乎一心,完全根据系统架构师或高级开发人员根据项目特点(如数据库分布,网络 连接……) 灵活实施,随机应变。

 本文目的是比较两种体系架构各自的不同点和优缺点,并基于本文的假设条件,分析两种体系架 构各自的特点和适用范围。本文共分为以下几个部分:

 系统结构图比较

 假设条件

 特点比较

 各自适用的环境

系统结构图比较

 假设条件

依循数据仓库的工作方式,原始资料由源数据库被抽取出来后,将在中间过程被写入

到”Operational Data Store”(ODS)ODS 是被设计用来存储中间数据和核查校验数据的。通 过 ODS,数据将被萃取、预先被计算及整理,而后被导入数据仓库作进一步的报表生成与分析。 所以通常意义的 ETL 过程涵盖了两个方面的内容:1. 从源数据库到中间步骤的 ODS; 2. 从 ODS 到最终的数据仓库。本文所讨论的数据装载过程包括如下的假设条件:

 数据的抽取过程可以是数据的完全(refresh)抽取或者是增量(incremental)抽取完全 抽取指数据从其源系统中完整的抽取;然后,由转换及加载步骤决定需要哪些数据。 增量抽取仅抽取那些自上次抽取以来发生变化、插入或删除的数据。这样往往就会为转 换和加载步骤单独提供所需的数据。

目标数据库存放数据的时间区间比源数据库长。例如源数据库存放的是 3 个月的交易生 产数据ODS 存放了 1 年左右的数据,而数据仓库存放了 3-5 年的历史数据

源数据的记录中应该有特定的时间戳字段来表明数据是何时更新的。这样在 ETL 抽取过 程中就可以根据装载的需要凭借使用时间参数来选择所需要的数据。与之相对应,目标 数据库也应该保留说明数据是何时插入或者更新的字段。一来是为了维护的需要,同时 今天的目标可能是明天的源,保留这些字段可以具有很大的灵活性。例如企业如果有基 于数据仓库基础上的数据集市系统的应用,需要抽取数据仓库的数据作为数据集市的输 入,这些字段就可以作为用来比较的参数值使用。

许多数据库系统保留了历史记录变动的详细情况。例如对于同一客户记录来说,由于其 居住城市或者地址的变动,记录的内容也会发生相应变动,就会产生许多历史记录,有 些应用需要系统保留这些历史记录以便于回溯(Keep Track)。本文假定目标数据库 只需要抽取最近更新的一条数据,对于历史的陈旧数据,可以置之不理。

两种体系结构的特点比较

 

 

各自适用的环境

最后,通过表 2 我们可以清楚地了解两种不同的数据 ETL 模式所各自适用的环境。 这可以帮助 开发者面对具体的开发背景确定更加合适的模式。

Table 2 compares the strong point and weak point of the two architectures.

表 2. 列出了两种不同体系结构的各自优缺点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/397027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为云平台架构名词解释

名词解释 网络设备 ISW(外网接入交换机):出口交换机,常用于和外网建立静态/BGP路由互联 CSW (内网接入交换机):专线接入(用户内网骨干)交换机,用户自有网络…

一场以数字技术深度影响和改造传统实业的新风口,正在开启

当数字经济的浪潮开始上演,一场以数字技术深度影响和改造传统实业的新风口,正在开启。对于诸多在互联网时代看似业已走入死胡同的物种来讲,可以说是打开了新的天窗。对于金融科技来讲,同样如此。以往,谈及金融科技&…

蓝桥杯-左移右移(2022国赛)

蓝桥杯-左移右移1、问题描述2、解题思路与代码实现2.1 方法一:使用LinkedList双向链表实现(50%)2.2 方法二:使用HashMap左右临界值实现(100%)1、问题描述 小蓝有一个长度为 N 的数组, 初始时从左到右依次是 1,2,3,…N 。 之后小蓝对这个数组进行了 M 次操…

TX2配置RealSense D455相机SDK和ros驱动

TX2配置RealSense D455相机SDK和ros驱动1 SDK安装2 RealSense-ros安装3 bug及解决3.1 realsense-viewer显示usb2.13.2 Could not found ddynamic_reconfigure折腾了两天终于把realsense的驱动装好了,尝试了命令安装,源码安装,前前后后搞了三遍…

12.并发编程

1.并发并发:逻辑流在时间时重叠构造并发程序:进程:每个逻辑控制流是一个进程,由内核调度和维护进程有独立的虚拟地址空间,想要通信,控制流必须使用某种显式的进程间通信机制(IPC)I/O多路复用:程…

Linux - 第6节 - 动态库和静态库

1.静态库与动态库概念 静态库(.a):程序在编译链接的时候把库的代码拷贝到可执行文件中。程序运行的时候将不再需要静态库。动态库(.so):程序在运行的时候才去链接动态库的代码,多个程序共享使用…

【javaEE初阶】第三节.多线程 (进阶篇 ) 死锁

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、"死锁"出现的典型场景二、产生 "死锁" 的必要条件 三、解决 "死锁" 问题的办法 总结前言 今天对于多线程进阶的学习&#…

【MapGIS精品教程】007:MapGIS投影变换案例教程

MapGIS投影变换,包括创建坐标系、定义投影、单点投影、类投影、批量投影。 文章目录 一、创建坐标系1. 创建高斯平面坐标系2. 创建阿尔伯斯投影二、定义投影三、投影变换1. 单点投影2. 类投影3. 批量投影一、创建坐标系 在MagGIS数据库中,有个空间参考系的文件夹,内置了常见…

【tensorflow onnx】TensorFlow2导出ONNX及模型可视化教程

文章目录1 背景介绍2 实验环境3 tf2onnx工具介绍4 代码实操4.1 TensorFlow2与ONNX模型导出4.2 ONNX正确性验证4.3 TensorFlow2与ONNX的一致性检查4.4 多输入的情况4.5 设定输入/输出节点5 ONNX模型可视化6 ir_version和opset_version修改7 ONNX输入输出维度修改8 致谢原文来自于…

【教学典型案例】18.开门小例子理解面向对象

目录一:背景介绍业务场景:业务分析:二:实现思路1、面向过程:2、面向对象(抽象、封装、继承、多态)3、面向对象(抽象、封装、继承、多态、反射)三:实现过程1、…

如何在 Istio 中使用 SkyWalking 进行分布式追踪

在云原生应用中,一次请求往往需要经过一系列的 API 或后台服务处理才能完成,这些服务有些是并行的,有些是串行的,而且位于不同的平台或节点。那么如何确定一次调用的经过的服务路径和节点以帮助我们进行问题排查?这时候…

二极管损坏的原因有哪些?

大家好,我是记得诚。 最近项目上肖特基二极管出问题了,概率性损坏,二极管本来是一个很简单的器件,这次重新整理一下,供大家参考。 二极管损坏,个人总结有如下几种情况。 1、过压 在Ta=25℃下,超过二极管的最大反向电压VR,二极管可能会被击穿,导致损坏。 2、过流 …

SpringBoot的基本概念和使用

文章目录一、什么是SpringBoot二、Spring Boot优点三、Spring Boot项目创建四、Spring Boot 配置文件1. yml语法2.properties与yml关系3.多系统的配置五、Spring Boot日志文件1.日志对象2.日志级别日志级别的设置System.out.println VS 日志的两个致命缺点3.日志持久化4.更简单…

[ 常用工具篇 ] windows安装phpStudy_v8.1_X64

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

如何实现大文件断点续传、秒传

大家先来了解一下几个概念: 「文件分块」:将大文件拆分成小文件,将小文件上传\下载,最后再将小文件组装成大文件; 「断点续传」:在文件分块的基础上,将每个小文件采用单独的线程进行上传\下载&…

CobaltStrike密码爆破、伪造上线以及DDos——csIntruder

Git仓库: https://github.com/ljy1058318852/csIntruder0x01 概述 本项目包含CobaltStrike密码爆破、伪造上线以及DDos功能。其中伪造上线支持常见魔改版CS。 This project includes CobaltStrike password blasting, fake online and DDos functions. Among them…

云计算创新展望-精耕细作的超级云计算平台

前言在当今云计算深入各行业、计算量暴增现状之下,云计算生态迎来百花齐放。但用户不希望将所有鸡蛋放在一个篮子里面,因此每个企业都在发展自己的私有云、公有云等多云、混合云结构。因云计算的高灵活性、可扩展性、高性价比,在本地10台服务…

ubuntu的快速安装与配置

文章目录前言一、快速安装二 、基础配置1 Sudo免密码2 ubuntu20.04 pip更新源3 安装和配置oneapi(infort/mpi/mkl) apt下载第一次下载的要建立apt源apt下载(infort/mpi/mkl)4 安装一些依赖库等5 卸载WSLpython总结前言 win11系统 ubuntu20.04 提示:以下…

【力扣-10天SQL入门】5~8天刷题 知识点总结

https://leetcode.cn/study-plan/sql/?progressjgmzq5s第5天 合并175. 组合两个表就是一个简单的left join1581. 进店却未进行过交易的顾客Q:两个表Visits(有visit_id和customer_id两列)和Transactions(有transaction_id、visit_…

Go垃圾回收原理

术语介绍 赋值器:说白了就是你写的程序代码,在程序的执行过程中,可能会改变对象的引用关系,或者创建新的引用。 回收器:垃圾回收器的责任就是去干掉那些程序中不再被引用得对象。 STW:全称是stop the word,GC期间某个阶段会停止…