离线数据仓库-关于增量和全量

news2025/2/25 14:35:06

数据同步策略

  • 数据仓库同步策略概述
  • 一、数据的全量同步
  • 二、数据的增量同步
  • 三、数据同步策略的选择

数据仓库同步策略概述

应用系统所产生的业务数据是数据仓库的重要数据来源,我们需要每日定时从业务数据库中抽取数据,传输到数据仓库中,之后再对数据进行分析统计。

为了方便上层指标的统计,数据的同步策略有全量同步增量同步
同步方式是针对对应的表而言的!

为什么要做数据同步?
数据仓库的目的是对历史数据做分析,业务数据库不能很好的存储大量的历史数据,并且在根据业务数据进行分析时,业务数据不能很好的承受分析带来的性能消耗,因此我们需要将数据同步到数据仓库中,使用数据仓库作为指标分析的数据源。

一、数据的全量同步

全量同步,就是每天都将业务数据库中的全部数据同步一份到数据仓库,这是保证两侧数据同步的最简单的方式。

以下是2022-06-08到2022-06-10的数仓和业务数据库的全量同步过程简介:

假设2022-06-08是数仓创建的首日,那么数仓需要把业务数据库中的所有数据进行一次全量同步,保证从这天开始,两侧的数据是一致的。
在这里插入图片描述
2022-06-09的数据同步如下图,同步的3条数据中,前2条属于前一日的数据,即新增的数据只有一条,这种同步方式存在着大量的冗余
在这里插入图片描述
在这里插入图片描述

优点缺点
操作逻辑简单在某些情况下效率较低。例如某张表数据量较大,但是每天数据的变化比例很低,若对其采用每日全量同步,则会重复同步和存储大量相同的数据。

二、数据的增量同步

增量同步,就是每天只将业务数据中的新增及变化数据同步到数据仓库。采用每日增量同步的表,通常需要在首日先进行一次全量同步

以下是2022-06-08到2022-06-10的数仓和业务数据库的增量同步过程简介:

假设2022-06-08是数仓创建的首日,那么数仓需要把业务数据库中的所有数据进行一次全量同步,保证从这天开始,两侧的数据是一致的。
在这里插入图片描述
从2022-06-09开始,增量同步的表只同步对应日期的新增和变更数据,利用分区表将不同日期的新增变化数据存储到对应的位置。
在这里插入图片描述
在这里插入图片描述

优点缺点
效率高,无需同步和存储重复数据逻辑复杂,需要将每日的新增及变化数据同原来的数据进行整合,才能使用,但在一些指标下尤为好用。

三、数据同步策略的选择

通常情况,业务表数据量比较大,优先考虑增量,数据量比较小,优先考虑全量;

关于一张业务表是需要使用全量同步还是增量同步,通常可以根据上层的指标进行抉择,某些指标,例如每日新增指标,对增量同步的表而已,解决这个指标比使用全量同步来得更容易;

一张表的同步策略不一定非全量即增量

一张业务表的数据量很大,并且变化程度高,每日的变化量占全表的70%,那么增量和全量所同步的数据量相差不多。

一张表的数据同步方式的可以根据数据量大小和数据变化量进行抉择。

数据仓库的构建目的上是为了指标的产出,所以同步方式原则上应该是为了方便上层指标的产出而进行选择,具体情况具体分析,具体选择由数仓模型决定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1391316.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

探索Redis特殊数据结构:Bitmaps(位图)在实际中的应用

一、概述 Redis官方提供了多种数据类型,除了常见的String、Hash、List、Set、zSet之外,还包括Stream、Geospatial、Bitmaps、Bitfields、Probabilistic(HyperLogLog、Bloom filter、Cuckoo filter、t-digest、Top-K、Count-min sketch、Confi…

一文掌握SpringBoot注解之@Async知识文集(1)

🏆作者简介,普修罗双战士,一直追求不断学习和成长,在技术的道路上持续探索和实践。 🏆多年互联网行业从业经验,历任核心研发工程师,项目技术负责人。 🎉欢迎 👍点赞✍评论…

手把手教你搭建一个数据可视化看板

前言 俗话说的好,“字不如表,表不如图”、“有图有真相,一图胜千言”。 数据可视化就是用图的形式把基础数据直观,简洁的,高效的展示出来,今天为大家介绍一下如何使用葡萄城公司的嵌入式BI工具——Wyn商业…

Unity3d C#实现场景编辑/运行模式下3D模型XYZ轴混合一键排序功能(含源码工程)

前言 在部分场景搭建中需要整齐摆放一些物品(如仓库中的货堆、货架等),因为有交互的操作在单个模型上,每次总是手动拖动模型操作起来也是繁琐和劳累。 在这背景下,我编写了一个在运行或者编辑状态下都可以进行一键排序…

Day12 C基础(指针进阶)

文章目录 指针修饰1.const 修饰2.void 大小端二级指针指针和数组1.指针和一维数组直接访问:间接访问: 2.指针和二维数组直接访问:间接访问: 数组指针 指针修饰 1.const 修饰 1)const int num 10; const int num 10;num 3; i…

【面试合集】说说微信小程序的实现原理?

面试官:说说微信小程序的实现原理? 一、背景 网页开发,渲染线程和脚本是互斥的,这也是为什么长时间的脚本运行可能会导致页面失去响应的原因,本质就是我们常说的 JS 是单线程的 而在小程序中,选择了 H…

Mac系统下,保姆级Jenkins自动化部署Android

一、Jenkins自动化部署 1、安装jenkins 官网:macOS Installers for Jenkins LTS 选择macOS brew install jenkins-lts 安装最新: brew install jenkins-lts 启动jenkins服务: brew services start jenkins-lts 重启jenkins服务: brew services restart jenkin…

YOLOv5改进系列(27)——添加SCConv注意力卷积(CVPR 2023|即插即用的高效卷积模块)

【YOLOv5改进系列】前期回顾: YOLOv5改进系列(0)——重要性能指标与训练结果评价及分析 YOLOv5改进系列(1)——添加SE注意力机制 YOLOv5改进系列(2)——添加CBAM注意力机制 YOLOv5改进系列&…

Netty-Netty源码分析

Netty线程模型图 Netty线程模型源码剖析图 Netty高并发高性能架构设计精髓 主从Reactor线程模型NIO多路复用非阻塞无锁串行化设计思想支持高性能序列化协议零拷贝(直接内存的使用)ByteBuf内存池设计灵活的TCP参数配置能力并发优化 无锁串行化设计思想 在大多数场景下&#…

如何用GPT进行论文润色与改写?

详情点击链接:如何用GPT/GPT4进行论文润色与改写?一OpenAI 1.最新大模型GPT-4 Turbo 2.最新发布的高级数据分析,AI画图,图像识别,文档API 3.GPT Store 4.从0到1创建自己的GPT应用 5. 模型Gemini以及大模型Claude2二…

1.16 day3 IO网络编程

用udp实现tftp下载功能 #include <myhead.h> #define PORT 69 #define IP "192.168.122.24" int xiazai(int sfd,struct sockaddr_in sin,int fd,socklen_t socklen) {char buf[516]"";char ack[4];short *p1(short *)buf;*p1htons(1);char *p2buf2…

数字化转型:为何失败率居高不下,以及如何避免重蹈覆辙

在当今快速发展的数字化时代&#xff0c;许多企业纷纷投身于数字化转型的浪潮中&#xff0c;以期通过技术革新提升竞争力、优化运营、提高效率。然而&#xff0c;尽管数字化转型的潜在益处巨大&#xff0c;但失败率却居高不下&#xff0c;甚至导致企业陷入困境。 本文将深入探讨…

Git版本控制——分支

分支 几乎所有的版本控制系统都以某种形式支持分支。 使用分支意味着可以把工作从开发主线上分离开来进行重大的Bug修改、开发新的功能&#xff0c;以免影响开发主线。 查看本地分支 git branch创建本地分支 git branch 分支名切换分支(checkout) git checkout 分支名创建…

jenkins url发生改变如何修改回来

问题&#xff1a; 我的jenkins服务器部署完后&#xff0c;此时url就已经固定了如下&#xff1a; 但是我更换了公网IP&#xff0c;url地址还是旧的&#xff0c;现在就需要修改一下配置文件&#xff1b; 修改配置文件 ($JENKINS_HOME/jenkins.model.JenkinsLocationConfiguratio…

java日志框架总结

一、日志框架简单分类介绍 java常用的日志框架、可以分为两组&#xff1a; 1、JCL、JUL、Log4j&#xff1b; 2、SLF4J、Log4j2、Logback&#xff1b; 其中第一组是比较早期的日志实现框架&#xff0c;JCL并不是具体的日志实现框架&#xff0c;JCL其实是定义了一…

SparkSQL——Dataset

Dataset Dataset 是什么&#xff1f; Testdef dataset1():Unit {// 1. 创建 SparkSessionval spark new SparkSession.Builder().master("local[6]").appName("dataset1").getOrCreate()// 2. 导入隐式转换import spark.implicits._// 3. 演示val sourceR…

单元测试之Stub和Mock

实例 Analyze类会检查filename的长度&#xff0c;如果小于8&#xff0c;我们就会使用一个实现IWebService的类来记录错误. 我们需要给Analyze方法写单元测试。 public class LogAnalyzer {private IWebService service;private IEmailService email;public IWebService Serv…

小程序基础学习(登录)(重点核心)

首先&#xff0c;获取用户获取code&#xff0c;然后带着code向服务器发送请求&#xff0c;并把返回的token存入缓存中 然后&#xff0c;判断token是否过期如果过期则要重新登录 页面代码 <!--pages/me/me.wxml--> <navigation-bar title"牧原" back"{…

计算机网络 网络安全

网络安全 网络安全问题概述 计算机网络面临的女全性威胁 计算机网络的通信而临两大类威胁&#xff0c;即被动攻击和主动攻击 被动攻击是指攻击者从网络上窃听他人的通信内容。通常把这类攻击称为截获。在被动攻击中&#xff0c;攻击者只是观察和分析某一个协议数据单元 PDU…

Unity解决Udp客户端无法接收数据的问题

Unity解决Udp客户端无法接收数据的问题 在我之前做过的项目中&#xff0c;其中不少涉及Udp客户端的项目。在这些项目中&#xff0c;一般只需要实现客户端向服务器端发送数据的功能就可以了&#xff0c;一般都不用接收服务器端发送的数据&#xff0c;但是也有同学使用了我分享的…