功能升级,数据同步更便捷!场景化数据同步助您提效60%!

news2024/11/18 21:47:57

在企业数仓建设初期,为了保障数字化转型的落地效果,需要提供充足的数据资源,除了基础的数据抽取、转换和加载等过程,数据的同步也是重要环节之一。数据同步常用于数仓ODS、ADS层的建设,通过不同数据源的同步,保障数据的及时性和准确性,从而满足不同业务部门和用户的需求。
在过去,企业在处理数据同步时,常常需要SQL编码辅助完成,随着业务发展,企业的数据量飞速增长,传统的编码方式也逐渐显露弊端:

▶ 无法精准匹配:通过编写SQL进行同步策略,难以与场景实现精准匹配;
▶ 操作门槛高:涉及到前置SQL、后置SQL等代码过程,需要配备专业的技术开发人员;
▶ 开发周期长:如有多个任务,需一个个单独配置,耗时较长,效率低。

针对以上痛点,Tempo 数据工厂新推出【场景化数据同步】功能,根据业务需求及数据特征,提取关键场景,通过点选方式,快速匹配不同的集成场景。

场景化数据同步

该功能将常用数据集成业务场景进行抽取,包含周期增量、一次全量周期增量、周期全量三种同步策略,可快速完成数据集成任务配置。
01、周期增量
周期增量通常指的是在数据集成过程中,从源系统中提取数据到目标系统中的增量数据量。数据集成是将来自不同数据源的数据整合到一个统一的目标系统中的过程,以实现数据的统一管理和共享。
以T企业为例,由于企业内部数据存量较大,每次全量读取数据都需要很长时间才能完成迁移工作,于是T企业采用增量的方式,按照一定的调度频率读取周期内的新增数据,迁移到数据仓库中。
场景化数据同步

读取到来源端的增量数据后,可以采用不同的策略,写入到目标库中。根据不同的业务需求,Tempo数据工厂可提供以下两种策略:
▶先删后增:清理当期数据,插入增量数据
▶更新:唯一键相同更新,新增插入
数据同步

02、一次全量周期增量
一次全量周期增量是指在数据集成过程中,进行一次全量数据抽取后的下一个周期内的增量数据量。全量数据抽取是指将源系统中的所有数据都抽取到目标系统中,以确保目标系统中的数据与源系统中的数据完全一致。
T企业内部有一定的历史存量数据,每天也会产生新的数据,建设数仓时采用一次全量周期增量的模式,先把历史存量数据全部抽取到目标端,之后每次都只取增量数据。

数据同步

读取到来源端的数据后,可以采用不同的策略,写入到目标库中。根据不同的业务需求,Tempo 数据工厂平台提供以下两种策略:
▶先删后增:清理当期数据,插入增量数据
▶更新:唯一键相同更新,新增插入
数据同步

03、周期全量
周期全量是指在一定的时间周期内,将所有的数据源进行全量的数据抽取和集成。这意味着每个周期都会将所有的数据源中的数据全部抽取出来,并进行整合和合并,以保证数据的完整性和一致性。
T企业的历史数据存量小,数据中没有日期时间字段帮助获取增量数据,因此采用全量方式进行数据抽取。
数据抽取

读取到来源端的增量数据后,可以采用不同的策略,写入到目标库中。根据不同的业务需求,Tempo 数据工厂提供以下三种策略:
▶先删后增:清理当期数据,插入增量数据
▶缓存表:缓存输出数据,交换加载目标数据
▶备份表:目标表数据,对历史数据进行备份
数据同步

*缓存表:当目标端数据一直被应用时(如被BI看板引用时),目标表不能为空,则需要将包含新增或修改的全量数进行缓存,再将缓存表和目标表重命名替换。
*备份表:当历史数据需要备份时,先按照版本写入目标数据,再次进行写入时将清理数据过期版本数据。

另外,在实际数仓建设过程中,会面临多系统多表的集成工作,为了提高集成效率,Tempo数据工厂新增支持【批量数据同步】任务配置,可快速将来源端的多张表批量迁移至目标数据源。
数据同步

功能亮点
▶ 更匹配业务场景
对同步场景进行细化,便于运维人员、实施人员、客户方更好理解,更好进行业务匹配。
▶ 降低操作门槛
将编写SQL方式修改为点选方式,无需技术人员上手,业务人员也能快速完成数据集成任务配置。
▶ 大幅提升效率
将编码方式改为点选方式,预计提高效率60%,大幅缩减了配置时间。
▶ 支持批量操作
可批量进行任务配置,提高集成效率。

数字化转型过程中,数据是核心。作为支撑数据分析的强大底座,Tempo DF的每一次的功能上新,都以给用户提供更加敏捷、高效、智能的解决方案为目标,为企业的数字化转型提供更多助力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/756391.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

回归预测 | MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入单输出回归预测

回归预测 | MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入单输出回归预测 目录 回归预测 | MATLAB实现基于BiGRU-AdaBoost双向门控循环单元结合AdaBoost多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现基于B…

Michael.W基于Foundry精读Openzeppelin第8期——Context.sol

Michael.W基于Foundry精读Openzeppelin第8期——Context.sol 0. 版本0.1 Context.sol 1. 目标合约2. 代码精读2.1 _msgSender()2.2 _msgSender() 0. 版本 [openzeppelin]:v4.8.3,[forge-std]:v1.5.6 0.1 Context.sol Github: https://gith…

MIT 6.S081 Lab 11 -- NetWork - 下

MIT 6.S081 Lab 11 -- NetWork -- 下 引言代码解析网络子系统初始化相关数据结构lab 分析e1000_transmit函数实现e1000_recv函数实现socket write全流程分析socket read全流程分析socket关闭ARP数据报的发送与接收 引言 本文为 MIT 6.S081 2020 操作系统 实验十一解析。 MIT …

HCIA-datacom认证最新资料共享

hcia认证有哪些值得推荐的学习方向? 入门首选学习方向:HCIA:Datacom!但是HCIA云计算(Cloud Computing)方向、HCIA 无线(WLAN)方向、HCIA Data Center Facility方向、HCIA 安全(Secur…

TTX1995可调谐激光器控制软件系统

画了两周时间,利用下班时间,设计了一个ITLA可调谐激光器控制软件,从硬件到软件。 这是使用的界面,实现了下面的功能: 1、模块信息的读取,包括生产日期,生产厂家,型号,序…

产品流程图

流程图设计 1.什么是流程图2.流程图元素定义3.几种常见的产品流程图 3.1业务流程图 | 泳道图(给产品经理看)3.2任务流程图(给程序员看)3.3页面流程图(给UI设计人员看) 4.如何绘制流程图 4.1调查研究4.2梳理…

笔试题之地区经济数据分析

数据分析通常应用于商业领域,但对于政府、非盈利组织等机构而言,在考量城市发展、监控环境质量等方面,也会涉及到数据分析。这时,就需要我们根据实际场景,结合数据分析的理论知识,发现其中的规律&#xff0…

Tensorflow入门(2)——深度学习框架Tesnsflow 线程+队列+IO操作 文件读取案例

目录 一、二、Tesnsflow入门 & 环境配置 & 认识Tensorflow三、线程与队列与IO操作1.队列实例:完成一个出队列、1、入队列操作(同步操作) 2.队列管理器 创建线程3.线程协调器 管理线程案例:通过队列管理器来实现变量加1,入队&#xff…

强化学习:实现了基于蒙特卡洛树和策略价值网络的深度强化学习五子棋(含码源)

【强化学习原理项目专栏】必看系列:单智能体、多智能体算法原理项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现 专栏详细介绍:【强化学习原理项目专栏】必看系列:单智能体、多智能体算法原理项目实战、相关技巧…

好用的门店信息管理系统推荐?门店信息系统系统应该注重什么?

传统门店的信息管理模式总是会存在人工成本高,效率低,流程麻烦、数据复盘繁琐等问题。围绕门店信息管理过程中面临的各类痛点,蚓链数字化门店信息管理系统可以帮助门店更好的管理门店经营,货品盘点,库存管理&#xff0…

「XKOI」Round 3 赛后题解

比赛链接:「XKOI」Round 3 本题解同步发表于 洛谷:传送门 CSDN:传送门 文章目录 比赛链接:[「XKOI」Round 3](https://www.luogu.com.cn/contest/117863)A [T343985 CRH的工作](https://www.luogu.com.cn/problem/T343985)1.1 …

CRC算法并行运算Verilog实现

因为CRC循环冗余校验码的算法和硬件电路结构比较简单,所以CRC是一种在工程中常用的数据校验方法。尽管CRC简单,但在工程应用中还是有些问题会对工程师产生困惑。这篇文章将介绍一下CRC,希望对大家有所帮助。 一、CRC算法介绍 CRC校验原理看起…

PPO(Proximal Policy Optimization Algorithms)论文解读及实现

论文标题:Proximal Policy Optimization Algorithms 核心思路:使用off policy 代替on policy,用一个策略网络来产生数据,用一个策略网络来更新参数,分别为policy_old和policy 0 摘要 Whereas standard policy gradient methods …

Python自动化办公:pptx篇

文章目录 简介能做什么PPT要素介绍官方demo高阶引申参考文献 202201笔记迁移 简介 python-pptx包是用来自动化处理ppt的。 使用的第一步是安装 pip install python-pptx相比python-docx,python-pptx的使用更为麻烦一些,原因有很多,比如说&…

波奇学Linux:make和Makefile

make和Makefile自动化构建并能决定源文件调用顺序,同时不必再写gcc命令 第一行依赖关系,第二行是tab键开头,是依赖方法 依赖关系:目标文件:依赖文件。 依赖方法:目标文件和依赖文件间的关系。 如果只有一条…

es下载历史的tar文件

第一步进入官网找到历史版本 第二步复制历史版本名称组合成下面的链接 直接get访问下载。如下链接所示只需要修改7.3.0这个版本号 https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.0-linux-x86_64.tar.gz

ChatGLM使用记录

ChatGLM ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存&#xff0…

opencv实战--角度测量和二维码条形码识别

文章目录 前言一、鼠标点击的角度测量二、二维码条形码识别 前言 一、鼠标点击的角度测量 首先导入一个带有角度的照片 然后下面的代码注册了一个鼠标按下的回调函数, 还有一个点的数列,鼠标事件为按下的时候就记录点,并画出点,…

uniapp微信小程序上传体积压缩包过大分包操作和上传时遇到代码质量未通过问题

1:首先我们得从项目最初阶段就得考虑项目是否要进行分包操作,如果得分包,我们应该创建一个与pages同级的文件夹,命名可以随意 2:第二部我们将需要分包的文件和页面放到分包文件夹里面subpage,这里我们得注意&#xff…

Python基础语法第三章之顺序循环条件

目录 一、顺序语句 二、条件语句 2.1什么是条件语句 2.2语法格式 2.2.1 if 2.2.2if - else 2.2.3if - elif - else 2.3缩进和代码块 2.4闰年的判断练习 2.5空语句 pass 三、循环语句 3.1while 循环 3.1.1代码示例练习 3.2 for 循环 ​3.3 continue 3.4 break 一…