Hive---拉链表设计与实现

news2025/1/31 3:04:08

1 数据同步问题

Hive在实际工作中主要用于构建离线数据仓库,定期的从各种数据源中同步采集数据到Hive中,经过分层转换提供数据应用。比如每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中,进行订单分析、用户分析。

 

 例如:MySQL中有一张用户表:tb_user,每个用户注册完成以后,就会在用户表中新增该用户的信息.

 

由于每天都会有用户注册,产生新的用户信息,那么每天都需要将MySQL中的用户数据同步到Hive数据仓库中.

假如在1号已经在hive中创建了表并拉取了数据,但是在2号时MySQL中新增2条用户注册数据,并且有1条用户数据发生更新.

 

 那么我们需要对2号的数据进行同步到hive中,新增的数据会直接加载到Hive表中,但是更新的数据如何存储在Hive表中?

 方案一:直接覆盖

使用2号的数据 直接将1号的数据覆盖掉
优点:实现最简单,使用起来最方便
缺点:没有历史状态 想查询008之前的数据查看不到

 方案二:根据日期构建一份全量的快照表

 1号创建一张表拉取所有数据
2号再创建一张表拉取所有数据 
... 每天都创建一张表
优点:记录了所有数据在不同时间的状态
缺点:冗余存储了很多没有发生变化的数据,导致存储的数据量过大

 方案三:构建拉链表,通过时间标记发生变化的数据的每种状态的时间周期

 

 拉链表的设计是将更新的数据进行状态记录,没有发生更新的数据不进行状态存储,用于存储所有数据在不同时间上的所有状态,通过时间进行标记每个状态的生命周期,查询时,根据需求可以获取指定时间范围状态的数据,默认用9999-12-31等最大值来表示最新状态。

2 拉链表实现原理

 

 1.增量采集变化数据,放入增量表中

 

2.将Hive中的拉链表与临时表的数据进行合并,合并结果写入临时表

3.将临时表的数据覆盖写入拉链表中

3 拉链表实现演示

 创建拉链表

-- 数据准备
vi zipper.txt
001    186xxxx1234    laoda    0    sh    2021-01-01    9999-12-31
002    186xxxx1235    laoer    1    bj    2021-01-01    9999-12-31
003    186xxxx1236    laosan    0    sz    2021-01-01    9999-12-31
004    186xxxx1237    laosi    1    gz    2021-01-01    9999-12-31
005    186xxxx1238    laowu    0    sh    2021-01-01    9999-12-31
006    186xxxx1239    laoliu    1    bj    2021-01-01    9999-12-31
007    186xxxx1240    laoqi    0    sz    2021-01-01    9999-12-31
008    186xxxx1241    laoba    1    gz    2021-01-01    9999-12-31
009    186xxxx1242    laojiu    0    sh    2021-01-01    9999-12-31
010    186xxxx1243    laoshi    1    bj    2021-01-01    9999-12-31

--创建拉链表
create table dw_zipper
(
    userid    string,
    phone     string,
    nick      string,
    gender    int,
    addr      string,
    starttime string,
    endtime   string
) row format delimited fields terminated by '\t';
load data local inpath '/root/zipper.txt' into table dw_zipper;
select * from dw_zipper;

 创建增量表

vi update.txt
008    186xxxx1241    laoba    1    sh    2021-01-02    9999-12-31
011    186xxxx1244    laoshi    1    jx    2021-01-02    9999-12-31
012    186xxxx1245    laoshi    0    zj    2021-01-02    9999-12-31

 

create table ods_update
(
    userid    string,
    phone     string,
    nick      string,
    gender    int,
    addr      string,
    starttime string,
    endtime   string
) row format delimited fields terminated by '\t';

load data local inpath '/root/update.txt' overwrite into table ods_update;

select * from ods_update;

创建临时表

create table tmp_zipper
(
    userid    string,
    phone     string,
    nick      string,
    gender    int,
    addr      string,
    starttime string,
    endtime   string
) row format delimited fields terminated by '\t';

 合并数据到临时表

insert overwrite table tmp_zipper
select
    userid,
    phone,
    nick,
    gender,
    addr,
    starttime,
    endtime
from ods_update
union all
--查询原来拉链表的所有数据,并将这次需要更新的数据的endTime更改为更新值的startTime
select
    a.userid,
    a.phone,
    a.nick,
    a.gender,
    a.addr,
    a.starttime,
    --如果这条数据没有更新或者这条数据不是要更改的数据,就保留原来的值,否则就改为新数据的开始时间-1
    if(b.userid is null or a.endtime < '9999-12-31', a.endtime , date_sub(b.starttime,1)) as endtime
from dw_zipper a  left join ods_update b
                            on a.userid = b.userid ;

覆盖拉链表数据

insert overwrite table dw_zipper
select * from tmp_zipper;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/559179.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++修炼之路】定位new(项目记录)

————————————每一个不曾起舞的日子都是对生命的辜负。 C之定位new 1. 什么是定位new2. 定位new的语法3. 具体实例 1. 什么是定位new 一般的new运算符负责在heap堆中找到一个足以能够满足要求的内存块。 而定位new&#xff08;Placement new&#xff09;是C中的一…

运行100万个并发任务,不同语言各需要多少内存

作者&#xff1a;DataStax 公司&#xff08;美国的一家数据库系统开发商&#xff09;Piotr Kołaczkowski 原文见&#xff1a; https://pkolaczk.github.io/memory-consumption-of-async/ 在这篇博客文章中&#xff0c;探讨了处理大量网络连接时候的Rust、Go、Java、C#、Pyth…

企企通“码上顺”清洗工具 | 让数据更有价值,让业务更出色

数据清理工作是企业数据管理、数据治理中的最基础的工作之一&#xff0c;不仅是一项苦活、累活&#xff0c;也是一个既考验业务又检验技术的活。 物料主数据作为企业核心的数据资产&#xff0c;在智慧供应链、业财一体化等数字化建设中发挥着重要作用。在当今高速发展的商业环…

《汇编语言》- 读书笔记 - 实验2 用机器指令和汇编指令编程

《汇编语言》- 读书笔记 - 实验2 用机器指令和汇编指令编程 1. 预备知识: Debug 的使用2 .实验任务 1. 预备知识: Debug 的使用 统一完善到&#xff1a;实验 1 查看 CPU 和内存&#xff0c;用机器指令和汇编指令编程。不在这拆开写了。 2 .实验任务 使用 Debug&#xff0c;将…

功率放大器在压电驱动器中的作用及应用

功率放大器在压电驱动器中的作用是将低功率信号放大为足够大的电力信号&#xff0c;以驱动压电陶瓷材料产生相应的机械振动。 压电陶瓷材料是一种特殊的陶瓷材料&#xff0c;能够将机械能转换为电能&#xff0c;因此被广泛应用于各种类型的振动器件和传感器中。这些器件通常需要…

Combiner

概述 Conbiner在MapReduce的Shuffle阶段起作用&#xff0c;它负责局部数据的聚合&#xff0c;我们可以看到&#xff0c;对于大数据量&#xff0c;如果没有Combiner&#xff0c;将会在磁盘上写入多个文件等待ReduceTask来拉取&#xff0c;但是如果有Combiner组件&#xff0c;我们…

5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」

By 超神经 内容一览&#xff1a;如果你正在学习如何创建或选择一个合适的数据集&#xff0c;那么这篇文章会给你一些实用的建议&#xff0c;帮助你在选择和创建数据集时做出明智的决策。 关键词&#xff1a;机器学习 数据集 本文首发自 HyperAI 超神经微信公众平台~ 作者 |…

星标3.5k,一款国产的轻量级开源在线项目任务管理工具

今天给大家推荐一个轻量级的开源在线项目任务管理工具&#xff1a;DooTask 图片 DooTask 提供各类文档协作工具、在线思维导图、在线流程图、项目管理、任务分发、即时IM&#xff0c;文件管理等工具。 高效便捷的团队沟通工具 针对项目和任务建立群组&#xff0c;工作问题可…

SRP Batcher在真机上失效

1&#xff09;SRP Batcher在真机上失效 ​2&#xff09;Shader里面对同一张纹理多次采样会影响效率吗 3&#xff09;为什么纹理开启了mipmap后&#xff0c;纹理内存反而下降了 4&#xff09;TMP为什么有多次Delegate.Combine()的GC 这是第336篇UWA技术知识分享的推送&#xff0…

如何减少电脑内存占用?

内存(Memory)是计算机一个重要的组成部件&#xff0c;也称为内存储器或主存储器。它可以暂时存放CPU中运算的数据&#xff0c;以及与硬盘等外部存储器交换的数据&#xff0c;是CPU和硬盘之间的桥梁。若电脑内存占用过高&#xff0c;这会影响到电脑运行的速度&#xff0c;那该如…

网络安全行业推荐考取的证书有哪些?

下面就让知白小编来给解读一下这个问题~作为网络安全行业从业者或者相关专业的大学生&#xff0c;如果相应的职业证书在手&#xff0c;肯定是会身价倍增。 咳咳&#xff0c;但是如果你还是网络安全小白&#xff0c;知白小编不建议你直接去考认证&#xff0c;应该是先打好基础学…

三、LLC 谐振变换器

电压增益特性分析 根据搭建的 LLC 谐振变换器主电路等效模型&#xff0c;可推导出变换器直流电压 增益为 M&#xff1a; λ 4时的增益曲线如下图所示&#xff1a; 根据变换器直流电压增益表达式&#xff0c;利用 Mathematica 绘制出λ4 时&#xff0c;变换器取不同 Q 值的直…

创建型设计模式01-简单工厂模式

✨作者&#xff1a;猫十二懿 ❤️‍&#x1f525;账号&#xff1a;CSDN 、掘金 、个人博客 、Github &#x1f389;公众号&#xff1a;猫十二懿 这里只是简单的将《大话设计模式【Java溢彩加强版】》的内容简单是复述一下&#xff0c;并加上自己的理解 简单工厂模式 1、引入问…

windows环境下sublime的nodejs插件详细安装图解

前面的话 搜索了好多文档后&#xff0c;才成功地安装了sublime text3的nodejs插件。为了存档&#xff0c;也为了方便有同样需求的朋友&#xff0c;将其安装过程详细记录如下 安装nodejs 虽然nodejs官网提供了node的msi文件&#xff0c;但本人在win7系统下多次尝试&#xff0c;…

在阿里干了6年自动化测试,30岁即将退休的我,告诉你自动化测试工程师有多吃香...

测试人员需要具备自动化测试或者测试开发能力&#xff0c;已经成为测试行业内容的一种显在趋势&#xff0c;而且这种趋势呈放大态势&#xff0c;其发展前景是十分明朗的。 2022这种疫情期间&#xff0c;就业大环境不是很理想&#xff0c;目前呢&#xff0c;企业倾向于招自动化…

Win11下Microsoft Store安装Ubuntu报错解决指南

目录 从Microsoft Store下载Ubuntu下载安装完毕后&#xff0c;打开安装时报错&#xff1a; 一. WslRegisterDistribution failed with error: 0x8007019e 二. WslRegisterDistribution failed with error: 0x800701bc 如果帮到你的话&#xff0c;麻烦点个免费的关注吧bro♥…

测试开发工程师的薪资上限究竟在哪?年薪50W都不是梦...

在说测试开发工程师的薪资待遇之前&#xff0c;咱们要先了解软件测试岗位是用来做什么的&#xff0c;岗位是否重要&#xff0c;只有你知道了这些&#xff0c;才能判断这个岗位是否有价值&#xff01;软件测试是依据需求分析和测试用例&#xff0c;运用手工和自动化的手段来验证…

市场需求升级,cv5200带来新的WiFi传输解决方案,远距离无线通信技术

近年来&#xff0c;随着无线通信技术的不断发展&#xff0c;越来越多的应用需要高速率、远距离、稳定的数据传输。 远距离WiFi传输是指通过WiFi信号实现在远距离范围内的无线通信和数据传输。 为此&#xff0c;cv5200采用了先进的技术&#xff0c;并提供了较远的传输距离、高…

高速高密PCB高级验证技巧(四): 扫除信号线的意外回音

现今电子产品复杂度越趋增加&#xff0c;信号速度越来越快&#xff0c;在信号传输的过程中&#xff0c;如果信号不断反射便会对电子产品的运作造成影响&#xff0c;而这又与阻抗连续性以及阻抗匹配息息相关&#xff1b;而如何避免信号反射&#xff0c;除了在硬件设计时的规划外…

我用过的这5款小工具,你用了其中几款?

有时候一些小工具&#xff0c;能给你带来一些意想不到的效果&#xff0c;我们来看看下面这5款工具&#xff0c;你又用过其中几款呢&#xff1f; 1.文件差异比较工具——WinMerge WinMerge是一款文件和文件夹比较工具,它可以查看文件和文件夹之间的差异,并进行合并。这个工具有…