二百三十八、Hive——Hive中为每条数据创建唯一ID

news2024/11/15 5:32:17

一、目的

由于Kafka的JSON中缺少唯一的ID标识字段,因此发现后面的需求中DWD层表需要有一个唯一ID字段,这样才能与数据质量表更好的关联

二、Hive版本

尚硅谷的3.1.2版本

三、Hive创建唯一ID方法

网上的创建唯一ID方法有很多,这里展示一些,当然我并没有全部测试过

3.1 使用Hive的内置函数

Hive本身并没有直接为每条数据生成唯一ID的内置函数,但你可以结合使用Hive的内置函数和表的元数据来实现。例如,如果你有一个带有时间戳的列,你可以使用from_unixtime(unix_timestamp())函数结合其他列的值来生成一个相对唯一的值。但是,请注意这种方法并不保证全局唯一性。

3.2 使用Hive的Row_Number()窗口函数

如果你的数据已经按照某种顺序排序(例如,按照时间戳),你可以使用ROW_NUMBER()窗口函数为每条数据分配一个唯一的行号。但是,这要求你的数据在排序后保持不变,并且不适用于分布式环境中的并发写入。

3.3 使用Hive的UUID()函数(如果可用)

某些版本的Hive或Hive的某些扩展可能提供了生成UUID的函数。UUID是全局唯一标识符,通常用于在分布式系统中为实体分配唯一的ID。但是,请注意不是所有的Hive发行版都支持这个函数。

第一个测试的就是UUID()函数,发现Hive3.1.2这个版本支持这个函数,因此就使用这种方法,简单有效!

select
UUID() as id,
device_no, source_device_type, sn, model, create_time, lane_num, lane_no, lane_type, queue_count, queue_len, queue_head, queue_tail, day
from hurys_dc_dwd.dwd_queue_error
;

3.4 使用自定义UDF

如果你需要更复杂的逻辑来生成唯一ID,或者Hive的内置函数无法满足你的需求,你可以编写一个自定义的UDF。这个UDF可以在Java、Scala或其他支持的语言中编写,并在Hive中注册和使用。UDF可以访问输入行的所有列,并基于这些列的值生成唯一的ID。

有朋友说可以通过雪花算法,这种就是自定义UDF,还要写Java代码

3.5 在数据写入之前生成ID

如果你是在将数据写入Hive之前(例如在ETL过程中)生成ID,那么你可以使用任何你喜欢的方法来生成这些ID,只要它们在你的数据集中是唯一的。然后,你可以将这些ID作为数据的一部分写入Hive表。

3.6 使用外部系统

对于需要高度可靠和全局唯一的ID的场景,你可能需要考虑使用外部系统(如ZooKeeper、Kafka等)来生成这些ID。这些系统通常提供了用于生成唯一ID的API或功能。然后,你可以将这些ID作为数据的一部分写入Hive表。

这些就是在Hive中创建唯一ID的方法,如果是支持UUID()函数的话,那这种方法最简单有效!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1701196.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

子网划分,交换机原理与配置

子网划分 IP地址 IPv4由32位二进制数组成,一般用点分十进制来表示 IPv4是由32位二进制数组成,分成四组,第组八位。例如:11000000.10101000.00000000.00000010 为了便于配置通常表示成点分十进制形式例如:192.168.0.2 255.255.255.0 IPv6由128位组成&…

HDR视频相关标准-HDR vivid(二)

上文介绍了HDRvivid的一些技术。今天从全局角度来看看HDR视频的处理流程,HDR视频系统,即建立一个比SDR视频更大的色彩/亮度坐标体系,并改变系统的传输函数,以再现更大的色域(WCG)和更高的亮度动态范围。 菁彩 HDR技术的专业术语 …

充电宝哪个牌子好用?充电宝品牌怎么选?充电宝最好的牌子排名

现在市面上的充电宝品牌琳琅满目,但并不是所有的充电宝都安全可靠。据央视的一个报道,市面上有35%充电宝质量是不过关的!充电宝买不对就非常容易出现爆炸的一个情况,所以大家对选充电宝不仅能保障设备的安全。那么,充电宝哪个牌子…

TypeScript学习日志-第三十二天(infer关键字)

infer关键字 一、作用与使用 infer 的作用就是推导泛型参数,infer 声明只能出现在 extends 子语句中,使用如下: 可以看出 已经推导出类型是 User 了 二、协变 infer 的 协变会返回联合类型,如图: 三、逆变 infer…

FusionCharts 隐藏试用图标

1、找到fusioncharts.js文件 2、搜索“raphael-group-” 3、找到此处进行替换黄线部分 将:"a.setAttribute("class","raphael-group-"t)" 替换成"(a.setAttribute("class","raphael-group-"t),a.setAttr…

基于 Wireshark 分析 TCP 协议

一、TCP 协议 TCP(Transmission Control Protocol)是一种面向连接的、可靠的传输层协议。它在网络通信中扮演着重要的角色,用于保证数据的可靠传输。 TCP协议的特点如下: 1. 面向连接:在通信前需要先建立连接&#x…

学习Uni-app开发小程序Day26

这一章学习的内容细节较多,主要是分为:首次加载减少网络消耗、获取图片的详细信息、图片的评分和避免重复评分、将图片下载到本地并且获取设备的授权 加载图片减少网络消耗 这里突出这个功能,是根据老师视频上的描述,个人觉得很…

如何彻底搞懂组合(Composite)设计模式?

当我们在设计系统对象关系时,有时候会碰到这样一种场景,一个对象中包含了另一组对象,两者构成一种”部分-整体”的关联关系。 正如上图中所展示的,当我们面对这样一种对象关系时,通常都需要分别构建单独的访问方式&…

11.Redis之zset类型

1.zset类型基本介绍 有序描述的是:升序/降序 Set 集合 1.唯一 2. 无序 孙行者,行者孙, 者行孙 >同一只猴~~ List有序的 孙行者,行者孙, 者行孙 >不同的猴~~ zset 中的 member 仍然要求是唯一的!!(score 则可以重复) 排序的规则是啥? 给 zset 中的 member 同…

太狠了,凌晨5点面试。。

(关注数据结构和算法,了解更多新知识) 网上看到一网友发文说收到面试邀请,面试时间竟然是早晨5点,这是要猝死的节奏。有的网友说应该是下午 5 点,如果是下午 5 点直接写下午 5 点就行了,或者写 17 点也行,直…

中医理疗元宇宙 科技赋能中医药产业走向国际市场

基于380亿参数量,对中医药海量文本进行数据训练,实现方剂优化、机制阐释和新适应症的精准发现……日前在天津召开的数智赋能大健康产业新质生产力暨第四届中医药国际发展大会上,由天士力医药集团与华为云共同开发的“数智本草”中医药大模型正…

【再探】设计模式—职责链模式、命令模式及迭代器模式

行为型设计模式研究系统在运行时对象之间的交互,进一步明确对象的职责。有职责链模式、命令模式、解释器模式、迭代器模式、中介者模式、备忘录模式、观察者模式、状态模式、策略模式、模板方法模式及访问模式共11种。 1 职责链模式 需求:1) 请求能被多…

自动驾驶中的“ImageNet”?CVPR2024新作OccFeat:BEV 自监督预训练

论文标题: OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks 论文作者: Sophia Sirko-Galouchenko, Alexandre Boulch, Spyros Gidaris, Andrei Bursuc, Antonin Vobecky, Patrick Prez, Renaud Ma…

Nginx实战(安装部署、常用命令、反向代理、负载均衡、动静分离)

文章目录 1. nginx安装部署1.1 windows安装包1.2 linux-源码编译1.3 linux-docker安装 2. nginx介绍2.1 简介2.2 常用命令2.3 nginx运行原理2.3.1 mater和worker2.3.3 Nginx 的工作原理 2.4 nginx的基本配置文件2.4.1 location指令说明 3. nginx案例3.1 nginx-反向代理案例013.…

紧固件松动的危害及原因——SunTorque智能扭矩系统

智能扭矩系统-智能拧紧系统-扭矩自动控制系统-SunTorque 紧固件松动,这一看似微小的机械问题,实际上可能引发一系列严重的后果。在机械设备中,紧固件扮演着至关重要的角色,它们通过紧固作用将各个部件紧密连接在一起,…

招聘视角,看数据产品经理求职面试技巧

近几年负责数据产品团队,经历团队人员的变迁,进行过几百简历的筛选,近百场社招、校招面试。金三银四的求职/招聘季接近尾声,想把自己招聘数据产品经理的过程进行总结,分享给想找数据产品经理工作的求职者。 一、数据产…

【C语言】数据指针地址的取值、赋值、自增操作避坑

【C语言】数据指针的取值、赋值、自增操作避坑 文章目录 指针地址指针自增指针取值、赋值附录:压缩字符串、大小端格式转换压缩字符串浮点数压缩Packed-ASCII字符串 大小端转换什么是大端和小端数据传输中的大小端总结大小端转换函数 指针地址 请看下列代码&#…

css3实现0.5px边框

效果图 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>css3实现0.5px边框</title><s…

HotSpot虚拟机的几个实现细节

文章目录 STW安全点安全区域记忆集与卡表读写屏障 STW 收集器在根节点枚举这步都是必须要暂停用户线程的&#xff08; STW &#xff09;&#xff0c;如果不这样的话在根节点枚举的过程中由于引用关系在不断变化&#xff0c;分析的结果就不准确 安全点 收集器在工作的时候某些…

如何设置XHSC(华大)单片机的IO口中断

XHSC(华大)单片机IO口中断使用 一、代码说明 华大单片机的历程在华大或者小华的官网上都可以下载到,但是我们下载的历程基本注释都是非常简单,有的还没有注释;再加上小华跟华大的历程在代码架构上有所区别,所以新手在直接调用华大或者小华历程后,历程代码的可读性并不…