hive里如何高效生成唯一ID

news2025/1/20 3:53:38

常见的方式:

 hive里最常用的方式生成唯一id,就是直接使用 row_number() 来进行,这个对于小数据量是ok的,但是当数据量大的时候会导致,数据倾斜,因为最后生成全局唯一id的时候,这个任务是放在一个reduce里进行的,数据量过大会有很大的瓶颈。

优化的方式:

主体的思想就是先分再合,参考下一个思路:

这个思路是借鉴了一篇文章的思路:附上链接:bitmap用户分群方法在贝壳DMP的实践和应用_架构_侯学博_InfoQ精选文章

我是只想用sql来做具体的实现,如何实现最好呢?

1:将数据打散,分为N份

2:在这N份里,先分别给一个行号使用row_number()

3: 统计出来每份里有多少条数据

4: 计算出来每个分片里最大的行号是多少

5:然后将对应的每份里的数据条数+每份里的2步骤生成的行号

with temp01 as (
    select
        iccid,
        imsi,
        cast(rand() * 200 as bigint) num
    from
        原始表
    where
        date_id = '20231123';

)
select
    a.iccid,
    a.imsi,
    a.num as a_num,
    a.rn,
    b.num as b_num,
    b.cnt,
    b.amt,
    nvl(b.amt, 0) + rn as final_num
from
    (
        select
            iccid,
            imsi,
            num,
            ROW_NUMBER() OVER(PARTITION BY num) AS rn
        from
            temp01
    ) a
    left outer JOIN (
        select
            num,
            cnt,
            sum(cnt) over(
                order by
                    num
            ) amt
        from
            (
                select
                    num,
                    count(*) cnt
                from
                    temp01
                group by
                    num
            ) a
    ) b on a.num -1 = b.num;

配上完整的sql实现逻辑:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1269191.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 进程(二)

1.当前工作目录 Linux 下使用 ls /proc 查看程序中的进程,其中这些蓝色的数字代表的就是进程。 其中cwd(current working directory)就是当前工作目录,那么为什么cwd 和 exe 是在同一级目录下呢因为 进程需要依赖可执行程序,可执行程序需要依…

局部内部类(内部类) - Java

局部内部类 说明:局部内部类是定义在外部类的局部位置,比如方法中,并且有类名。 LocalInnerClass.java 非常重要的几点!! 局部内部类本质还是一个类,该有的属性方法也都可以有。【举例a.见下文】可以直接…

KT1404C语音芯片为什么用着用着,声音就变大了,发指令设置音量?

一、问题简介 有客户反馈,使用KT404C语音芯片,每次主板上电的时候,都会发指令将音量设置为20级,但是实际到使用现场,就会有终端的客人反馈,机器的音量变大了,这个是什么情况呢,该如…

微服务API网关Spring Cloud Gateway实战

概述 微服务网关是为了给不同的微服务提供统一的前置功能;网关服务可以配置集群,以承载更多的流量;负载均衡与网关互相成就,一般使用负载均衡(例如 nginx)作为总入口,然后将流量分发到多个网关…

远程办公和密码管理的好伴侣

在当今快速变化的商业环境中,远程办公已经不再是一种简单的应急措施,而是被视为企业长期发展的关键战略之一。 随着科技的不断进步和全球化的推动,远程办公为企业提供了更大的灵活性和适应性,使得员工能够更好地平衡工作和生活。这…

ardupilot开发 --- ROS 篇

0. 前言 关于机载计算机; 关于ROS; 关于基于ROS的视觉SLAM和避障; 1. APSync 说到机载计算机Companion computer就不得不提另一个关键词APSync;APSync简化了机载计算机的设置,以便它可以为ArduPilot提供额外的功能,…

Debian arm系统安装wxPython

一、系统版本 二、安装wxPython-4.0.4.tar.gz 1、下载依赖 >sudo apt update >sudo apt-get install build-essential libgtk-3-dev libwebkit2gtk-4.0-dev libssl-dev libcurl4-openssl-dev libgstreamer-plugins-base1.0-dev libnotify-dev freeglut3 freeglut3-dev …

Python爬虫遇到重定向URL问题时如何解决?

什么是重定向 重定向是指当用户请求一个URL时,服务器返回一个中断请求的URL的响应。这种情况通常发生在网站对URL进行了修改或者重定向到其他页面的情况下。其中,如果处理不当开发,可能会导致爬虫无法获取所需的数据,从而影响爬虫…

激光切割机切割工件出现锯齿是什么原因?

金属激光切割机因切割速度快,效率高,切割效果好受到广大金属加工需求的厂家追捧,但在使用时不免出现一些小问题,如:在激光切割加工的时候出现锯齿的问题。 编辑搜图 请点击输入图片描述(最多18字&#xff…

传感器:探索Android中的传感器功能与使用

传感器:探索Android中的传感器功能与使用 一、传感器介绍1.1 Android 平台三大类传感器1.2 Android 平台支持的传感器1.3 传感器框架 二、传感器的使用2.1 识别传感器和传感器特性2.2 针对不同制造商的传感器或传感器的不同版本优化2.3 监控传感器事件2.4 处理不同的…

Docker中Alpine容器中配置MariaDB

1.更新镜像源 apk update2.安装 Mysql apk add --no-cache mysql mysql-client # 安装命令也可使用 apk add mariadb mariadb-client,alpine 中 mysql 就是 mariadb3. 安装openrc openrc是Alpine服务控制器,负责Alpine服务启动,添加、删除…

Linux 基本语句_13_消息队列

概念: 不同进程能通过消息队列来进行通信,不同进程也能获取或发送特定类型的消息,即选择性的收发消息。 一般一个程序采取子进程发消息,父进程收消息的模式 常用函数功能: fork(); // 创建子进程 struct msgbuf{ …

探索测试开发工程师的通往成功的秘密路径!

「作者说」随着近几年国内IT行业高速发展,对测试工程师的要求也越来越高,其作用也越来越重要,但很多测试工程师也迎来了个人发展的瓶颈,下一步该向哪个方向发展,该如何发展?本文将概述测试工程师的现状及发…

图片伪装,将RAR文件隐藏到图片里

下载链接 效果图: 代码: ECHO OFF TITLE PtoR MODE con COLS55 LINES25 color 0A:main cls echo.当前时间:%date% %time% echo.欢迎使用图片伪装,本脚本可以将RAR文件隐藏到图片里. echo.set /p "imagefile①请拖入图像文件…

Condition原码分析及实现原理

一、引言 Java作为一种广泛应用于企业级开发的编程语言,其内部机制和特性被许多开发者所关注。本文将深入分析Java Condition原码,以及Condition接口的实现原理,为大家提供一个更深入的了解。 二、Condition概述 Condition是Java并发编程中一…

tcp/ip协议 error=10022 Winsock.reg Winsock2.reg

tcp/ip协议 error10022 这2个注册表选项千万不能删除,否则上不了网。 按下windows键R键,输入regedit,打开注册表,在文件目录里找到如下两个文件夹,删除这两个文件夹。 路径:HKEY_LOCAL_MACHINE\System\C…

Python---练习:求某同学成绩的总分及平均分

需求: 已知某同学的语文(70)、数学(90) 、英语(80)、历史(75)、地理(85)五门课的成绩,编程求该同学的总分以及平均分。 思考: 要求是算总分和平均分,先看总分,已经知道了各科成绩,那么可以用把成绩赋值给每个学科的…

JVM——内存溢出和内存泄漏

目录 1. 内存溢出和内存泄漏内存泄漏的常见场景解决内存溢出的思路1.发现问题 – Top命令2.发现问题 – VisualVM3.发现问题 – Arthas4.发现问题 – Prometheus Grafana5.发现问题 – 堆内存状况的对比![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/058d113715b…

手机厂商集体入局大模型:谁在抢占「新高地」?

手机这个赛道,已然迎来了新的排位赛。大模型这条路上固然走的艰难,但也必须迎头赶上。大模型背后,手机厂商锚定的更是下一个入口战。 作者|斗斗 编辑|皮爷 出品|产业家 手机厂商们开始在大模型领域“卷”起来了。 今年8月,小米…

“Install Js dependencies failed“JS SDK安装失败【Bug已解决-鸿蒙开发】

文章目录 项目场景:问题描述原因分析:解决方案:解决措施1解决方案2:其他解决方案解决方案3:此Bug解决方案总结项目场景: 在下载JS SDK时,出现下载失败的情况,并显示“Install Js dependencies failed”。 在使用版本为DevEco Studio 3.0.0.601 Beta1进行低代码开发时…