SQL进阶技巧:Order by 中 NULLS LAST特性使用?

news2024/10/10 7:40:18

目录

1 需求描述

2  数据准备

3 问题分析

4 小结

如果觉得本文对你有帮助,想进一步学习SQL语言这门艺术的,那么不妨也可以选择去看看我的博客专栏 ,部分内容如下:

数字化建设通关指南

专栏 原价99,现在活动价59.9,按照阶梯式增长,直到恢复原价。


1 需求描述

需求:表如下

以上数据中,goods_type列,假设26代表是广告,现在有个需求,想获取每个用户每次搜索下非广告类型的商品位置自然排序,如果下效果:

2  数据准备

create table goods as
    (select stack(
                    8,
                    1, 'hadoop', 10, 1,
                    1, 'hive', 12, 2,
                    1, 'sqoop', 26, 3,
                    1, 'hbase', 10, 4,
                    1, 'spark', 13, 5,
                    1, 'flink', 26, 6,
                    1, 'kafka', 14, 7,
                    1, 'oozie', 10, 8
            ) as (user_id, goods_name, goods_type, rk));

3 问题分析

在数据分析和处理的过程中,我们经常会遇到包含NULL值的数据。在Hive中,NULL值的处理需要特别的注意,因为它们可能会影响查询的结果,甚至导致分析结果的不准确。本文通过案例将指导你如何在Hive中高效处理NULL值问题,确保数据分析的准确性和可靠性。

Hive中NULL值处理

理解NULL值: 在Hive中,NULL表示缺失的或未知的值。它与空字符串或零值不同,因此在进行数据处理时需要特别注意。

检测NULL值: 使用IS NULLIS NOT NULL操作符可以帮助你检测字段中的NULL值。例如:

SELECT * FROM table_name WHERE column_name IS NULL;

避免NULL值影响聚合: 在使用聚合函数(如SUMAVG等)时,NULL值通常会被忽略。但如果你想要将NULL值考虑在内,可以使用COALESCENVL函数来为NULL值指定一个默认值。

使用COALESCE和NVL函数: 这两个函数可以帮助你将NULL值转换为一个具体的值。例如,你可以将所有的NULL值转换为0或一个空字符串,这样就可以在计算中包含这些值。

处理JOIN中的NULL值: 当使用JOIN语句时,如果JOIN的列中存在NULL值,可能会导致某些行不出现在结果集中。为了解决这个问题,你可以使用外连接(LEFT OUTER JOIN、RIGHT OUTER JOIN、FULL OUTER JOIN)来保证这些行的出现。

NULL值与ORDER BY: order by 时,desc NULL 值排在首位,ASC时NULL值排在末尾 可以通过NULLS LAST、NULLS FIRST 控制

创建表时处理NULL值: 在创建表时,可以为表中的列指定默认值。这样,当插入缺失值时,Hive会自动使用默认值代替NULL。

NULL值与Lateral view outer:Lateral view outer,当table function不输出任何一行时,对应的输入行在Lateral view结果中依然保留,且所有table function输出列为null。Lateral View Outer 是Hive 中的一个特性,用于处理table function的结果。当table function没有输出时,使用OUTER关键字可以确保原始行仍保留在结果集中,用NULL填充table function的输出列。

Hive 高版本中order by时,也可以像oracle那样指定NULLS LAST、NULLS FIRST 控制。

验证:

create table test_null_last(
	id int comment '学生id',
	name string comment '学生姓名'
) comment '学生信息表';

insert into table test_null_last
(id,name) values
(1, "xiaoming"),
(2, "xiaohei"),
(3, "xiaohong"),
(4, "xiaobai"),
(5, "xiaolv"),
(null, "aaaaa");

order by id 正序排序

select id,
       name,
       row_number() over ( order by id ) as rk
from test_null_last;

此时NULL值排在首位,如果希望正序排序,且NULL值排在最后,可以通过指定NULLS LAST来控制。

select id,
       name,
       row_number() over ( order by id NULLS last ) as rk
from test_null_last;

可以看到此时id按照正序排序时,NULL值排在最后。

通过上面的铺垫,我们给出本题SQL如下:

select user_id,
       goods_name,
       goods_type,
       rk,
       case
           when goods_type <> 26 then
               row_number() over (partition by user_id order by case when goods_type <> 26 then rk end nulls last)
           end as rk2
from goods t
order by rk;

上述SQL解释:

此处要注意在Hive中,先执行的是窗口函数,然后才是case when 语句,这一点一定要注意,否则容易理解错。因此上述SQL先对 goods_type <> 26 时rk进行正序排序,等于26的为NULL被放在最后,然后执行case when 语句,goods_type <> 26时取上述排好的顺序,等于26的置为NULL,这样得到最终的结果。

如果hive中或其他数据库不支持NULLS LAST特性的,我们也可以采用动态分组的方法达到类似效果,具体SQL如下:

select user_id
     , goods_name
     , goods_type
     , rk
     , case
           when goods_type != 26 then
               row_number() over (partition by if(goods_type != 26, user_id, rand()) order by rk) end naturl_rank
from goods
order by rk

此时采用一分为二的思想将NULL单独分组排序,最终通过CASE WHEN的形式将获得结果置为NULL。

另外也可以采用UNION ALL的解法,但此时需要扫描表2次,性能较差,不是最好的解法

 SQL如下:

select user_id
     , goods_name
     , goods_type
     , rk
     , row_number() over (partition by user_id order by rk) as naturl_rank
from goods
where goods_type != 26
union all
select user_id
     , goods_name
     , goods_type
     , rk
     , null as naturl_rank
from goods
where goods_type = 26

4 小结

本文通过案例分析了SQL中Order by语句后NULLS LAST特性的使用方法及技巧,NULL值在排序时往往给问题带来了不便及困扰,但可以通过NULLS FIRST 及NULLS LAST来控制,给问题的解决带来了方便。同时此题需要注意case when等条件语句then 中 使用分析函数时,先执行的是分析函数,最后执行case when语句,与我们通常理解的顺序不一样。

如果觉得本文对你有帮助,想进一步学习SQL语言这门艺术的,那么不妨也可以选择去看看我的博客专栏 ,部分内容如下:
数字化建设通关指南
专栏 原价99,现在活动价59.9,按照阶梯式增长,直到恢复原价。

专栏主要内容:
(1)SQL进阶实战技巧
可以参考如下教程,具体链接如下

SQL很简单,可你却写不好?也许这才是SQL最好的教程

上面链接中的文章及技巧会不定期更新。

(2)数仓建模实战技巧和个人心得
       1)新人入职新公司后应如何快速了解业务?

       2)以业务视角看宽表化建设?

       3)  维度建模 or 关系型建模?

       4)业务模型与数据模型有什么区别?业务阶段的模型该如何建设?

       5)业务指标体系该如何建设?指标体系该如何维护?指标平台应如何建设?指标体系                           该由谁来搭建?

       6)如何优雅设计DWS层?DWS层模型好坏该如何评价?

       7)指标发生异常,该如何排查?应从哪些方面入手寻找问题点?

       8) 数据架构的选择,mpp or hadoop?

       9)数仓团队应如何体现自己的业务价值,讲好数据故事?

       10)BI与大数据有什么关系?BI与信息化、数字化之间有什么关系?BI与报表之间的关                          系?

       11)数据部门如何与业务部门沟通,并规划指引业务需求?

文章不限于以上内容,有新的想法也会及时更新到该专栏。

具体专栏链接如下: 

 ​​​​​​数字化建设通关指南_莫叫石榴姐的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2201455.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

k8s的安装和部署

配置三台主机&#xff0c;分别禁用各个主机上的swap&#xff0c;并配置解析 systemctl mask swap.target swapoff -a vim /etc/fstab配置这三个主机上的主机以及harbor仓库的主机 所有主机设置docker的资源管理模式为system [rootk8s-master ~]# vim /etc/docker/daemon.json…

k8s、prometheus、grafana数据采集和展示的链路流程

k8s集群中&#xff0c;容器级别的数据采集是由cAdvisor程序实现 cAdvisor # Container Advisor 容器顾问 cAdvisor程序是kubelet组件的一部分。 每个节点&#xff0c;包括master节点&#xff0c;都有一个kubelet系统服务&#xff0c; kukelet负责管理pod和容…

PCB在导出gerber文件时过孔盖油设置方法

目前主要使用两个电路设计软件&#xff0c;一个是Altium Designer 15.0版本&#xff0c;一个是cadence17.2版本。在设计完PCB以后需要导出加工文件发给PCB加工厂进行制板打样&#xff0c;其中需要注意的一点是过孔盖油设置。有的制板厂在提交工艺要求时写上过孔盖油即可&#x…

学习Ultralytics(data)(1)

今天我们来学习一下data文件夹下面的代码 首先有个_init_文件&#xff0c;典型的 Python 包中的 __init__.py 文件&#xff0c;用于导出 Ultralytics YOLO 项目中的一些重要类和函数。它将 base.py, build.py, 和 dataset.py 文件中的内容导入并暴露给外部使用。 看看里面有什…

息肉检测数据集 yolov5 yolov8适用于目标检测训练已经调整为yolo格式可直接训练yolo网络

息肉检测数据集 yolov5 yolov8 适用于目标检测训练 已经调整为yolo格式 可直接训练yolo网络 息肉检测数据集介绍 数据集概述 名称&#xff1a;息肉检测数据集&#xff08;基于某公开的分割数据集调整&#xff09;用途&#xff1a;适用于目标检测任务&#xff0c;特别是内窥镜…

【C/C++】错题记录(七)

题目一 题目二 C在调用函数时&#xff0c;当实参和形参的数据类型不一致时&#xff0c;会发生数据类型转换&#xff01;将低精度转换为高精度时&#xff0c;由编译器隐式完成&#xff1b;将高精度转换为低精度时&#xff0c;必须用强制类型转换运算符&#xff1b; static_cast…

Redis-缓存过期淘汰策略

缓存淘汰策略 生产上redis内存设置为多少 设置为最大内存的 3/4 redis 会占用物理机多少内存 默认大小是 0&#xff0c;64 位系统下表示不限制内存大小&#xff0c;32位系统表示 3G 如何设置修改redis内存大小 config get maxmemory 查看修改方式 配置文件 单位是字节 2.…

读数据工程之道:设计和构建健壮的数据系统04数据工程生命周期(下)

1. 获取 1.1. 在了解数据源、所用源系统的特征以及数据的存储方式之后&#xff0c;你需要收集数据 1.2. 数据工程生命周期的下一阶段是从源系统中获取数据 1.2.1. 源系统和获取代表了数据工程生命周期中最重要的瓶颈 1.2.2. 源系统通常不在你的直接控制范围内&#xff0c;可…

性能测试工具locust —— Python脚本参数化!

1.1.登录用户参数化 在测试过程中&#xff0c;经常会涉及到需要用不同的用户登录操作&#xff0c;可以采用队列的方式&#xff0c;对登录的用户进行参数化。如果数据要保证不重复&#xff0c;则取完不再放回&#xff1b;如可以重复&#xff0c;则取出后再返回队列。 def lo…

算法修炼之路之位运算

目录 一:位运算符及一些常用结论总结 1.给一个数n&#xff0c;确定它的二进制表示中的第x位是0还是1(位数从右向左0开始增加) 2.将一个数n的二进制表示形式的第x位修改成1 3.将一个数n的二进制表示的第x位修改为0 4.提取一个数n的二进制表示中最右侧的1 5.干掉一个数n的…

使用Android studio进行Unit Test中遇到的问题记录

1、模块本身代码运行不起来 提示&#xff1a; Cannot resolve method ‘getVolumes’ in ‘StorageManager’ Cannot resolve method ‘registerListener’ in ‘StorageManager’ Cannot resolve method ‘unregisterListener’ in ‘StorageManager’ 查看Android 源码&…

p20 docker自己commit一个镜像 p21 容器数据卷 p22mysql同步数据(国内镜像被封锁暂时往后放)p23具名挂载和匿名挂载

如何自己commit一个镜像 这里还是先引用一下老师的笔记 关于如何自己commit一个镜像这个问题目前因为从仓库中拉下来的Tomcat里面是没有项目的&#xff0c;所以把webapps.dist里面的拷贝到webapps里面去作为自己的镜像在commit一下 这里用Tomcat举例子首先把镜像拉取下来执…

C语言 | Leetcode C语言题解之第468题验证IP地址

题目&#xff1a; 题解&#xff1a; char * validIPAddress(char * queryIP) {int len strlen(queryIP);if (strchr(queryIP, .)) {// IPv4int last -1;for (int i 0; i < 4; i) {int cur -1;if (i 3) {cur len;} else {char * p strchr(queryIP last 1, .);if (p…

读懂RAG理论到实践

目录 LLM面临的问题RAG数据准备阶段检索生成阶段 RAG实战数据准备阶段数据提取数据清洗补充&#xff1a;去除停用词 分块&#xff08;Chunking&#xff09;分块的方法固定大小分块Sentence splitting&#xff08;句分割&#xff09;递归分割 补充&#xff1a;特殊分块 向量化&a…

Java项目实战II基于Java+Spring Boot+MySQL的作业管理系统设计与实现(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 在教育信息…

Spring Boot学习资源库:微服务架构的加速器

3 系统分析 3.1可行性分析 在进行可行性分析时&#xff0c;我们通常根据软件工程里方法&#xff0c;通过四个方面来进行分析&#xff0c;分别是技术、经济、操作和法律可行性。因此&#xff0c;在基于对目标系统的基本调查和研究后&#xff0c;对提出的基本方案进行可行性分析。…

网站集群批量管理-Ansible(playbook)

1.剧本概述 1. playbook 文件,用于长久保存并且实现批量管理,维护,部署的文件. 类似于脚本存放命令和变量 2. 剧本yaml格式,yaml格式的文件:空格,冒号 2. 区别 ans-playbookans ad-hoc共同点批量管理,使用模块批量管理,使用模块区别重复调用不是很方便,不容易重复场景部署服务…

视频流媒体解决方案,Liveweb国标GB28181视频监控汇聚平台

Liveweb视频监控国标平台指的是基于GB/T 28181协议的视频联网平台&#xff0c;可以对接各种符合国标GB/T 28181协议的视频平台、NVR录像机、网络监控摄像头、执法记录仪、应急布控球、移动单兵、无人机等设备。通过国标平台的联网&#xff0c;方便管理分布在不同地点的视频监控…

股指期货和股指期权有什么区别?

在金融衍生品的世界里&#xff0c;股权类衍生品无疑是其中的佼佼者&#xff0c;而股指期货和股指期权更是其中的佼佼者。尽管它们之间有着千丝万缕的联系&#xff0c;但它们之间的区别同样不容忽视。本文衍生股指君将详细解析股指期货和股指期权的核心区别。 一、交易的东西不…

【安装JDK和Android SDK】

安装JDK和Android SDK 1 前言2 下载2.1 下载途径2.2 JDK下载和安装2.2.1 下载2.2.2 安装并配置环境变量2.2.3 验证 2.3 SDK下载和安装2.3.1 下载2.3.2 安装2.3.3 环境变量配置2.3.4 验证 1 前言 在软件开发中&#xff0c;Android应用开发通常使用Android Studio&#xff0c;但…