今天又get到一个小技能,collect_set函数

news2024/11/28 8:44:20

collect_set函数

今天又get到一个小技能,掌握了hive一个关于列转行专用函数 collect_set函数。

在这里做个学习笔记。

collect_set是Hive内置的一个聚合函数, 结果返回一个消除了重复元素的对象集合, 其返回值类型是 array 。

和collect_set相似的还有另一个函数collect_list,这个我们后面再谈。

在实际应用中,我们可能会遇到需要类似这样的一个需求,就是需要查出各个品牌对应的所有分类,

品牌分类表数据结构大概是这样的:

brand_name,brand_classify

品牌1 家电

品牌1 家具

品牌1 数码

品牌2 空调

品牌2 饮水机

期望的结果是:

品牌1 家电,家具,数码

品牌2 空调,饮水机

这时候我们就可以使用collect_set函数来实现我们的需求。

select
brand_name,
concat_ws(',', collect_set(brand_classify)) as brand_classify
from tb_brand_classify
group by brand_name;

使用了collect_set函数,是不是感觉很容易就实现了需求。

下面我们来实践操作下,这样印象会更深刻些。

1.创建原始表 品牌分类表 tb_brand_classify

drop table if exists tb_brand_classify;create table if not exists tb_brand_classify (brand_name string, brand_classify string);

2.初始化数据

insert into table tb_brand_classify values('品牌1','家电');
insert into table tb_brand_classify values('品牌1','家具');
insert into table tb_brand_classify values('品牌1','数码');
insert into table tb_brand_classify values('品牌2','空调');
insert into table tb_brand_classify values('品牌2','饮水机');

3.查询表的数据

select * from tb_brand_classify

执行结果:

e8f942b433a2e75b9cd58bdb95aa1222.jpeg

4.上述的需求我就可以使用 collect_set 函数来实现, 具体sql如下:

select
brand_name,
concat_ws(',', collect_set(brand_classify)) as brand_classify
from tb_brand_classify
group by brand_name;

执行结果:

cfbe1f81d26720053042a55831f01a8a.jpeg

拓展:

还可以用下标可以取具体某一个

select
brand_name,
collect_set(brand_classify)[0]
from tb_brand_classify
group by brand_name;

执行结果:

7f92241908b4d1b15cddd4309646a404.jpeg

文章开头我们提到了collect_list函数,collect_list与collect_set最大的区别就是列的值不去重;我们把collect_set换成collect_list 执行看下。

select 
brand_name, 
concat_ws(',', collect_list(brand_classify)) 
from tb_brand_classify group by brand_name;

发现跟之前是一样的,那是因为我们的类目中没有重复,要是有重复,使用collect_list就会重复了。

需要注意的是collect_set是无序集合,如果需要排序我们可以改成collect_list或sort_array进行排序。

concat_ws(',', sort_array(collect_set(brand_classify), false))

sort_array(e: column, asc: boolean)将array中元素排序(自然排序),默认asc。

好了,今天的分享就先到这。

由于水平有限,文中纰漏之处在所难免,欢迎大家批评指正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/88274.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android12指纹调用流程介绍(一)

Android12指纹框架流程介绍(一) 前言:根据网上的相关资料,Android 12开始支持屏下指纹方案,根据自己手中的测试机, ​ 下载了android 12的源码,准备学习下新的指纹框架 注:目前笔者使用的版本是android_…

Qt扫盲-QSlider理论总结

QSlider理论总结1. 简述2. 常用功能3. 外观4. 最常用信号5. 键盘功能1. 简述 QSlider是用于控制边界值的经典小部件。它允许用户沿水平或垂直凹槽移动QSlider 的滑块,并将 滑块 的位置转换为合法范围内的整数值。但是 QSlider 仅提供整数范围。如果QSlider处理非常…

RSTP快速生成树简介、RSTP与STP的区别、RSTP BPDU字段信息、RSTP角色与端口状态介绍、RSTP工作过程之P/A机制详细分解)

2.11.0 以太网 RSTP快速生成树(简介、RSTP与STP、RSTP BPDU、RSTP端口状态、RSTP工作过程之P/A机制) RSTP快速生成树简介RSTP、STP的区别RSTP BPDU格式RSTP与STP的兼容性RSTP如何兼容STP?RSTP端口状态RSTP的5种端口角色RSTP的3种端口状态RSTP…

Windows OS中关闭445 Port

445端口是什么? 445端口是一个毁誉参半的端口,它和139端口一起是IPC$入侵的主要通道。有了它我们可以在局域网中轻松访问各种共享文件夹或共享打印机,但也正是因为有了它,黑客们才有了可乘之机,他们能通过该端口偷偷共…

Aba | 全自动biomarker分析神包!~(原作者用这个包发了三篇Nature啦~)

1写在前面 今天介绍一个Github上的神包吧, 主要是用于Biomarker的临床分析, 原作者用这个包已经发了3篇Nature了, 一起看看吧:👇 在一些针对Biomarker的临床研究中, 我们常常需对Biomarker进行模型拟合, 预测效果评估等等.🥰 这个包可以完美解决这些问题…

[附源码]Python计算机毕业设计SSM基于web的火车订票管理系统(程序+LW)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Ansible概述及命令行模块

目录 一、Ansible概述 1 Ansible是什么 2 Ansible的四个组件: 3 Ansible的特性 二、Ansible 环境安装部署 三、ansible常用的命令行模块 1 command模块 2 shell模块 3 cron模块 4 user模块 5 group模块 6 copy模块 7 file模块 8 hostname模块 9 ping模块 10 …

Web端H5播放FLV、HLS、MP4 (二)

使用video.js播放HLS、FLV、MP4。 MP4、FLV、HLS、RTMP等协协和播放器之间的支持情况,参看这里。 一、主要JS插件: jquery(v3.6.0) video.js (v7.21.0,其它版本没试) https://cdn.bootcdn.net/ajax/libs/video.js/7.21.0/video.min.js f…

基于FPGA的RGB转HSV图像算法设计

一、什么是HSV色彩空间? RGB色彩空间是基于三基色而言,即红色、绿色、蓝色。而HSV色彩空间则是基于色调、饱和度和亮度而言的。 色调(H)是指光的颜色,例如,彩虹中的赤,橙,黄&#…

如何自学黑客?自学黑客技术需要学多久?

问题一:黑客如何学起? 答:必须从学习者的角度来看,如果你是一个已经学过编程,通晓几门语言的人那么这个答案就会和一个从没有接触过的计算机,甚至连什么叫高级语言还不知道的人有所区别的对待。 这就像是登…

LeetCode題目笔记——面试题 01.01. 判定字符是否唯一

文章目录题目描述题目难度——简单方法一:使用集合代码/Python方法二——用一个数组代码/Python方法三——位运算代码/Python总结题目描述 实现一个算法,确定一个字符串 s 的所有字符是否全都不同。 示例 1: 输入: s “leetcode” 输出: …

nvm 实战过程

文章目录前情提要应用场景实战解析最后前情提要 nvm是什么: nvm 全名 node.js version management,顾名思义是一个nodejs的版本管理工具。通过它可以安装和切换不同版本的nodejs。 应用场景 在我们前端工程师的日常工作中,不免要与不同基于n…

解决JavaWeb报错:此处不允许注解

目录 前言必读 一、遇到问题 二、解决办法 前言必读 读者手册(必读)_云边的快乐猫的博客-CSDN博客 一、遇到问题 1.在使用时候会发现报错为此处不允许使用注解,其实这是粗心和不熟练使用导致的 二、解决办法 2.把WebServlet("/ddd&…

【基于多尺度的融合:IVIF】

Infrared and visible image fusion via gradientlet filter (基于梯度波滤波器的红外与可见光图像融合) 本文从亮度和梯度分离的角度出发,提出了一种基于模糊梯度阈值函数和全局优化的图像滤波器梯度小波滤波器。它可以在保持图像的整体亮…

android aidl使用demo

android使用aidl原理 参考链接: https://www.twle.cn/l/yufei/android/android-basic-service-aidl.html 通过这部分代码, 加深对Android AIDL的理解 aidl server端 ILanguage.aidl 步骤: 在main目录下创建aidl文件夹, 并创建对应的包 com.example.aidl, 然后创建ILanguage.ai…

分享5款好用但一直不火的宝藏软件

很多软件用起来很好用,但是由于这样那样的原因,一直没什么知名度,但是不代表它们不好用,我的任务就是把这些宝藏分享给大家。 1.系统字体美化——MacType MacType是一款非常著名的系统字体美化软件,相比 GDI 更加容易…

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?

背景介绍 最近的docker容器经常被kill掉,k8s中该节点的pod也被驱赶。 我有一个在主机中运行的Docker容器(也有在同一主机中运行的其他容器)。该Docker容器中的应用程序将会计算数据和流式处理,这可能会消耗大量内存。 该容器会不…

操作系统之线程和进程

文章目录一. 什么是操作系统二. 进程和线程1. 进程2. 线程3. 进程的管理3.1 PBC中的一些属性3.2 并发和并行3.3 进程的调度3.4 内存管理3.5 进程间的通信3.6 并发编程4. 进程与线程的区别一. 什么是操作系统 操作系统本质上是一个软件, 发挥的是管理作用, 可以管理软件和硬件,…

《Python多人游戏项目实战》第二节 使用pickle模块序列化数据

目录 2.1 设置游戏窗口 2.2 实现人物移动的功能 2.3 编写服务端代码 2.4 完善客户端代码 2.5 完整代码下载地址 在本节,笔者会带大家开发一个联机版的人物移动程序,示例如下: 在上一节,客户端和服务端通信的JSON数据中包含玩…

CentOS7中安装字体库中文字体

若存在中文乱码的情况,这是因为操作系统中没有安装中文字体。 安装字体库 yum install fontconfig -y 安装更新字体命令 yum install mkfontscale -y添加中文字体 # 新建目录 mkdir /usr/share/fonts/chinese # 切换到中文字体目录下,上传windows里宋…