今天又get到一个小技能，collect

今天又get到一个小技能，collect_set函数

news2026/2/12 1:43:55

collect_set函数

今天又get到一个小技能，掌握了hive一个关于列转行专用函数 collect_set函数。

在这里做个学习笔记。

collect_set是Hive内置的一个聚合函数, 结果返回一个消除了重复元素的对象集合, 其返回值类型是 array 。

和collect_set相似的还有另一个函数collect_list，这个我们后面再谈。

在实际应用中，我们可能会遇到需要类似这样的一个需求，就是需要查出各个品牌对应的所有分类，

品牌分类表数据结构大概是这样的：

brand_name,brand_classify

品牌1 家电

品牌1 家具

品牌1 数码

品牌2 空调

品牌2 饮水机

期望的结果是:

品牌1 家电,家具,数码

品牌2 空调,饮水机

这时候我们就可以使用collect_set函数来实现我们的需求。

select
brand_name,
concat_ws(',', collect_set(brand_classify)) as brand_classify
from tb_brand_classify
group by brand_name;

使用了collect_set函数，是不是感觉很容易就实现了需求。

下面我们来实践操作下，这样印象会更深刻些。

1.创建原始表品牌分类表 tb_brand_classify

drop table if exists tb_brand_classify;create table if not exists tb_brand_classify (brand_name string, brand_classify string);

2.初始化数据

insert into table tb_brand_classify values('品牌1','家电');
insert into table tb_brand_classify values('品牌1','家具');
insert into table tb_brand_classify values('品牌1','数码');
insert into table tb_brand_classify values('品牌2','空调');
insert into table tb_brand_classify values('品牌2','饮水机');

3.查询表的数据

select * from tb_brand_classify

执行结果：

4.上述的需求我就可以使用 collect_set 函数来实现, 具体sql如下:

select
brand_name,
concat_ws(',', collect_set(brand_classify)) as brand_classify
from tb_brand_classify
group by brand_name;

执行结果：

拓展：

还可以用下标可以取具体某一个

select
brand_name,
collect_set(brand_classify)[0]
from tb_brand_classify
group by brand_name;

执行结果：

文章开头我们提到了collect_list函数，collect_list与collect_set最大的区别就是列的值不去重；我们把collect_set换成collect_list 执行看下。

select 
brand_name, 
concat_ws(',', collect_list(brand_classify)) 
from tb_brand_classify group by brand_name;

发现跟之前是一样的，那是因为我们的类目中没有重复，要是有重复，使用collect_list就会重复了。

需要注意的是collect_set是无序集合，如果需要排序我们可以改成collect_list或sort_array进行排序。

concat_ws(',', sort_array(collect_set(brand_classify), false))

sort_array(e: column, asc: boolean)将array中元素排序(自然排序)，默认asc。

好了，今天的分享就先到这。

由于水平有限，文中纰漏之处在所难免，欢迎大家批评指正。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/88274.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

今天又get到一个小技能，collect_set函数

相关文章

Android12指纹调用流程介绍(一)

Qt扫盲-QSlider理论总结

RSTP快速生成树简介、RSTP与STP的区别、RSTP BPDU字段信息、RSTP角色与端口状态介绍、RSTP工作过程之P/A机制详细分解）

Windows OS中关闭445 Port

Aba | 全自动biomarker分析神包！~（原作者用这个包发了三篇Nature啦~）

[附源码]Python计算机毕业设计SSM基于web的火车订票管理系统（程序+LW)

Ansible概述及命令行模块

Web端H5播放FLV、HLS、MP4 (二)

基于FPGA的RGB转HSV图像算法设计

如何自学黑客？自学黑客技术需要学多久？

LeetCode題目笔记——面试题 01.01. 判定字符是否唯一

nvm 实战过程

解决JavaWeb报错：此处不允许注解

【基于多尺度的融合：IVIF】

android aidl使用demo

分享5款好用但一直不火的宝藏软件

【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉，k8s中该节点的pod也被驱赶，怎么分析？

操作系统之线程和进程

《Python多人游戏项目实战》第二节使用pickle模块序列化数据

CentOS7中安装字体库中文字体