Hive3:表性能优化-分区与分桶

news2024/9/21 20:39:07

一、分区

1、概念

我们知道,一个Hive表,对应的HDFS是一个文件夹。
那么,当数据非常多的时候,存放在一个文件夹中,后期进行查询操作会影响性能。
所以,Hive引入了分区管理的方式。

本质就是,在HDFS中根据分区字段,建立子层级文件夹
每个层级中,一个分区值,对应一个文件夹。
一般,我们用日期做分区字段。
分区字段可以是一个,也可是多个。
对应就是单层级和多层级目录。

可以简单的理解为,将一个大数据量的表,分成多个目录进行存储管理。
类似于MySQL的索引作用。

单层级
按月分区
在这里插入图片描述
多层级
按月,日两个层级分区
在这里插入图片描述

2、实操

元数据

周杰轮	语文	99
周杰轮	数学	66
周杰轮	英语	88
林均街	语文	66
林均街	数学	77
林均街	英语	96
王力鸿	语文	88
王力鸿	数学	86
王力鸿	英语	79
张学油	语文	99
张学油	数学	79
张学油	英语	89

2.1、基本语法

CREATE TABLE myhive.score(...) PARTITIONED BY (分区列 列类型, ......) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '';

2.2、创建单分区表

刚创建分区表的时候,表目录score内部是没有分区目录的,因为没有数据。

CREATE TABLE myhive.score(id string,cid string,score int)
PARTITIONED BY (month string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

2.3、加载数据到对应分区

可以看出,分区列也算是表的一个字段,但是,数据来源不同

LOAD DATA INPATH '/tmp/score.txt' INTO TABLE myhive.score partition (month = '202408');
LOAD DATA INPATH '/tmp/score.txt' INTO TABLE myhive.score partition (month = '202409');

在这里插入图片描述

2.4、HDFS目录

不同分区值的数据,在不同的目录中,单都属于一个层级的目录。
在这里插入图片描述

2.5、创建多分区表

CREATE TABLE myhive.score2(id string,cid string,score int)
    PARTITIONED BY (year string,month string,day string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

2.6、加载数据到指定分区

注意:加载数据是,分区列必须对应赋值,少了或多了都会报错。

LOAD DATA LOCAL  INPATH '/home/atguigu/score.txt' INTO TABLE myhive.score2
    partition (year='2024',month='08',day='01');

在这里插入图片描述

2.7、HDFS目录

在这里插入图片描述

二、分桶

1、概念

分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式
但和分区不同,分区是分目录存储数据,分桶是分文件存储数据
Hive的分桶,对应的Hadoop中MapReduce程序的分区逻辑。关系到Reduce Task的线程数量
几个分桶,对应几个文件
在这里插入图片描述

2、实操

元数据

1	语文	周杰轮
2	英语	周杰轮
3	数学	王力鸿
4	音乐	周杰轮
5	体育	林均街
6	物理	王力鸿
7	历史	周杰轮

2.1、基本语法

开启分桶的自动优化(自动匹配reduce task数量和桶数量一致)

SET HIVE.ENFORCE.BUCKETING=true;

创建课程表

CREATE TABLE course (c_id string,c_name string,t_id string)
CLUSTERED BY(c_id) INTO 3 BUCKETS 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

2.2、加载数据

注意,分桶表加在数据,无法用load data方式。因为这个方式不走MapReduce程序。
只能用insert select方式。

  1. 创建一个临时表(外部表或内部表均可),通过load data加载数据进入表
  2. 然后通过insert select 从临时表向桶表插入数据
--向分桶表加载数据
--1、先创建一个临时表
create table course_temp (c_id string,c_name string,t_id string)
    row format delimited fields terminated by '\t';
--2、向临时表中load data数据
LOAD DATA LOCAL  INPATH '/home/atguigu/course.txt' INTO TABLE myhive.course_temp;
--3、把临时表的数据insert select到分桶表中
insert overwrite table myhive.course select * from myhive.course_temp cluster by (c_id);

2.3、分桶的底层逻辑

如上案例
创建了一个3 bucket的分桶表
所以,数据会分成三份存储
那么,划分逻辑是什么呢?

数据的三份划分基于分桶列的值进行hash取模来决定
由于load data不会触发MapReduce,也就是没有计算过程(无法执行Hash算法),只是简单的移动数据而已,所以无法用于分桶表数据插入。

三、分桶分区综合应用

分区和分桶可以结合使用,以进一步提高查询性能和管理灵活性。通过将表进行分区和分桶,可以实现更细粒度的数据组织和查询优化。

例如,可以创建一个分区表,并在每个分区中使用分桶进行数据划分。以下是创建分区和分桶表的示例:

CREATE TABLE my_partitioned_bucketed_table (
  col1 INT,
  col2 STRING
)
PARTITIONED BY (dt STRING, country STRING)
CLUSTERED BY (col1) INTO 3 BUCKETS
SORTED BY (col2);

加载数据,需要同时指定分区和桶的编号:

INSERT OVERWRITE TABLE my_partitioned_bucketed_table PARTITION (dt='2023-01-01', country='China')
SELECT col1, col2
FROM my_table;

四、总结

1、性能提升原理分析
分区表的性能提升:在指定分区列的前提下,减少被操作的数据量,从而提升性能。
分桶表的性能提升:基于分桶列的特定操作,如:过滤、JOIN、分组,均可带来性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2051620.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Datawhale X 魔搭 AI夏令营-AIGC方向-LoRA学习笔记

LoRA(Low-Rank Adaptation)是一种用于优化大规模预训练模型的微调技术,特别适用于在资源有限的情况下,对模型进行高效且低成本的微调。LoRA的核心思想是通过低秩分解方法,仅微调模型的少数参数,从而显著减少…

关于图像亮度相关的调试总结

1、问题背景 关于图像亮度的调试,是整个ISP中非常重要的一块,它决定了图像整体的亮度、对比度、细节、以及噪声,对人眼有非常直观的感受, 之前也就具体问题,整理过几篇图像亮度模块相关的调试总结: 关于图…

标题中有多少个字符(c语言)

1.//描述 //凯刚写了一篇美妙的作文,请问这篇作文的标题中有多少个字符? //注意:标题中可能包含大、小写英文字母、数字字符、空格和换行符。统计标题字 符数时,空格和换行符不计算在内。 //输入描述: //输入文件只有一…

【12】KMP和Manacher算法

目录 一.KMP算法解决的问题 二.Manacher算法解决的问题 基本概念 优化 一.KMP算法解决的问题 暴力求解复杂度O(N*M) next数组:next[i]表示arr[0...i-1]的前缀和后缀的最长公共长度。 Y位置失败,将前缀和后缀完全匹配,将前缀的部分和后缀对…

软件测试---接口自动化

一、pythonrequests模块 (1)requests全局观 安装:pip install requests 1.发送请求 ①requests.get() 发送get请求 ②requests.post() 发送post请求 data和json的区别:取绝于你需要传递的参数的类型。 files:文件上…

大学成长之路:如何从烧锅炉的逆袭成为FPGA大厂高管

如何从烧锅炉的逆袭成为FPGA大厂Sales Director 在即将到来的开学季,很多学子从高中生成为一个大学生,走入新的征程。大学生涯是人生的一个非常重要的阶段,如何度过大学4年的时光,并学有所成,是很多大学新生和家长思考…

Spring IoCDI(下)—DI的尾声

我们之前学习了控制反转IoC,接下来就开始学习依赖注入DI的细节。 依赖注入是一个过程,是指IoC容器在创建Bean时,去提供运行时所依赖的资源,而资源指的就是对象。我们使用 Autowired 注解,完成依赖注入的操作。简单来说…

AMBA-CHI协议详解(六)

AMBA-CHI协议详解(一) AMBA-CHI协议详解(二) AMBA-CHI协议详解(三) AMBA-CHI协议详解(四) AMBA-CHI协议详解(五) AMBA-CHI协议详解(六&#xff09…

JavaSocket编程+JDBC实战技术

一、JavaSocket编程 1.1HTTP协议 后端原理 2. 特点 同步:就是两个任务执行的过程中,其中一个任务要等另一个任务完成某各阶段性工作才能继续执行,如厨师A炒番茄,将葱花放入锅中,然后需要放入番茄,但是厨…

【自动驾驶】控制算法(二)三大坐标系与车辆运动学模型

写在前面: 🌟 欢迎光临 清流君 的博客小天地,这里是我分享技术与心得的温馨角落。📝 个人主页:清流君_CSDN博客,期待与您一同探索 移动机器人 领域的无限可能。 🔍 本文系 清流君 原创之作&…

Dubbo服务自动Web化之路

本文字数:6047字 预计阅读时间:40分钟 01 故障出现 事情起源于一次故障,2023年12月14日14点26分,大量Dubbo服务报出异常,无法链接zookeeper集群: Session 0x0 for server dubboZk.xxx.com/10.x.x.x:2181, C…

【高校科研前沿】南方科技大学冯炼教授等人在遥感顶刊RSE发文:全球人类改造的基塘系统制图

1.文章简介 论文名称:Global mapping of human-transformed dike-pond systems(全球人类改造的基塘系统制图) 第一作者及单位:Yang Xu(南方科技大学环境学院) 第一通讯作者及单位:冯炼&#x…

机器学习:线性回归算法(一元和多元回归代码)

1、线性回归 1、数据准备: 描述如何获取和准备数据。 2、图像预处理: 包括图像读取。 3、将数据划分为训练集和测试集。 4、计算数据的相关系数矩阵。 5、模型训练: 详细说明如何使用线性回归算法训练模型&…

京东2025届秋招 算法开发工程师 第2批笔试

目录 1. 第一题2. 第二题3. 第三题 ⏰ 时间:2024/08/17 🔄 输入输出:ACM格式 ⏳ 时长:2h 本试卷还有选择题部分,但这部分比较简单就不再展示。 1. 第一题 村子里有一些桩子,从左到右高度依次为 1 , 1 2…

达梦数据库的系统视图v$reserved_words

达梦数据库的系统视图v$reserved_words 达梦数据库(DM Database)提供了一系列系统视图以帮助管理员和开发人员了解数据库的状态和配置。V$RESERVED_WORDS 是其中一个系统视图,它显示了数据库系统中已保留的关键字。这些关键字在SQL语句中具有…

SpringBoot自动配置--原理探究

什么是自动配置? SpringBoot自动配置是指在SpringBoot应用启动时,可以把一些配置类自动注入到Spring的IOC容器中,项目运行时可以直接使用这些配置类的属性。简单来说就是用注解来对一些常规的配置做默认配置,简化xml配置内容&…

【三维目标检测】H3DNet(三)

【版权声明】本文为博主原创文章,未经博主允许严禁转载,我们会定期进行侵权检索。 参考书籍:《人工智能点云处理及深度学习算法》 H3DNet数据和源码配置调试过程以及主干网络介绍请参考上一篇博文:【三维目标检测】H3DNet&am…

[Java]面向对象-内部类

类的五大成员:属性、方法、构造方法、代码块、内部类 内部类 在一个类里边再定义一个类。可以在外部其他类中创建内部类对象并调用它的方法 public class Outer {//外部类public class inner{//内部类} } 内部类使用时机: 内部类表示的事物是外部类…

打造高可用集群的基石:深度解析Keepalived实践与优化

高可用集群 集群类型 集群类型主要分为负载均衡集群(LB)、高可用集群(HA)和高性能计算集群(HPC)三大类。每种集群类型都有其特定的应用场景和优势。 1. 负载均衡集群(LB) 负载均衡集…

drawio的问题

drawio的问题 先给出drawio的链接https://app.diagrams.net/ 我在用overleaf写论文的过程中,发现了一个问题,就是使用drawio画好图之后,只能保存以下几个选项: 但是不管是什么类型,在overleaf上面图片都不显示。如果…