【大数据Hive】hive 表数据优化使用详解

news2024/11/25 6:21:46

目录

一、前言

二、hive 常用数据存储格式

2.1 文件格式-TextFile

2.1.1 操作演示

2.2 文件格式 - SequenceFile

2.2.1 操作演示

2.3 文件格式 -Parquet

2.3.1 Parquet简介

2.3.2 操作演示

2.4 文件格式-ORC

2.4.1 ORC介绍

2.4.2 操作演示

三、hive 存储数据压缩优化

3.1 数据压缩-概述

3.2 数据压缩的优缺点

3.2.1 压缩的优点

3.2.2 压缩的缺点

3.3 常用压缩格式和压缩算法

3.3.1 Hadoop中各种压缩算法性能对比

3.3.2 压缩参数设置

3.3 操作演示

3.3.1 设置压缩参数

3.3.2 创建表,指定为textfile格式

3.3.3 创建表,指定为orc格式

四、hive 存储优化

4.1 避免小文件生成

4.2 ORC文件索引

4.2.1 Row Group Index

4.2.2 核心参数设置

4.2.3 操作演示

4.2.4 Bloom Filter Index

4.2.5 操作演示

4.3 ORC矢量化查询

五、写在文末


一、前言

通过之前的学习了解到,hive本身并不存储数据,其数据存储的本质还是HDFS,所有的数据读写都基于HDFS的文件来实现,因此对于hive表数据的优化可以归结为对hdfs上面存储数据相关的优化,比如数据存储格式的选择等。

二、hive 常用数据存储格式

为了提高对HDFS文件读写的性能,Hive提供了多种文件存储格式:TextFile、SequenceFile、ORC、Parquet等,不同的文件存储格式具有不同的存储特点,有的可以降低存储空间,有的可以提高查询性能。

Hive的文件格式在建表时指定,默认是TextFile,在hive的建表语法树中,在 [STORED AS file_format] 这一项中可以进行指定;

2.1 文件格式-TextFile

TextFile是Hive中默认的文件格式,存储形式为按行存储。工作中最常见的数据文件格式就是TextFile文件,几乎所有的原始数据生成都是TextFile格式,所以Hive设计时考虑到为了避免各种编码及数据错乱的问题,选用了TextFile作为默认的格式。建表时如果不指定存储格式即为TextFile,导入数据时把数据文件拷贝至HDFS不进行处理。

TextFile格式优缺点对比:

优点缺点应用场景

1、最简单的数据格式,可以直接查看

2、可以使用任意的分隔符进行分割

3、便于和其他工具共享数据

4、可以搭配压缩一起使用

1、耗费存储空间,I/O性能较低

2、结合压缩时Hive不进行数据切分合并,不能进行并行操作,查询效率低

3、按行存储,读取列的性能差

1、适合于小量数据的存储查询

2、一般用于做第一层数据加载和测试使用

2.1.1 操作演示

在本地有一个2K大小的文件

建表并加载数据

create table tb_sogou_source(
                                stime string,
                                userid string,
                                keyword string,
                                clickorder string,
                                url string
)
    row format delimited fields terminated by '\t';

load data local inpath '/usr/local/soft/data/sogo.reduced' into table tb_sogou_source;

执行过程

 TextFile这种格式的文件的典型特征是,数据在hdfs上面文件大小与原文件保存不变,同时可以直接查看;

2.2 文件格式 - SequenceFile

SequenceFile是Hadoop里用来存储序列化的键值对即二进制的一种文件格式。SequenceFile文件也可以作为MapReduce作业的输入和输出,hive也支持这种格式。

优点缺点使用场景

1、以二进制的KV形式存储数据;

2、与底层交互更加友好,性能更快;

3、可压缩、可分割,优化磁盘利用率和I/O;

4、可并行操作数据,查询效率高;

5、也可以用于存储多个小文件

1、存储空间消耗最大;

2、与非Hadoop生态系统之外的工具不兼容;

3、构建SequenceFile需要通过TextFile文件转化加载

适合于小量数据,但是查询列比较多的场景

SequenceFile 底层存储架构图

2.2.1 操作演示

建表并加载数据

create table tb_sogou_seq(
                             stime string,
                             userid string,
                             keyword string,
                             clickorder string,
                             url string
)
    row format delimited fields terminated by '\t'
    stored as sequencefile;

insert into table tb_sogou_seq
select * from tb_sogou_source;

执行过程

从文件大小来说,略有减小,但是这种文件下载之后是二进制格式的;

2.3 文件格式 -Parquet

2.3.1 Parquet简介

  • Parquet是一种支持嵌套结构的列式存储文件格式,最早是由Twitter和Cloudera合作开发,2015年5月从Apache孵化器里毕业成为Apache顶级项目;
  • 是一种支持嵌套数据模型对的列式存储系统,作为大数据系统中OLAP查询的优化方案,它已经被多种查询引擎原生支持,并且部分高性能引擎将其作为默认的文件存储格式;
  • 通过数据编码和压缩,以及映射下推和谓词下推功能,Parquet的性能也较之其它文件格式有所提升;

优缺点对比

优点缺点使用场景

1、更高效的压缩和编码可压缩、可分割,优化磁盘利用率和I/O;

2、可用于多种数据处理框架

不支持update, insert, delete, ACID适用于字段数非常多,无更新,只取部分列的查询

2.3.2 操作演示

建表并加载数据

create table tb_sogou_parquet(
                                 stime string,
                                 userid string,
                                 keyword string,
                                 clickorder string,
                                 url string
)
    row format delimited fields terminated by '\t'
    stored as parquet;

insert into table tb_sogou_parquet
select * from tb_sogou_source;

执行过程

执行完成后,检查hdfs文件目录,对比原始文件可以看到这个压缩的比率还是很高的; 

2.4 文件格式-ORC

2.4.1 ORC介绍

  • ORC(OptimizedRC File)文件格式也是一种Hadoop生态圈中的列式存储格式;
  • 它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度;
  • 2015年ORC项目被Apache项目基金会提升为Apache顶级项目;
  • ORC不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储;
  • ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩以降低存储空间的消耗,目前也被Hive、Spark SQL、Presto等查询引擎支持;

优缺点:

优点缺点应用场景

1、列式存储,存储效率非常高;

2、可压缩,高效的列存取;

3、查询效率较高,支持索引;

4、支持矢量化查询

1、加载时性能消耗较大;

2、需要通过text文件转化生成;

3、读取全量数据时性能较差

适用于Hive中大型的存储、查询

2.4.2 操作演示

建表并加载数据

create table tb_sogou_orc(
                             stime string,
                             userid string,
                             keyword string,
                             clickorder string,
                             url string
)
    row format delimited fields terminated by '\t'
    stored as orc;

insert into table tb_sogou_orc
select * from tb_sogou_source;

执行过程

 从hdfs文件目录下的数据来看,orc格式下文件仍然可以得到较大的压缩,使得存储空间大大降低;

三、hive 存储数据压缩优化

3.1 数据压缩-概述

Hive底层运行MapReduce程序时,磁盘I/O操作、网络数据传输、shuffle和merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。

Hive压缩实际上说的就是MapReduce的压缩。

下图是hive在运行MR任务时数据压缩过程的运行架构图

3.2 数据压缩的优缺点

3.2.1 压缩的优点

  • 减小文件存储所占空间;
  • 加快文件传输效率,从而提高系统的处理速度;
  • 降低IO读写的次数;

3.2.2 压缩的缺点

使用数据时需要先对文件解压,加重CPU负荷,压缩算法越复杂,解压时间越长

3.3 常用压缩格式和压缩算法

Hive中的压缩就是使用了Hadoop中的压缩实现的,所以Hadoop中支持的压缩在Hive中都可以直接使用。Hadoop中支持的压缩算法:

 要想在Hive中使用压缩,需要对MapReduce和Hive进行相应的配置

3.3.1 Hadoop中各种压缩算法性能对比

3.3.2 压缩参数设置

--开启hive中间传输数据压缩功能
--1)开启hive中间传输数据压缩功能
set hive.exec.compress.intermediate=true;
--2)开启mapreduce中map输出压缩功能
set mapreduce.map.output.compress=true;
--3)设置mapreduce中map输出数据的压缩方式
set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;


--开启Reduce输出阶段压缩
--1)开启hive最终输出数据压缩功能
set hive.exec.compress.output=true;
--2)开启mapreduce最终输出数据压缩
set mapreduce.output.fileoutputformat.compress=true;
--3)设置mapreduce最终数据输出压缩方式
set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
--4)设置mapreduce最终数据输出压缩为块压缩
set mapreduce.output.fileoutputformat.compress.type=BLOCK;

3.3 操作演示

3.3.1 设置压缩参数

使用上面的压缩参数

3.3.2 创建表,指定为textfile格式

指定为textfile格式,并使用snappy压缩

drop table tb_sogou_snappy;

create table tb_sogou_snappy
    stored as textfile
as select * from tb_sogou_source;

执行过程

3.3.3 创建表,指定为orc格式

指定为orc格式,并使用snappy压缩

create table tb_sogou_orc_snappy
    stored as orc tblproperties ("orc.compress"="SNAPPY")
as select * from tb_sogou_source;

执行过程 

创建完成后,检查hdfs表的数据目录,可以发现数据目录的结尾会带有snappy,同时这个数据压缩比起上文更夸张了;

四、hive 存储优化

4.1 避免小文件生成

Hive的存储本质还是HDFS,HDFS是不利于小文件存储的,因为每个小文件会产生一条元数据信息,并且不利用MapReduce的处理,MapReduce中每个小文件会启动一个MapTask计算处理,导致资源的浪费,所以在使用Hive进行处理分析时,要尽量避免小文件的生成。

Hive中提供了一个特殊的机制,可以自动的判断是否是小文件,如果是小文件可以自动将小文件进行合并。

如下配置参数

-- 如果hive的程序,只有maptask,将MapTask产生的所有小文件进行合并
set hive.merge.mapfiles=true;

-- 如果hive的程序,有Map和ReduceTask,将ReduceTask产生的所有小文件进行合并
set hive.merge.mapredfiles=true;

-- 每一个合并的文件的大小(244M)
set hive.merge.size.per.task=256000000;

-- 平均每个文件的大小,如果小于这个值就会进行合并(15M)
set hive.merge.smallfiles.avgsize=16000000;

如果遇到数据处理的输入是小文件的情况,怎么解决呢?Hive中也提供一种输入类CombineHiveInputFormat,用于将小文件合并以后,再进行处理。

设置Hive中底层MapReduce读取数据的输入类:将所有文件合并为一个大文件作为输入

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

4.2 ORC文件索引

在使用ORC文件时,为了加快读取ORC文件中的数据内容,ORC提供了两种索引机制:Row Group Index 和 Bloom Filter Index可以帮助提高查询ORC文件的性能;当用户写入数据时,可以指定构建索引,当用户查询数据时,可以根据索引提前对数据进行过滤,避免不必要的数据扫描。

4.2.1 Row Group Index

  • 一个ORC文件包含一个或多个stripes(groups of row data),每个stripe中包含了每个column的min/max值的索引数据;
  • 当查询中有大于等于小于的操作时,会根据min/max值,跳过扫描不包含的stripes;
  • 而其中为每个stripe建立的包含min/max值的索引,就称为Row Group Index行组索引,也叫min-max Index大小对比索引,或者Storage Index;

Row Group Index 补充说明

1、建立ORC格式表时,指定表参数’orc.create.index’=’true’之后,便会建立Row Group Index;

2、为了使Row Group Index有效利用,向表中加载数据时,必须对需要使用索引的字段进行排序;

4.2.2 核心参数设置

--1、开启索引配置

set hive.optimize.index.filter=true;

--2、创建表并制定构建索引

create table tb_sogou_orc_index    

stored as orc tblproperties ("orc.create.index"="true")

as select * from tb_sogou_source    

distribute by stime    

sort by stime;

--3、当进行范围或者等值查询(<,>,=)时就可以基于构建的索引进行查询

select count(*) from tb_sogou_orc_index where stime > '12:00:00' and stime < '18:00:00';

4.2.3 操作演示

开启索引配置

set hive.optimize.index.filter=true;

创建表并制定构建索引

create table tb_sogou_orc_index
    stored as orc tblproperties ("orc.create.index"="true")
as select * from tb_sogou_source
    distribute by stime
    sort by stime;

当进行范围或者等值查询(<,>,=)时就可以基于构建的索引进行查询

select count(*) from tb_sogou_orc_index where stime > '12:00:00' and stime < '18:00:00';

执行结果

4.2.4 Bloom Filter Index

俗称布隆过滤器索引

  • 建表时候通过表参数”orc.bloom.filter.columns”=”columnName……”来指定为哪些字段建立BloomFilter索引,在生成数据的时候,会在每个stripe中,为该字段建立BloomFilter的数据结构;
  • 当查询条件中包含对该字段的等值过滤时候,先从BloomFilter中获取以下是否包含该值,如果不包含,则跳过该stripe;

4.2.5 操作演示

创建表指定创建布隆索引

create table tb_sogou_orc_bloom
stored as orc tblproperties ("orc.create.index"="true","orc.bloom.filter.columns"="stime,userid")
as select * from tb_sogou_source
distribute by stime
sort by stime;

stime的范围过滤可以走row group index,userid的过滤可以走bloom filter index

select
    count(*)
from tb_sogou_orc_index
where stime > '12:00:00' and stime < '18:00:00'
  and userid = '3933365481995287' ;

执行结果

4.3 ORC矢量化查询

Hive的默认查询执行引擎一次处理一行,而矢量化查询执行是一种Hive针对ORC文件操作的特性,目的是按照每批1024行读取数据,并且一次性对整个记录整合(而不是对单条记录)应用操作,提升了像过滤, 联合, 聚合等等操作的性能。

注意:要使用矢量化查询执行,就必须以ORC格式存储数据。

开启矢量化查询参数

set hive.vectorized.execution.enabled = true;

set hive.vectorized.execution.reduce.enabled = true;

五、写在文末

本文通过大量案例详细探讨了Hive中表的常用优化策略,希望对看到的小伙伴有用哦,本篇到此结束,感谢观看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1148028.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

椭圆曲线的参数(二)

一、椭圆曲线的参数 1.1 背景 假设一条椭圆曲线方程为 y^2 =x^3+ax+b确定这条椭圆曲线方程参数是p,a,b,G,n,h,除了参数a,b ,其他参数的意义 p为质数,(mod p)运算G为基点n为点G的阶h是椭圆曲线上所有点的个数m与n相除的商的整数部分1.2 方程(y^2 =x^3+x+6,P=11) 椭圆曲线…

基于springboot,vue校园社团管理系统

开发工具&#xff1a;IDEA 服务器&#xff1a;Tomcat9.0&#xff0c; jdk1.8 项目构建&#xff1a;maven 数据库&#xff1a;mysql5.7 系统分前后台&#xff0c;项目采用前后端分离 前端技术&#xff1a;vueelementUI 服务端技术&#xff1a;springbootmybatis-plus 本系…

信息系统项目管理师教程 第四版【第6章-项目管理概论-思维导图】

信息系统项目管理师教程 第四版【第6章-项目管理概论-思维导图】 课本里章节里所有蓝色字体的思维导图

Linux 网络驱动实验(PHY芯片LAN8720)

目录 嵌入式网络简介嵌入式下的网络硬件接口 网络驱动是linux 里面驱动三巨头之一&#xff0c;linux 下的网络功能非常强大&#xff0c;嵌入式linux 中也常 常用到网络功能。前面我们已经讲过了字符设备驱动和块设备驱动&#xff0c;本章我们就来学习一下 linux 里面的网络设备…

【音视频|PCM】PCM格式详解

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; &#x1f923;本文内容&#x1f923;&a…

【队列的顺序表示,链式表示】

文章目录 队列的表示和实现相关术语队列的表示链队的表示链队的定义链队的初始化销毁链队列 链队列的入队出栈 队列的表示和实现 相关术语 队列&#xff08;Queue&#xff09;是仅在表尾进行插入操作&#xff0c;在表头进行删除操作的线性表。表尾即an端&#xff0c;称为队尾…

分布式锁其实很简单,6行代码教你实现redis分布式锁

一、前言 分布式锁是一种用于协调分布式系统中多个节点之间对共享资源进行访问控制的机制。它可以确保在分布式环境下&#xff0c;同一时间只有一个节点能够获取到锁&#xff0c;并且其他节点需要等待释放锁后才能获取。 以下是使用分布式锁的几个常见场景和原因&#xff1a;…

ChatGPT 驱动软件开发:AI 在软件研发全流程中的革新与实践

目录 内容简介作者简介专家推荐读者对象目录直播预告 计算机技术的发展和互联网的普及&#xff0c;使信息处理和传输变得更加高效&#xff0c;极大地改变了金融、商业、教育、娱乐等领域的运作方式。数据分析、人工智能和云计算等新兴技术&#xff0c;也在不断地影响和改变着各…

misc学习(4)Traffic(流量分析)-

感悟&#xff1a;回想起自己学的计算机网络和网络协议分析&#xff0c;有所感悟&#xff1a;计算机网络好比将一群人区分开来&#xff08;局域网&#xff09;&#xff0c;为了能够使得不同部分的人能够沟通&#xff08;wireshark中的数据包&#xff09;&#xff0c;就设置了网络…

高级深入--day43

通过Fiddler进行手机抓包 通过Fiddler抓包工具&#xff0c;可以抓取手机的网络通信&#xff0c;但前提是手机和电脑处于同一局域网内&#xff08;WI-FI或热点&#xff09;&#xff0c;然后进行以下设置&#xff1a; 用Fiddler对Android应用进行抓包 打开Fiddler设置 在Conne…

DIANA算法c++实现

第一步对具有最大直径的簇中每个点计算平均相异度找出最大的点放入splinter group&#xff0c;其余放在放入splinter group 第二步 在old party里找出到splinter group中点的最近距离 < 到old party中点的最近距离的点&#xff0c;并将该点加入splinter group 重复第二步的…

共用体开发案例

有若干个人员的数据,其中有学生和教师。学生的数据中包括:姓名、号码性别、职业、班级。教师的数据包括:姓名、号码、性别、职业、职务。要求用同一个表格来处理。 #include <stdio.h>struct Person {char name[32];int age;char zhiYe;char addr[32];union {int class;…

Ubuntu系统编译调试QGIS源码保姆级教程

在之前的文章中&#xff0c;我详细介绍了怎么在Windows下编译QGIS源码&#xff0c;也得到了不错的反馈。但是不足的是Windows下只能编译QGIS的Release模式和RelWithDebInfo模式&#xff0c;想要分析源码&#xff0c;“断点调试”肯定是少不了的&#xff0c;但是这两种模式虽然也…

论文写作框架示例:论软件系统建模方法及其应用

标题 前言题目要求写作框架(1)摘要(300~330字)(2)正文(2000~2500字,2200字左右为宜)(3)收尾(200字左右)前言 本章内容参考了51cto的薛老师的《软考论文高分特训与范文10篇》的内容,是帮助初学者打开写作思路的工具,而不是必须要遵循的模式。建议软考人多读多看…

集丰照明|灯光布局没做好,几百万装修也拯救不了

俗话说拍照要看灯光的位置&#xff0c;我们在装修的时候也要注重灯光的摆放&#xff0c;不然可能你花了很多钱的装修&#xff0c;结果就会因为灯光的布局不合理&#xff0c;导致效果大打折扣。 装修也是一样&#xff0c;忽略掉灯光&#xff0c;可能就会发生花了几十万&#xff…

08. 按键输入

08. 按键输入 按键原理图代码编写GPIO驱动代码按键驱动代码主函数 加上清除BSS段&#xff0c;代码不运行 按键原理图 按键KEY0连接到了UART1_CTS上。默认情况下&#xff0c;KEY0为高&#xff0c;当按下KEY0后&#xff0c;UART1_CTS为低电平 代码编写 在bsp下创建一个key和一个…

减少磁盘读/写中延迟时间的方法(交替编号,错位命名)

目录 1.延迟时间的优化空间2.交替编号3.磁盘地址结构的设计1.若物理地址结构是&#xff08;盘面号&#xff0c;柱面号&#xff0c;扇区号&#xff09;2.若物理地址结构是&#xff08;柱面号&#xff0c;盘面号&#xff0c;扇区号) 4.错位命名 关于磁盘延迟时间的概念请看博主的…

AQS 关于锁与队列的关系

前面的文章中又介绍的在争用激烈的场景下&#xff0c;使用基于CAS自旋实现的轻量级锁有两个大的问题: (1)CAS恶性空自旋会浪费大量的CPU资源。 (2)在SMP架构的CPU上会导致“总线风暴”。 解决CAS恶性空白旋的有效方式之一是以空间换时间&#xff0c;较为常见的方案有两…

leetCode 229. 多数元素 II + k值摩尔投票法 + 进阶 + 优化空间

229. 多数元素 II - 力扣&#xff08;LeetCode&#xff09; 给定一个大小为 n 的整数数组&#xff0c;找出其中所有出现超过 ⌊ n/3 ⌋ 次的元素。 进阶&#xff1a;尝试设计时间复杂度为 O(n)、空间复杂度为 O(1)的算法解决此问题。 &#xff08;1&#xff09;哈希表 class …

“RG-SMP 安全管理平台” 优化

全局添加ICO图标 管理强制重定向https <!-- \SMP\jboss\server\default\deploy\smp.war\common common_js.jsp --> <link rel"shortcut icon" href"…