Hive-hive核心面试范围题目整理(数据倾斜、外部表内部表、分区分桶、行转列等)

优点

缺点

优点+本质：基于hadoop将HQL转换成MR的工具

在这里插入图片描述

在这里插入图片描述

create
external
comment
partition by分区
clustered by分桶表
row format delimited
- fields terminated by
- lines terminated by如果没指定会使用SerDe(序列化和反序列化)
- 分隔符如果特殊可以用multidelimitserde
stored as
location

含义：key值的数据过多导致的某几个reduce的节点运行比较慢
关键词：join、空值、group by维度过小，count distinct特殊值较多
聚合倾斜group by解决
- 参数调节set hive.map.aggr=true代表开启map端预聚合
- set hive.groupby.skewindata=true;均衡数据倾斜的配置项
- 具体：两个MR的job，第一个MR的map的输出结果会随机给到reducer，随机表示可以一定程度达到负载均衡的目的。第二个MR会再去根据预处理结果把相同的key值放到同一个reduce中
join倾斜解决
- join的时候选择join key分布最均衡的表作为驱动表
- 大小表join让小的表加载到内存中在map段进行join，避免reducer处理，提高效率
- 大表和大表join：null值不参与运算或者给key值中null值后面加上随机值，不会影响结果
- 多表join：在原理中也有，可以使用同一列为join条件仅仅会生成一个MRjob
count distinct优化
- 使用使用count…group by代替count(distinct)。如：即group by在子查询中，再count字段

在这里插入图片描述

map阶段优化：可以通过调整map和reduce的个数来进行优化，分别是map.tasks和reducer.tasks，
- map的个数取决于input的文件数和大小，文件无论大小都会当成一个map任务执行，因此可以在map执行前合并小文件，根据实际环境减少map个数。辩证分析也不是全部是减少，如果一个文件127M但是字段很少，数据很多，需要增大map的个数了
- 因为有多少reduce就会有多少输出的文件，如果作为下一个的输入文件，也会产生产生小文件，一般调整有几个考虑，根据map的输出估算reduce的个数和实际环境
- map数量的参数
- reducer数量的参数
hive输出小文件参数调整

在这里插入图片描述

行列/分区过滤
- select的时候只拿所需的列
- 只读所需要的分区，有两个参数，都是默认true
- 谓词下推，将where写在子查询中，有参数可以调整，尽量将过滤条件提前执行，使得最后参与join的表的数据量更小
- 少用join，可以转换成case
sort by代替order by
- sort by是保证多个reduce进行排序，并且保证每个reduce有序，可以再加distribute by排序，不加就随机分配
插入数据的时候少用动态分区，可以采用distributed by rand(),可以使得后续处理reduce的数据大致相同

在这里插入图片描述

压缩优化：
- 设置中间结果压缩，减少数据倾斜以及减少io流和网络传输
- 使用sequencefile作为表存储，可以减少小文件，二进制kv存储，可以合并。或者是常用testfile以及parquent
jvm重用：调节参数增加一个JVM可以执行多个MR job
压箱方法：把倾斜值值拿出来后打上随机值后处理在union回去

定义上：
- 分区相当于在hdfs的子目录中包含了分区对应的名字，子分区就是子目录
- 分桶在分区表上是根据hash算法进行组织，每个桶有数据，但是数量不一定一致
关系：cluster by：distribute by Word sort by Word ASC只能升序，分区容易数据倾斜，分桶比较平均
关系：外部表和内部表，分区表都是对HDFS上的目录，桶表对应是目录中的文件

用户提交任务给到driver
编译器获取任务后去metastore获取hive的元数据，编译过程：
- hivesql转换为抽象语法树
- 遍历抽象语法树，抽象出查询的基本单元queryblock
- 遍历查询块，翻译为执行操作树operatortree
优化器：
- 逻辑优化器进行操作数变换，合并不需要的reducesinkoperator，减少shuffle
- 遍历operatortree翻译成MR生成最终执行计划
最终将计划给回到driver后转交ExcutorEngine去执行，获取元数据，然后交给hadoop那边的jobtracker执行，会直接读取hdfs上的文件进行操作

在这里插入图片描述

在这里插入图片描述

join
- 基本原理
- 多表join：如果多表使用同一列进行关联将会被翻译成一个reduce，否则将会被翻译成多个reduce任务，原因是因为多表基于不同的列做join，无法在一轮MR任务中将数据shuffle到reducer中，多表的时候会将中间表缓存在reducer的内存中，然后后面的表会流式的进入进行接下来的任务
- join的分类：分为map join和common join，如果参数设置的是hive.auto.convert.join = true，那么小表和大表join就会转化成mapjoin，reducer不做join处理。common join就是一般认为的common join了
group by

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

MR引擎
Tez
- 特点是将原有的map和reduce简化为一个概念：vertex，计算节点被拆分成vertex input，vertex output，sorting，merging，这些元素可以任意组装形成一个大的DAG作业，由map和reduce变成map-reduce-reduce，似流水线，减少了调度
- yarn依然作为资源调度和管理，但是不是提交到resourcemanager而是AMPoolServer，存放着已经预先启动的Applicationmaster
- tez针对mapreduce的序列化和反序列化是可以在内存中处理的
spark：通过支持DAG作业的计算引擎