Hive on Spark调优（大数据技术7）

news2026/2/16 8:21:38

第7章数据倾斜优化

7.1 数据倾斜说明

数据倾斜问题，通常是指参与计算的数据分布不均，即某个key或者某些key的数据量远超其他key，导致在shuffle阶段，大量相同key的数据被发往一个Reduce，进而导致该Reduce所需的时间远超其他Reduce，成为整个任务的瓶颈。

Hive中的数据倾斜常出现在分组聚合和join操作的场景中，下面分别介绍在上述两种场景下的优化思路。

7.2 分组聚合导致的数据倾斜

示例SQL语句如下：

select
    province_id,
    count(*)
from dwd_trade_order_detail_inc
where dt='2020-06-16'
group by province_id;

7.2.1 优化前执行计划

7.2.2 优化思路

由分组聚合导致的数据倾斜问题主要有以下两种优化思路：

1）启用map-side聚合

相关参数如下：

--启用map-side聚合
set hive.map.aggr=true;
--hash map占用map端内存的最大比例
set hive.map.aggr.hash.percentmemory=0.5;

启用map-side聚合后的执行计划如下图所示：

2）启用skew groupby优化

其原理是启动两个MR任务，第一个MR按照随机数分区，将数据分散发送到Reduce，完成部分聚合，第二个MR按照分组字段分区，完成最终聚合。

相关参数如下：

--启用分组聚合数据倾斜优化
set hive.groupby.skewindata=true;

启用skew groupby优化后的执行计划如下图所示：

7.3 join导致的数据倾斜

示例SQL语句如下。

select
    *
from
(
    select
        *
    from dwd_trade_order_detail_inc
    where dt='2020-06-16'
)fact
join
(
    select
        *
    from dim_province_full
    where dt='2020-06-16'
)dim
on fact.province_id=dim.id;

7.3.1 优化前的执行计划

7.3.2 优化思路

由join导致的数据倾斜问题主要有以下两种优化思路：

1）使用map join

相关参数如下：

--启用map join自动转换
set hive.auto.convert.join=true;
--common join转map join小表阈值
set hive.auto.convert.join.noconditionaltask.size

使用map join优化后执行计划如下图。

2）启用skew join优化

其原理如下图：

相关参数如下：

--启用skew join优化
set hive.optimize.skewjoin=true;
--触发skew join的阈值，若某个key的行数超过该参数值，则触发
set hive.skewjoin.key=100000;

需要注意的是，skew join只支持Inner Join。

启动skew join优化后的执行计划如下图所：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/542321.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Hive on Spark调优（大数据技术7）

第7章数据倾斜优化

7.2 分组聚合导致的数据倾斜

7.2.1 优化前执行计划

7.3.2 优化思路

相关文章

研报精选230518

chatgpt赋能Python-python3_5如何安装

管道通信，共享内存

【云计算与虚拟化】第四章实验二 vCenter Server网络部署及基本操作

【5.15】一、软件测试基础—软件缺陷管理

【5.16】一、软件测试基础—软件测试的基本流程

ChatGPT将如何影响大学录取和大学申请文书?

springboot+java+jsp网上超市水果蔬菜果蔬商城购物管理系统

进程，会话，守护进程

DS3800HPIB 有效执行任务的所有程序

Jetpack Compose中使用MD样式组件Scaffold及导航底部菜单的实现

Java日常练习—类与对象

acwing提高——BFS的Flood Fill和最短路模型

Prompt合集

【EMC专题】为什么PCB上的单端阻抗控制在50欧？

【Unity100个实用小技巧】保证原图片的情况下，动态扩展图片尺寸

Kafka 原理温故之数据存储格式

轻量应用服务器腾讯云和阿里云哪家更好？

c++对象中动态内存分配

MySQL—系统管理

Hive on Spark调优（大数据技术7）

第7章 数据倾斜优化

7.2 分组聚合导致的数据倾斜

7.2.1 优化前执行计划

7.3.2 优化思路

相关文章

第7章数据倾斜优化