前言
最近一位数仓同学问我,当 Spark
任务出现数据倾斜的问题时该如何处理呢?那么今天就来讲一下遇到了数据倾斜问题时处理的方式方法。
1)数据倾斜的定义
Spark
中的数据倾斜问题主要指 shuffle
过程中出现的数据倾斜问题,是由于不同的 key
对应的数据量不同导致的不同task所处理的数据量不同的问题。
2)数据倾斜的表现
Spark
作业的大部分 task
都执行迅速,一个或几个 task
执行的很慢,此时可能出现了数据倾斜,作业可以运 行,但是运行得非常慢;
Spark
作业的大部分 task
都执行迅速,但是有的 task
在运行过程中会突然报出 OOM
,反复执行几次都在某一 个 task
报出 OOM
错误,此时可能出现了数据倾斜,作业无法正常运行。
上述截图中其他任务的执行速度和处理数据记录数都差不多,但第一条处理的数据量高达 15GB
,近一亿数据记录,发现了数据倾斜。
3)定位数据倾斜问题
步骤一: 看数据倾斜发生在哪个 Stage