Hive执行计划之只有map阶段SQL性能分析和解读

news2024/11/16 12:04:47

文章目录

    • 概述
    • 1.不带函数操作的select-from-where型简单SQL
      • 1.1执行示例
      • 1.2 运行逻辑分析
      • 1.3 伪代码解释
    • 2.带普通函数和运行操作符的普通型SQL执行计划解读
      • 2.1 执行计划解读
      • 2.2 伪代码解释逻辑

概述

可能所有的SQLboy刚接触SQL语句的时候都是select xxx from xxx where xxx。在hive中,我们把这种语句称为select-from-where型语句,也可称为简单SQL,这类简单SQL是特指不含有变转换函数,聚合函数,开窗函数和连接操作的SQL语句。

这类SQL主要特征是只有map阶段,没有reduce阶段。

本文分析一下这类简单SQL执行计划和性能,让我们从最基础的SQL分析,hive简单语句select from where 型语句性能分析,逐渐深入,进而学会分析复杂SQL的性能和执行计划。

所有的复杂SQL(几百行?上千行?)都是由一个个简单SQL带一些特殊函数堆叠而成的。

1.不带函数操作的select-from-where型简单SQL

这类SQL语句通常只有select-from-where,没有其他函数操作,或者操作符处理,例如字符串截取。

1.1执行示例

例1 不带函数操作的select-from-where型简单SQL。

-- 本文默认使用mr计算引擎
explain
-- 统计年龄等于30岁的所有昵称
select age,nick from temp.user_info_all 
where ymd = '20230505'
and age = 30;

执行执行计划结果:

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: user_info_all
            Statistics: Num rows: 32634295 Data size: 783223080 Basic stats: COMPLETE Column stats: NONE
            Filter Operator
              predicate: (age = 30) (type: boolean)
              Statistics: Num rows: 16317147 Data size: 391611528 Basic stats: COMPLETE Column stats: NONE
              Select Operator
                expressions: 30 (type: bigint), nick (type: string)
                outputColumnNames: _col0, _col1
                Statistics: Num rows: 16317147 Data size: 391611528 Basic stats: COMPLETE Column stats: NONE
                File Output Operator
                  compressed: true
                  Statistics: Num rows: 16317147 Data size: 391611528 Basic stats: COMPLETE Column stats: NONE
                  table:
                      input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                      output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                      serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

通过以上内容,我们可以看到,整个SQL逻辑执行过程中只有map操作树(Map Operate Tree),若转换成MapReduce来看的话,即只有Map阶段的任务。

如果有执行计划里关键词不熟悉的,建议阅读这篇 Hive执行计划之一文读懂Hive执行计划 。

1.2 运行逻辑分析

以上流程我们可以分解为运行逻辑图来看,如下图:

我们在之前的文章中提起过,Hive执行计划是一个预估的执行计划,只有在SQL实际执行后才会获取到真正的执行计划。那我们来看看以上语句的实际运行控制台打印过程。额,失算了,因为结果太多,限制一下输出条数。

Query ID = hdfs_20230613111158_03c8f6e1-e04f-4e4e-aa9b-569a89860438
Total jobs = 1
Launching Job 1 out of 1
# 这里表示没有reduce任务,reduce任务执行的服务器节点是0个。
Number of reduce tasks is set to 0 since there's no reduce operator
...
Hadoop job information for Stage-1: number of mappers: 6; number of reducers: 0
2023-06-13 11:12:28,564 Stage-1 map = 0%,  reduce = 0%
2023-06-13 11:12:45,219 Stage-1 map = 17%,  reduce = 0%, Cumulative CPU 6.17 sec
...
2023-06-13 11:12:54,523 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 40.52 sec
MapReduce Total cumulative CPU time: 40 seconds 520 msec
Ended Job = job_1675664438694_14052273
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 6   Cumulative CPU: 40.52 sec   HDFS Read: 203436481 HDFS Write: 2412 SUCCESS
Total MapReduce CPU Time Spent: 40 seconds 520 msec

从上面的结果可以知道,实际的运行过程也是只有map阶段的操作。

针对select-from-where只有map阶段操作而没有reduce阶段的主要原因是这类SQL只有从表中读取数据并执行数据行的过滤,并没有需要将HDFS在其他节点上的数据与该节点数据放在一起处理的必要,因此这类SQL不需要reduce操作。Map阶段过滤后的数据,就是最终的结果数据。

这种只含map的操作,如果文件大小控制在合适的情况下,都将只有本地操作,其执行非常高效,运行效率完全不输于在计算引擎Tez和Spark上运行。感兴趣的小伙伴可以去将三者运行效率比对一下。

1.3 伪代码解释

接下来我们再以mr伪代码的方式理解一下上述语句的运行情况:

例2 MRselect-from-where简单SQL代码解析

map(inkey,invalue,context);
colsArray = invalue.split("\t");
//对应filter操作,过滤掉age=30的数据行,ymd为分区列,属于文件级操作,这里不展示了。
if int(colsArray[11]) == 30 {
  //获取age,nick两列,就是投影操作,即select操作
  age = colsArray[11];
  nick = colsArray[7];
  //最后输出两列age,nick,执行计划中对应的为_col0和_col1.这里invalue为1
  context.write(age,nick);
}
reduce(inkey,invalue,context)
  //pass表示不会执行
  pass;

2.带普通函数和运行操作符的普通型SQL执行计划解读

这里的普通函数特指除表转换函数(UDTF),聚合函数和窗口函数之外的函数。例如:nvl(),cast(),case when,concat(),year()等,具体有哪些,后续会专门罗列。

这类SQL也属于select-from-where型SQL,其主要特点也是只有map阶段处理。

我们也可以给它更具体的称为 select-function(column)-from-where-function(column)类。

2.1 执行计划解读

接下来可以看一个带普通函数和操作符的SQL执行计划案例。

例3 带普通函数和操作符的SQL运行计划。

explain
-- 统计年龄等于30岁的所有昵称
select uid,
nvl(client,'android') as client,
case when age > 20 then '老腊肉' else '小鲜肉' end as label,
concat(nick,'_测试') as nick, 
cast(chat_uv as double)/10 as chat
from temp.user_info_all 
where ymd = '20230505'
and age in (18,19,20,21) and chat_uv is not null and substr(uid,0,1) = '1';

输出的执行计划结果:

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: user_info_all
            Statistics: Num rows: 32634295 Data size: 783223080 Basic stats: COMPLETE Column stats: NONE
            # where 条件过滤
            Filter Operator
              predicate: ((age) IN (18, 19, 20, 21) and chat_uv is not null and (substr(uid, 0, 1) = '1')) (type: boolean)
              Statistics: Num rows: 8158574 Data size: 195805776 Basic stats: COMPLETE Column stats: NONE
              # 列投影
              Select Operator
                expressions: uid (type: bigint), NVL(client,'android') (type: string), CASE WHEN ((age > 20)) THEN ('老腊肉') ELSE ('小鲜肉') END (type: string), concat(nick, '_测试') (type: string), (UDFToDouble(chat_uv) / 10) (type: double)
                outputColumnNames: _col0, _col1, _col2, _col3, _col4
                Statistics: Num rows: 8158574 Data size: 195805776 Basic stats: COMPLETE Column stats: NONE
                File Output Operator
                  compressed: true
                  Statistics: Num rows: 8158574 Data size: 195805776 Basic stats: COMPLETE Column stats: NONE
                  table:
                      input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                      output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                      serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

通过以上执行计划我们可以看到,这个结果同select-from-where 型SQL,只有map阶段的操作,如果实际去运行以上任务,得到的执行步骤也和例1类似。即在map运行完整个作业任务结束。

结合以上实例我们可以得出一个结论 select-function(colums)-from-where-function(column)这种类型的SQL可以归于select-from-where类简单SQL类型。

2.2 伪代码解释逻辑

例4 例2的MapReduce伪代码执行逻辑。

//整个程序只有map阶段,没有reduce逻辑
map(inkey,invalue,context);
//数据输入是一行数据
colsArray = invalue.split("\t");
if age in (18,19,20,21) and chat_uv != null and substr(uid, 0, 1) == '1'{
  uid = colsArray[0];
  client = colsArray[3];
  if client == null{
    client = 'android';
  }
  label = '';
  if age > 20 {
    label = '老腊肉'} else {
    label = '小鲜肉'}
  nick = nick+'_测试');
  chat = double(chat_uv)/10;
}
context.write(uid,client+'\t'+label+'\t'+nick+'\t'+chat);

下一期:Hive常见时间函数的使用与问题整理

按例,欢迎点击此处关注我的个人公众号,交流更多知识。

后台回复关键字 hive,随机赠送一本鲁边备注版珍藏大数据书籍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/642544.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何分析问题、找到性能瓶颈、掌握性能调优?一文讲懂性能测试

背景 当下云计算、大数据盛行的背景下,大并发和大吞吐量的需求已经是摆在企业面前的问题了,其中网络的性能要求尤为关键,除了软件本身需要考虑到性能方面的要求,一些硬件上面的优化也是必不可少的。 作为一名测试工作者&#xf…

Ubuntu18.04 离线安装gcc,g++,make依赖包

1. 离线安装背景 因为项目现场的服务器无法连接互联网,只有内网环境,但是需要安装redis和nginx,所以需要安装gcc,g,make等依赖包。 2. 如何获取依赖包 需要准备一台可以连接互联网的电脑(如:个人电脑上的虚拟机安装一…

Java网络开发(Asynchronous异步)—— 从 Jsp 到 Ajax 的 axios 到 vue 同步请求 到 异步请求

目录 引出如果想做bilibili边看视频边评论怎么搞?Ajax是啥?& axios的语法1. Ajax(Asynchronous JavaScript And XML)简介2. axios语法 及其与 java后端交互(1)get请求(2)post请求…

海外社媒营销揭秘:品牌出海的关键策略与注意事项

在全球化的背景下,品牌出海已成为众多企业拓展市场的必然选择。而海外社媒营销作为一种有效的推广手段,不仅能够帮助品牌建立海外影响力,还可以增强品牌知名度、提高销售额。然而,要在海外社媒平台上实施成功的营销策略&#xff0…

网络安全零基础都能看的SQL注入

1.1 .Sql 注入攻击原理 SQL 注入漏洞可以说是在企业运营中会遇到的最具破坏性的漏洞之一,它也是目前被利用得最多的漏洞。要学会如何防御 SQL 注入,首先我们要学习它的原理。 针对 SQL 注入的攻击行为可描述为通过在用户可控参数中注入 SQL 语法&#x…

高压脉冲电源和高压放大器应用领域的区别

在之前的科普中我们讲解了高压脉冲电源和高压放大器的定义及二者区别,其实除此之外,它们在应用上也是有不同倾向性的,那么今天让安泰测试Agitek为大家分享高压脉冲电源和高压放大器应用领域究竟有什么不同? 高压脉冲电源的应用领…

躺不平摆不烂的测试员如何自救?

随着测试从业年龄的增加,毕业的概率大增,而机会骤减,从而使测试员陷入躺不平、摆不烂的状态。 相较于开发员,测试员是没有资格躺平的,毕竟测试员没可能从短短几年黄金时间,从工作中积累到足以躺平的财富&a…

wordpress去除分类URL的categpory

前言 在日常使用Wordpress搭建网站时,发现文章或者分类页的URL地址中默认带有Category,URL层级过长会影响我们网站SEO的优化,也不利于用户体验。这里讲一下如何去除URL中categpory的方法。 操作 第一步先登录到WordPress后台,然…

前端样式网站(前端css框架)

1. Bootstrap:Bootstrap The most popular HTML, CSS, and JS library in the world.Bootstrap 是最流行的 CSS 框架,提供了丰富的前端样式和组件,非常适合开发响应式网站和应用程序。 2. Bulma:Bulma: Free, open source, and modern CSS framework based on FlexboxBulma 是…

nodejs 版本切换(windows版)

一、按健winR弹出窗口,键盘输入cmd,然后敲回车。然后进入命令控制行窗口,并输入where node查看之前本地安装的node的路径。 二、找到上面找到的路径,将node.exe所在的父目录里面的所有东西都删除。 三、从官网下载安装包 https://github.com/…

一文看懂!shell编程-【提取IP地址、文件归档、发送消息】

【引言】 您是否曾经遇到过需要提取大量IP地址、归档文件、发送消息等烦琐的工作? 如果是,那么您一定不能错过这篇文章! 在本文中,我们将探讨Shell编程的各种技巧和方法,帮助您轻松完成这些任务。无需任何编程基础&…

这些常用的IC专业术语,你了解多少?

IC工程师在日常的学习和工作中或多或少会都遇到一些专业的IC词汇。下面就来为大家盘点一下各个岗位的专业高频名词。(文档内持续更新,全文档文末可领) 数字功能验证高频名词 CIN (Carry INput):进位输入 COUT(Carry OUTput)&…

关于数据库分库分表的一点想法

1 开篇 面对数据的激增,相信大家也都有分库分表的一些方案,这次的这个分享,算是自己的一个想法,可以当做一个参考方案,也欢迎相互讨论。 话不多说,直接进入主题。 日常开发中,实现数据库的分库…

系统稳定性与高可用保障

一、前言 高并发、高可用、高性能被称为互联网三高架构,这三者都是工程师和架构师在系统架构设计中必须考虑的因素之一。今天我们就来聊一聊三 H 中的高可用,也是我们常说的系统稳定性。 > 本篇文章只聊思路,没有太多的深入细节。阅读全…

“海底长城”合龙!揭秘深中海底隧道中的无损检测技术

作为工业大国,近年来国家在各类“大国工程”中投入巨大,同时也获得了喜人的成果,从长江三峡水利枢纽造福全国人民,到天问落火、空间站核心舱在轨开工,天舟二号货运飞船稳靠太空港,神舟十二号载人飞船成功发…

博睿数据应邀出席第五届双态IT北京用户大会,分享《如何帮助用户构建高级可观测性》

6月10日,第五届双态IT北京用户大会在北京召开,来自IT行业的各位专家齐聚一堂,分享行业理念、发展趋势、运维方法以及最佳实践。 博睿数据应邀出席大会,作《如何帮助用户构建高级可观测性》主题演讲,从云原生带来的挑战…

vue-cli3搭建项目实现移动端自适应----- flexible和 postcss-px2rem

1、安装 flexible和 postcss-px2rem npm i lib-flexible postcss-px2rem --save 2.在项目入口文件main.js 中引入lib-flexible import lib-flexible 3. 把目录 public/index.html 中的这个标签注释!由于flexible会动态给页面header中添加标签 4.配置postcss-px2r…

不一样的ECS U实例

不一样的ECS U实例 ECS U实例U实例入门开通U实例服务远程连接U实例重置密码远程连接 安装Mysql安装Mysql并启动Mysql数据库操作本地远程连接Mysql 安装Nginx安装Nginx启动Nginx 安装JDK安装Tomcat 体验感受操作上适用场景上体验建议 参与ECSU实例评测,申请免费体验机…

操作系统原理 —— 文件的逻辑结构(二十三)

文件的逻辑结构 这里说的逻辑结构,就是指在用户看来,文件内部的数据应该是如何组织起来的,而 物理结构 指的是在操作系统看来,文件的数据是如何被存放的。 从逻辑结构结构来看,我们可以打开一个记事本,里…

渲染案例 | 《妈妈的牵牛花》荣获厦门国际动漫节金奖

2023年5月25日,第十五届厦门国际动漫节“金海豚奖”动画组获奖名单公布。其中,蓝海创意云《青团计划》优秀代表作品——《妈妈的牵牛花》荣获最佳学生动画金奖。 蓝海创意云作为行业内知名的影视动画渲染服务商,深度参与《妈妈的牵牛花》的后…