Hive企业级调优[4]——HQL语法优化之分组聚合优化

news2024/11/15 16:39:14

HQL语法优化之分组聚合优化

优化说明

在 Hive 中,未经优化的分组聚合通常通过一个 MapReduce Job 实现。Map 端负责读取数据,并按分组字段进行分区,通过 Shuffle 将数据发送至 Reduce 端,在 Reduce 端完成最终的聚合运算。

Hive 对分组聚合的优化主要是为了减少 Shuffle 数据量,具体做法是采用 map-side 聚合。所谓 map-side 聚合,就是在 Map 端维护一个哈希表,利用它来完成部分聚合,然后将部分聚合的结果按照分组字段分区,发送至 Reduce 端以完成最终的聚合。这种方法能够有效地减少 Shuffle 的数据量,从而提高分组聚合运算的效率。

与 map-side 聚合相关的参数包括:

  • 启用 map-side 聚合
    set hive.map.aggr=true;
  • 检测源表数据是否适合进行 map-side 聚合
    • 检测方法是:先对若干条数据进行 map-side 聚合,若聚合后的条数和聚合前的条数比值小于设定值,则认为该表适合进行 map-side 聚合;
    • 否则,认为该表数据不适合进行 map-side 聚合,后续数据便不再进行 map-side 聚合。
    set hive.map.aggr.hash.min.reduction=0.5;
  • 用于检测源表是否适合 map-side 聚合的条数
    set hive.groupby.mapaggr.checkinterval=100000;
  • map-side 聚合所用的哈希表占用 map task 堆内存的最大比例
    • 若超出此值,则会对哈希表进行一次 flush。
    set hive.map.aggr.hash.force.flush.memory.threshold=0.9;
 优化案例

1)示例 SQL:

hive (default)> 
select
    product_id,
    count(*)
from order_detail
group by product_id;

2)优化前 未经优化的分组聚合,执行计划如下图所示:(实际图形无法在此文本中展示,请参考执行计划输出结果)

3)优化思路 可以考虑开启 map-side 聚合,配置以下参数:

-- 启用 map-side 聚合,默认是 true
set hive.map.aggr=true;

-- 用于检测源表数据是否适合进行 map-side 聚合。检测的方法是:先对若干条数据进行 map-side 聚合,若聚合后的条数和聚合前的条数比值小于该值,则认为该表适合进行 map-side 聚合;否则,认为该表数据不适合进行 map-side 聚合,后续数据便不再进行 map-side 聚合。
set hive.map.aggr.hash.min.reduction=0.5;

-- 用于检测源表是否适合 map-side 聚合的条数。
set hive.groupby.mapaggr.checkinterval=100000;

-- map-side 聚合所用的哈希表,占用 map task 堆内存的最大比例,若超出该值,则会对哈希表进行一次 flush。
set hive.map.aggr.hash.force.flush.memory.threshold=0.9;

优化后的执行计划如图所示:(同样,实际图形需通过执行 EXPLAIN 命令获得)

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2152841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

进程和线程问题解答

线程和进程的概念、区别 进程是操作系统进行资源分配的基本单位,拥有独立的地址空间,包括代码、数据、堆、栈等。进程间的切换开销较大。 线程是进程中的一个执行单元,是系统中最小的执行单位,共享进程的资源,如代码…

利士策分享,中日核污染水排海问题共识背后的深思

利士策分享,中日核污染水排海问题共识背后的深思 近日,中日两国在应对福岛第一核电站核污染水排放问题上达成了重要共识,这一进展无疑值得肯定。 然而,这背后所引发的关于金钱、责任与利益的讨论,却值得我们深入探究。…

使用宝塔部署项目在win上

项目部署 注意: 前后端部署项目,需要两个域名(二级域名,就是主域名结尾的域名,需要在主域名下添加就可以了),前端一个,后端一个 思路:访问域名就会浏览器会加载前端的代…

什么是3D展厅?有何优势?怎么制作3D展厅?

一、什么是3D展厅? 3D展厅是一种利用三维技术构建的虚拟展示空间。它借助虚拟现实(VR)、增强现实(AR)等现代科技手段,将真实的展示空间数字化,呈现出逼真、立体、沉浸的展示效果。通过3D展厅&a…

剪映草稿批量自动化导出教程实操演示

如何批量自动导出草稿?今天我来实操演示。首先打开谷歌剪映助手 如果没有安装谷哥剪映助手的可以自行搜索下载,打开后找到批量导出多个草稿自动化导出。接着在右侧输入你要导出草稿的数量,其他的选项根据需求自行选择,最后点击立即…

【网络安全 | 靶机搭建】解决虚拟机联网问题(NAT模式)

背景:在电脑上下载并使用VMware虚拟机后,重装VMware时可能会遇到虚拟机无法联网的问题(例如,ping www.baidu.com 无法通畅)。这种情况可能是网络适配器被删除导致的。 本文将通过添加网络、安装网络适配器以及切换网络连接方式等步骤解决虚拟机的联网问题,具体步骤如下:…

笔记:将WPF中可视化元素(Visual)保存为图像,如PNG,JPEG或BMP的方法简介

一、目的:将WPF中可视化元素(Visual)保存为图像,如PNG,JPEG或BMP的方法简介 BitmapEncoder 是 WPF 中用于将图像数据编码为特定格式的基类。它提供了将 BitmapSource 对象保存为各种图像格式(如 PNG、JPEG、BMP 等&…

Android 空气质量刻度

效果 attrs.xml <attr name"textSpace" format"dimension|reference" /><attr name"barSpace" format"dimension|reference" /><attr name"scaleHeight" format"dimension|reference" /><at…

armbian debian 系统安装overlayroot后无法启用

千盼万盼 终于debian12可以用了 它终于也跟ubuntu 系统一样可以安装overlayroot了 但是 满怀欣喜的装完了发现 压根没法启动 这。。。。。 原因吗 也简单。。。 默认的映像里没有busybox......... 而它有这个要求。。。 overlayroot 包中有一个小错误&#xff1a;它要求 gr…

微服务远程调用(nacos及OpenFeign简单使用)

问题&#xff1a;在微服务中&#xff0c;每个项目是隔离开的&#xff0c;当有一个项目请求其他项目中的数据时&#xff0c;必须发起网络请求&#xff0c;本文即对此问题展开讨论。 1.使用restTemplate发送请求 //发送请求ResponseEntity<List<ItemDTO>> response …

影刀RPA实战:网页爬虫之药品数据

1 实战目标 这次给大家带来的实战示例是采集中国医药信息平台上的药品数据&#xff0c;主要获取药品名称&#xff0c;介绍&#xff0c;药品类型&#xff0c;处方类型&#xff0c;医保类型&#xff0c;参考价格&#xff0c;药品成分&#xff0c;性状&#xff0c;适应病症&#…

Qt断点调试

Qt断点操作与调试窗口介绍_哔哩哔哩_bilibili 下图来自上面的视频&#xff01;&#xff01;&#xff01; 1.断点调试常用的快捷键 ShiftF11&#xff1a;单步退出所在的那个函数&#xff0c;进行下一步 2.查看函数的调用情况 3.监视变量的值&#xff08;当前断点时的变量值&am…

《操作系统 - 清华大学》第 0 章:操作系统概述 —— 内容概述

介绍一下有关操作系统的一个基本的一个概述&#xff1a; 比如说什么是操作系统&#xff1f;为什么要学习操作系统&#xff0c;以及如何学好操作系统&#xff1f;然后接下来会介绍一下&#xff0c;当前操作系统一些实例以及操作系统的历史&#xff0c;它的演变的一个过程。最后…

wsl2桥接网络 ubuntu到弃坑到又跳坑

搜索Hyper-V image.png 如下图进入虚拟交换机管理器 image.png image.png C:\Users\Administrator下存放 ; 这是 WSL 2 的配置文件 [wsl2] processors4 ; 设置 WSL 2 可以使用的最大 CPU 核心数为 4&#xff0c;自行修改 memory4GB …

使用 KMeans 聚类算法 对鸢尾花数据集进行无监督学习的简单示例

代码功能 主要功能&#xff1a; 加载数据集&#xff1a; 代码使用 load_iris() 函数加载了鸢尾花数据集&#xff08;Iris dataset&#xff09;。这个数据集包含 150 条样本&#xff0c;每条样本有 4 个特征&#xff0c;对应于 3 种不同的鸢尾花。 KMeans 聚类&#xff1a; 使用…

Flowable基础篇

Flowable基础篇 课程环境说明&#xff1a; JDK8Flowable6.7.2MySQL8 一、基础知识科普 1.工作流发展 BPM(BusinessProcessManagement)&#xff0c;业务流程管理是一种管理原则&#xff0c;通常也可以代指BPMS(BusinessProcessManagementSuite)&#xff0c;是一个实现整合不同…

JAVA毕业设计178—基于Java+Springboot+vue的智能家具管理系统(源代码+数据库+万字论文)

毕设所有选题&#xff1a; https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringbootvue的智能家具管理系统(源代码数据库万字论文)178 一、系统介绍 本项目前后端分离(可以改为ssm版本)&#xff0c;分为用户、管理员两种角色 1、用户&#xff1…

从HarmonyOS升级到HarmonyOS NEXT-环信SDK数据迁移

2024年6月21日 HarmonyOS NEXT &#xff08;后续称之为 NEXT&#xff09; 正式发布&#xff0c;随着 NEXT 稳定版的逐渐临近&#xff0c;各个应用及SDK正在忙于适配 NEXT 系统&#xff0c;同样也面临着系统升级时如何对数据的迁移适配。本文通过使用环信 SDK 介绍如何从 Harmon…

计算机毕业设计推荐-基于python大数据的个性化图书数据可视化分析

&#x1f496;&#x1f525;作者主页&#xff1a;毕设木哥 精彩专栏推荐订阅&#xff1a;在 下方专栏&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; 实战项目 文章目录 实战项目 一、个性化图书数据可视化分析-项…

带你0到1之QT编程:十四、QV/HBoxLayout和QStatckedWidget双剑合璧

此为QT编程的第十四谈&#xff01;关注我&#xff0c;带你快速学习QT编程的学习路线&#xff01; 每一篇的技术点都是很很重要&#xff01;很重要&#xff01;很重要&#xff01;但不冗余&#xff01; 我们通常采取总-分-总和生活化的讲解方式来阐述一个知识点&#xff01; …