Hive企业级调优[8]—— 其他优化

news2024/9/24 2:23:29

目录

 其他优化

CBO优化

 优化说明

 优化案例

 谓词下推

 优化说明

 优化案例

 矢量化查询

Fetch抓取

 本地模式

优化说明

 优化案例

并行执行

 严格模式


 其他优化

CBO优化

 优化说明

CBO(Cost Based Optimizer),即基于成本的优化。在Hive中,成本模型考虑到了数据的行数、CPU、本地IO、HDFS IO、网络IO等因素。Hive会计算同一SQL语句的不同执行计划的成本,并选择成本最低的执行计划。目前,CBO在Hive的MR引擎下主要用于join的优化,如多表join的join顺序。

相关参数:

-- 是否启用CBO优化
set hive.cbo.enable=true;
 优化案例

1)示例SQL语句

hive (default)> select
    >     *
    > from order_detail od
    > join product_info product on od.product_id=product.id
    > join province_info province on od.province_id=province.id;

2)关闭CBO优化

-- 关闭CBO优化
set hive.cbo.enable=false;

-- 为了测试效果更加直观,关闭Map Join自动转换
set hive.auto.convert.join=false;

3)开启CBO优化

-- 开启CBO优化
set hive.cbo.enable=true;

-- 为了测试效果更加直观,关闭Map Join自动转换
set hive.auto.convert.join=false;

4)总结

根据上述案例可以看出,CBO优化对于执行计划中join顺序有显著影响。它将province_info的join顺序提前,因为province_info的数据量较小,这样做可以使中间结果的数据量减小,从而降低整体计算任务的数据量,即减小计算成本。

 谓词下推

 优化说明

谓词下推(Predicate Pushdown)是指尽量将过滤操作前移,以减少后续计算步骤的数据量。

相关参数:

-- 是否启动谓词下推优化
set hive.optimize.ppd = true;

需要注意的是,CBO优化也会完成一部分的谓词下推优化工作,因为在执行计划中,谓词越靠前,整个计划的计算成本就越低。

 优化案例

1)示例SQL语句

hive (default)> select
    >     *
    > from order_detail
    > join province_info
    > where order_detail.province_id='2';

2)关闭谓词下推优化

-- 是否启动谓词下推优化
set hive.optimize.ppd = false;

-- 为了测试效果更加直观,关闭CBO优化
set hive.cbo.enable=false;

3)开启谓词下推优化

-- 是否启动谓词下推优化
set hive.optimize.ppd = true;

-- 为了测试效果更加直观,关闭CBO优化
set hive.cbo.enable=false;
 矢量化查询

Hive的矢量化查询优化依赖于CPU的矢量化计算能力,可以极大地提高某些典型查询场景(如scans, filters, aggregates, and joins)下的CPU使用效率。

相关参数:

set hive.vectorized.execution.enabled=true;

若执行计划中出现“Execution mode: vectorized”字样,则表明使用了矢量化计算。

官网参考链接: Vectorized Query Execution - Apache Hive - Apache Software Foundation

Fetch抓取

Fetch抓取是指,在某些情况下,Hive可以不必使用MapReduce计算。例如:select * from emp; 在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。

相关参数:

-- 是否在特定场景转换为Fetch任务
-- 设置为none表示不转换
-- 设置为minimal表示支持select *,分区字段过滤,Limit等
-- 设置为more表示支持select 任意字段, 包括函数,过滤,和limit等
set hive.fetch.task.conversion=more;

 本地模式

优化说明

大多数的Hadoop Job需要Hadoop提供的完整可扩展性来处理大数据集。然而,有时Hive的输入数据量很小。在这种情况下,为查询触发执行任务消耗的时间可能比实际Job的执行时间更长。对于这种情况,Hive可以通过本地模式在单台机器上处理所有任务,从而缩短执行时间。

相关参数:

-- 开启自动转换为本地模式
set hive.exec.mode.local.auto=true;

-- 设置Local MapReduce的最大输入数据量,当输入数据量小于这个值时采用Local MapReduce的方式,默认为134217728(即128MB)
set hive.exec.mode.local.auto.inputbytes.max=50000000;

-- 设置Local MapReduce的最大输入文件个数,当输入文件个数小于这个值时采用Local MapReduce的方式,默认为4
set hive.exec.mode.local.auto.input.files.max=10;
 优化案例

1)示例SQL语句

hive (default)> select
    >     count(*)
    > from product_info
    > group by category_id;

2)关闭本地模式

set hive.exec.mode.local.auto=false;

3)开启本地模式

set hive.exec.mode.local.auto=true;
并行执行

Hive会将一个SQL语句转化为一个或多个Stage,每个Stage对应一个MR Job。默认情况下,Hive同时只会执行一个Stage。但是,某些SQL语句可能包含多个Stage,而这些Stage之间并非完全依赖,因此可以并行执行。

相关参数:

-- 启用并行执行优化
set hive.exec.parallel=true;

-- 同一个SQL允许的最大并行度,默认为8
set hive.exec.parallel.thread.number=8;
 严格模式

Hive可以通过设置某些参数来防止危险的操作:

  1. 分区表不使用分区过滤

     

    hive.strict.checks.no.partition.filter设置为true时,对于分区表,除非WHERE语句中含有分区字段过滤条件来限制范围,否则不允许执行。这样可以防止扫描所有分区,因为分区表通常数据量很大且增长迅速。

  2. 使用ORDER BY没有LIMIT过滤

     

    hive.strict.checks.orderby.no.limit设置为true时,对于使用了ORDER BY语句的查询,要求必须使用LIMIT语句。这是因为ORDER BY为了执行排序过程会将所有结果数据发送到同一个Reduce中处理,使用LIMIT可以在数据进入Reduce之前减少部分数据。

  3. 笛卡尔积

     

    hive.strict.checks.cartesian.product设置为true时,会限制笛卡尔积的查询。对于关系型数据库熟悉的用户可能期望在执行JOIN查询时不使用ON语句而是使用WHERE语句,这样关系数据库的执行优化器可以高效地将WHERE语句转化为ON语句。然而,Hive不会执行这种优化,如果表足够大,查询可能会变得不可控。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2159074.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

英特尔AI加速器Gaudi 3下周发布,挑战NVIDIA统治地位!

英特尔正稳步推进其2024年计划,备受瞩目的AI加速器Gaudi3预计将于下周震撼登场。这款被誉为英特尔AI英雄的产品,专注于处理大规模训练和推理任务,拥有无与伦比的扩展能力。面对市场对高效能半导体的旺盛需求,英特尔首席执行官帕特…

Snap 发布新一代 AR 眼镜,有什么特别之处?

Snap 发布新一代 AR 眼镜,有什么特别之处? Snap 简介 新一代的 AR 眼镜特点 Snap 简介 Snap 公司成立于 2010 年,2017 年美国东部时间 3 月 2 日上午 11 时许,在纽交所正式挂牌交易,股票代码为 “SNAP”。其旗下的核…

力扣 2529.正整数和负整数的最大计数

文章目录 题目介绍解法 题目介绍 解法 采用红蓝染色体法,具体介绍参考 红蓝染色体法 通过红蓝染色体法可以找到第一个大于大于target的位置,使所以本题可以找第一个大于0的位置,即负整数的个数;数组长度 - 第一个大于1的位置即正…

2000-2012年各地级市市长特征信息数据/市长特征信息大全数据

2000-2012年各地级市市长特征信息数据 1、时间:2000-2012年 2、来源:百度搜索手工整理 3、指标:省级政区代码、省级政区名称、地市级政区代码、地市级政区名称、年份、市长姓名、出生年份、出生月份、籍贯省份代码、籍贯省份名称、籍贯地市…

垃圾邮件检测_TF-IDF分析,聚类分析与朴素贝叶斯

数据入口:基于机器学习的垃圾信息识别分类 - Heywhale.com 本数据集专为邮件和短信的垃圾信息分类设计,适合建立垃圾邮件检测模型。 数据说明 字段名说明message_content邮件或短信的正文内容is_spam标签,指示该消息是否为垃圾信息&#x…

恒生科指八连涨,汽车股强势

9月20日电 周五,港股三大股指集体收涨。恒生指数涨1.36%报18258.57点,连续第六个交易日上涨;恒生科技指数涨1.43%报3703.84点,连续第八个交易日上涨,创逾两个月来新高;恒生中国企业指数涨1.21%报6381.5点&a…

Set 和 Map 的模拟实现

1、引言 在数据结构与算法的学习与实践中,关联容器(associative containers)是不可忽视的重要工具。作为高效管理数据的一类容器,C 标准库中的 set 和 map 在现代软件开发中扮演着关键角色。这两个容器通过平衡二叉搜索树&#x…

c++类中的特殊函数

My_string.cpp #include <iostream> #include "my_string.h" #include <string.h> using namespace std; My_string::My_string():size(15) { this->ptr new char[size] ; this->ptr[0]\0;//串为空串 this->len 0; }; My_string::My_str…

Leetcode3289. 数字小镇中的捣蛋鬼

Every day a Leetcode 题目来源&#xff1a;3289. 数字小镇中的捣蛋鬼 解法1&#xff1a;哈希 代码&#xff1a; /** lc appleetcode.cn id3289 langcpp** [3289] 数字小镇中的捣蛋鬼*/// lc codestart class Solution { public:vector<int> getSneakyNumbers(vector…

基于SpringBoot+Vue+MySQL的电影院购票管理系统

系统展示 用户前台界面 管理员后台界面 系统背景 随着电影产业的蓬勃发展&#xff0c;电影院已成为人们休闲娱乐的重要场所。然而&#xff0c;传统的电影院购票管理系统存在诸多不便&#xff0c;如购票流程繁琐、排队时间长、无法提前选座等问题&#xff0c;给观众的观影体验带…

光控资本:沪指涨0.72%,煤炭、银行板块拉升,车路云概念活跃

23日早盘&#xff0c;沪指盘中强势上扬&#xff0c;深证成指亦走高&#xff0c;场内超3100股飘红。 到午间收盘&#xff0c;沪指涨0.72%报2756.39点&#xff0c;深证成指涨0.58%&#xff0c;创业板指微涨0.09%&#xff0c;上证50指数涨0.73%&#xff1b;两市估计成交3657亿元。…

828华为云征文 | 将Vue项目部署到Flexus云服务器X实例并实现公网访问

一、Flexus云服务器X实例简介 1.1 概述 华为云Flexus X实例是华为云推出的一款创新云服务器产品&#xff0c;它主要面向中小企业和开发者&#xff0c;旨在解决传统云服务中的痛点&#xff0c;提供更加灵活、高效的云服务体验。 华为深刻洞察了中小企业和开发者在云服务应用中遇…

全栈开发(三):springBoot3中使用mybatis-plus

MyBatis-Plus &#x1f680; 为简化开发而生 (baomidou.com) 1.配置pom.xml <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-spring-boot3-starter</artifactId><version>3.5.7</version></dependency&g…

JavaScript --- 字符串常用方法(2)

concat拼接 和号一样 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdev…

基于微信小程序的商品展示+ssm(lw+演示+源码+运行)

商品展示系统 摘 要 随着我国经济迅速发展&#xff0c;人们对手机的需求越来越大&#xff0c;各种手机软件也都在被广泛应用&#xff0c;但是对于手机进行数据信息管理&#xff0c;对于手机的各种软件也是备受用户的喜爱&#xff0c;微信小程序被用户普遍使用&#xff0c;为方…

英伟达 Blackwell平台和ASIC芯片升级助力,预计2025年液冷散热渗透率将超20%

TrendForce集邦咨询: 英伟达 Blackwell平台和ASIC芯片升级助力&#xff0c;预计2025年液冷散热渗透率将超20% 根据TrendForce集邦咨询最新调查&#xff0c;随着NVIDIA Blackwell新平台预计于2024年第四季出货&#xff0c;将推动液冷散热方案的渗透率明显增长&#xff0c;从202…

完全无线测量物体电压

无线电压测量的物理原理 所有导电物体都具有一定的电容&#xff0c;我们可以将其分为自电容和相对于其他导体的电容。对于孤立物体&#xff0c;自电容占主导地位&#xff1b;对于导电球体&#xff0c;这是教科书表达式C 4 πεε 0 R&#xff0c;其中ε 0是自由空间的介电常数…

MQ入门(二):java客户端SpringAMQP

目录 1.SpringAMQP 1.1.导入demo工程 1.2.快速入门 1.2.1.消息发送 1.2.2.消息接收 1.2.3.测试 1.3.WorkQueues模型 1.4.交换机类型 1.4.1.Fanout交换机 1.4.2.Direct交换机 1.4.3.Topic交换机 1.5.声明队列和交换机 1.5.1.基于注解声明 1.6.消息转换器 1.6.1.测…

Centos Stream 9根目录扩容

要将 sda 的剩余空间扩展给 cs-root&#xff0c;可以按照以下步骤进行操作。假设你已经有剩余的未分配空间在 sda 上。 步骤 1&#xff1a;查看当前磁盘分区情况 首先&#xff0c;确保你有未分配的空间在 sda 上。 lsblk步骤 2&#xff1a;创建新的分区 使用 fdisk 或 par…