Hive工作原理

news2026/2/16 2:32:40

Hive 工作原理详解-阿里云开发者社区

Hive的服务端组件

1. Driver组件：该组件包括：Compiler、Optimizer、Executor,它可以将Hive的编译、解析、优化转化为MapReduce任务提交给Hadoop1中的JobTracker或者是Hadoop2中的SourceManager来进行实际的执行相应的任务。

2. MetaStore组件：存储着hive的元数据信息，将自己的元数据存储到了关系型数据库当中，支持的数据库主要有：Mysql、Derby、支持把metastore独立出来放在远程的集群上面，使得hive更加健壮。元数据主要包括了表的名称、表的列、分区和属性、表的属性（是不是外部表等等）、表的数据所在的目录。

3. 用户接口：CLI（Command Line Interface)(常用的接口：命令行模式）、Client:Hive的客户端用户连接至Hive Server ,在启动Client的时候，需要制定Hive Server所在的节点，并且在该节点上启动Hive Server、WUI:通过浏览器的方式访问Hive。

Hive的工作原理

流程大致步骤为：

1. 用户提交查询等任务给Driver。

2. 编译器获得该用户的任务Plan。

3. 编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。

4. 编译器Compiler得到元数据信息，对任务进行编译，先将HiveQL转换为抽象语法树，然后将抽象语法树转换成查询块，将查询块转化为逻辑的查询计划，重写逻辑查询计划，将逻辑计划转化为物理的计划（MapReduce）, 最后选择最佳的策略。

5. 将最终的计划提交给Driver。

6. Driver将计划Plan转交给ExecutionEngine去执行，获取元数据信息，提交给JobTracker或者SourceManager执行该任务，任务会直接读取HDFS中文件进行相应的操作。

7. 获取执行的结果。

8. 取得并返回执行结果。

创建表时：

解析用户提交的Hive语句-->对其进行解析-->分解为表、字段、分区等Hive对象。根据解析到的信息构建对应的表、字段、分区等对象，从SEQUENCE_TABLE中获取构建对象的最新的ID，与构建对象信息（名称、类型等等）一同通过DAO方法写入元数据库的表中，成功后将SEQUENCE_TABLE中对应的最新ID+5.实际上常见的RDBMS都是通过这种方法进行组织的，其系统表中和Hive元数据一样显示了这些ID信息。通过这些元数据可以很容易的读取到数据。

Hive编译过程

基本流程为：将HiveQL转化为抽象语法树再转为查询块然后转为逻辑查询计划再转为物理查询计划最终选择最佳决策的过程。

优化器的主要功能：

1. 将多Multiple join 合并为一个Muti-way join

2. 对join、group-by和自定义的MapReduce操作重新进行划分。

3. 消减不必要的列。

4. 在表的扫描操作中推行使用断言。

5. 对于已分区的表，消减不必要的分区。

6. 在抽样查询中，消减不必要的桶。

7. 优化器还增加了局部聚合操作用于处理大分组聚合和增加再分区操作用于处理不对称的分组聚合。

Hive的数据类型

注意：

1. 原子数据类型是可以进行隐式的转换的，例如tinyInt类型会自动转为Int类型但是不能由int自动转为tinyInt类型。

2. 所有的整数类型、Float和String类型都可以转换为Double类型。

3. TinyInt、SmallInt、Int都可以转为Float类型。

4. Boolean 类型不可以转换为其他的任何类型。

5. 可以通过使用Cast操作显示的进行数据转换，例如Cast('1' as int);将字符串转为整型，如果强制转换失败如：Cast('X' as int);表达式返回的是NULL;

Hive的特点

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1020994.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

《数字图像处理-OpenCV/Python》连载（7）视频文件的读取与保存

《数字图像处理-OpenCV/Python》连载（7）视频文件的读取与保存

《数字图像处理-OpenCV/Python》连载（7）视频文件的读取与保存本书京东优惠购书链接：https://item.jd.com/14098452.html 本书CSDN独家连载专栏：https://blog.csdn.net/youcans/category_12418787.html 第1章图像的基本操作为…

阅读更多...

记录一下 ThinkPHP 使用JWT进行身份验证

记录一下 ThinkPHP 使用JWT进行身份验证

ThinkPHP使用JWT身份验证 1.composer安装jwt，安装命令：composer require firebase/php-jwt 安装成功后会在vendor目录下生成firebase目录文件第二步：生成token 先引入jwt use Firebase\JWT\JWT; public function getToken($user){//使…

阅读更多...

安达发|APS软件多工厂架构引领生产管理新革命

安达发|APS软件多工厂架构引领生产管理新革命

APS多工厂架构是一种生产管理系统，它通过将多个工厂的生产过程进行整合和优化，实现了生产效率的提高和成本的降低。在APS多工厂架构中，每个工厂都有自己的生产线和生产计划，但是它们之间可以进行协调和协作，以确保整个…

阅读更多...

深度学习归一化原理及代码实现(BatchNorm2d,LayerNorm,InstanceNorm,GroupNorm)

深度学习归一化原理及代码实现(BatchNorm2d,LayerNorm,InstanceNorm,GroupNorm)

文章目录概述形式原理理解源代码实现1.BatchNorm2d2.LayerNorm3.InstanceNorm4.GroupNorm 概述本文记录总结pytorch中四种归一化方式的原理以及实现方式。方便后续理解和使用。本文原理理解参考自 https://zhuanlan.zhihu.com/p/395855181 形式四种归一化的公式都是相同的…

阅读更多...

油猴Safari浏览器辅助插件：Tampermonkey for Mac中文版

油猴Safari浏览器辅助插件：Tampermonkey for Mac中文版

油猴脚本Tampermonkey是一款油猴Safari浏览器辅助插件，是一款适用于Safari用户的脚本管理，能够方便管理不同的脚本。虽然有些受支持的浏览器拥有原生的用户脚本支持，但tampermonkey油猴插件将在您的用户脚本管理方面提供更多的便利&#xff0…

阅读更多...

使用Python进行时间序列分析的8种图

使用Python进行时间序列分析的8种图

时间序列数据时间序列数据是按时间顺序以固定的时间间隔排列的观测值的集合。每个观察对应于特定的时间点，并且数据可以以各种频率（例如，每日、每月、每年）。这种类型的数据在许多领域都非常重要，包括金融&#xff0…

阅读更多...

linux+c语言杂记（二）

linux+c语言杂记（二）

一、在 Ubuntu 20.04 上安装 GCC 默认的 Ubuntu 软件源包含了一个软件包组，名称为 “build-essential”,它包含了 GNU 编辑器集合，GNU 调试器，和其他编译软件所必需的开发库和工具。想要安装开发工具软件包，以拥有 sudo 权限用…

阅读更多...

新一代最强开源UI自动化测试神器Playwright（Java版）（对话框处理）

新一代最强开源UI自动化测试神器Playwright（Java版）（对话框处理）

🎭Playwright让网页对话框🌐💬处理变得更加快捷！网页对话框是在网页上出现的常见弹窗，包括Alert、Confirm和Prompt等。这些对话框通常需要用户输入信息或进行某些选择，但是在自动化测试中处理它们可能会很棘…

阅读更多...

双周赛113（枚举、分类讨论 + 二分查找、枚举值域两数之和、换根DP）

双周赛113（枚举、分类讨论 + 二分查找、枚举值域两数之和、换根DP）

文章目录双周赛113[2855. 使数组成为递增数组的最少右移次数](https://leetcode.cn/problems/minimum-right-shifts-to-sort-the-array/)暴力枚举贪心 O(n) [2856. 删除数对后的最小数组长度](https://leetcode.cn/problems/minimum-array-length-after-pair-removals/)分类讨…

阅读更多...

[MAUI]实现动态拖拽排序网格

[MAUI]实现动态拖拽排序网格

文章目录创建页面元素创建可绑定对象创建绑定服务类拖拽（Drag）拖拽悬停，经过（DragOver）释放（Drop） 限流(Throttle)和防抖(Debounce)项目地址上一章我们使用拖放(drag-drop)手势识别实现了可拖…

阅读更多...

TCP/IP协议栈各层涉及到的协议

TCP/IP协议栈各层涉及到的协议

21/tcp FTP 文件传输协议 22/tcp SSH 安全登录、文件传送(SCP)和端口重定向 23/tcp Telnet 远程连接 80/tcp HTTP 443/tcp HTTPS 计算机各层网络协议五层：应用层: (典型设备:应用程序，如FTP，SMTP ，HTTP) DHCP(Dynamic Host…

阅读更多...

Pikachu Burte Force（暴力破解）

Pikachu Burte Force（暴力破解）

一、Burte Force（暴力破解）概述 “暴力破解”是一攻击具手段，在web攻击中，一般会使用这种手段对应用系统的认证信息进行获取。其过程就是使用大量的认证信息在认证接口进行尝试登录，直到得到正确的结果。为了提高…

阅读更多...

RFID与人工智能怎么融合，RFID与人工智能融合的应用

RFID与人工智能怎么融合，RFID与人工智能融合的应用

随着物联网技术的不断发展，现实世界与数字世界的桥梁已经被打通。物联网通过各种传感器，将现实世界中的光、电、热等信号转化为有价值的数据。这些数据可以通过RFID技术进行自动收集和传输，然后经由人工智能算法进行分析、建模和预测&#xf…

阅读更多...

uniapp cli创建 vue3 + typeScript项目配置eslint prettier husky

uniapp cli创建 vue3 + typeScript项目配置eslint prettier husky

1 命令创建项目 npx degit dcloudio/uni-preset-vue#vite-ts my-vue3-project2 下载依赖 npm install3 填写appid 4 运行项目并且微信开发工具打开 npm run dev:mp-weixin5 安装 vscode 插件安装 **Vue Language Features (Volar)** ：Vue3 语法提示插件安装 *…

阅读更多...

伦敦银一手是多少？

伦敦银一手是多少？

伦敦银是以国际现货白银价格为跟踪对象的电子合约交易，无论投资者通过什么地方的平台进入市场，执行的都是统一国际的标准，一手标准的合约所代表的就是5000盎司的白银，如果以国内投资者比较熟悉的单位计算，那约相当于15…

阅读更多...

http客户端Feign使用

http客户端Feign使用

一、RestTemplate方式调用存在的问题先来看我们以前利用RestTemplate发起远程调用的代码： String url "http://userservice/user/" order.getUserId(); User user restTemplate.getForObject(url, User.class);存在下面的问题： 代码可读…

阅读更多...

Mosh Java课程自学（一）

Mosh Java课程自学（一）

目录一、前言二、全局介绍三、Types 一、前言首先推荐一下B站上转载的Mosh讲Java课程，当然，建议有一定基础并且英文水平尚可的同学学习，否则你可能会被搞得很累并逐渐失去对编程的兴趣。 Mosh 【JAVA终极教程】中英文字幕高清完整版…

阅读更多...

口袋参谋：如何高效一键下载真实买家秀？

口袋参谋：如何高效一键下载真实买家秀？

在淘宝天猫上，即使卖一支笔都有上万个宝贝竞争，所有卖家拼的就是权重带来的曝光度，能展示给买家多少，自己收获多少流量。如何用自己的优势将流量访客转化为顾客，提升店铺的转化率。而买家秀，就是为此而生…

阅读更多...

Java常用类之 String、StringBuffer、StringBuilder

Java常用类之 String、StringBuffer、StringBuilder

Java常用类文章目录一、字符串相关的类1.1、String的不可变性1.2、String不同实例化方式的对比1.3、String不同拼接操作的对比1.4、String的常用方法1.5、String类与其他结构之间的转换1.5.1、String 与基本数据类型、包装类之间的转换1.5.2、String 与char[]的转换1.5.3、…

阅读更多...

ipad可以使用其他品牌的手写笔吗？开学平价电容笔推荐

ipad可以使用其他品牌的手写笔吗？开学平价电容笔推荐

新学期已经来临，相信不少同学已经开始着手筹备新学期的该准备什么了，毕竟原装的苹果Pencil，功能强大，但价格昂贵，一般人根本买不起。那么，有没有像苹果原装那样的电容笔呢？当然是有的。国产的平…

阅读更多...

推荐文章

最新文章