【hive-design】hive架构详解:描述了hive架构,hive主要组件的作用、hsql在hive执行过程中的底层细节、hive各组件作用

news2024/9/28 7:21:02

文章目录

  • 一. Hive Architecture
  • 二. Metastore
    • 1. Metastore Architecture
    • 2. Metastore Interface
  • 三. Compiler
  • 四. hive架构小结

本文主要讨论了

  • 描述了hive架构,hive主要组件的作用
  • 详细描述了hsql在hive执行过程中的底层细节
  • 描述了hive各组件作用

一. Hive Architecture

架构图:
在这里插入图片描述

如上图表达了hive的主要组件和以及与hadoop的交互:

主要的hive组件:

  1. UI:用户提交接口,用于用户提交查询和其他操作等。
  2. Driver:接收查询的组件。该组件实现了会话句柄(ing),并提供基于 JDBC/ODBC 接口的execute、 fetch APIs。
  3. Compiler:该组件解析查询,在不同查询块和查询表达式中做语义分析,最终借助从metastore查找的表和分区元数据生成执行计划。
  4. MetaStore:存储所有表、分区的结构化信息包括:列和列类型信息、读写数据所需的序列化器和反序列化器以及相关存储的hdfs文件(?)。
  5. Execution Engine:执行由Compiler生成的执行计划。执行计划是一个由stages组成的有向无环图,执行引擎管理stage之间的依赖关系,并让合适的组件执行对应的stage。

 

看下一个查询触发的hive行为

UI调用执行接口将查询发送到Driver,Driver创建了查询的session handle(会话句柄),并发送查询到Compiler来产生执行计划。Compiler从metastore中获取必要的元数据,这些元数据用于对查询树中的表达式进行类型检查,并根据查询谓词修剪分区。
 
compiler生成的执行计划是一系列组成DAG的stages,每一个stage可能是map/reduce任务、元数据操作或在HDFS的操作。
 
对于map/reduce stage,执行计划包含了map操作符树(执行在mapper上),reduce操作符树(执行在reduce上)。执行引擎提交这些stage到合适的组件上(steps 6, 6.1, 6.2 and 6.3)。
 
和表或中间结果相关的反序列化器用于读取HDFS文件的行,并通过相关的算子树传递这些行。当产生输出结果时,(为了防止不需要reduce,)mapper会通过序列化器将结果写出到一个HDFS临时文件,用于给下游stage提供数据。
 
dml和查询操作:
对于DML操作,最终的临时文件会被移到表的位置。且因为文件重命名是HDFS的原子操作,所以保证了任务不会读取脏数据。
对于查询操作,执行引擎直接从HDFS读取临时文件的内容,作为Driver fetch call的一部分。

 

二. Metastore

Metastore提供了数据仓库的两个重要但经常被忽视的特性:数据概述和数据发现。

  1. 如果没有Hive提供的数据概述,用户必须在查询的同时提供有关数据格式、提取器和加载器的信息。在Hive中,这个信息在表创建时给出,并且在每次表被引用时重用。这与传统的仓储系统非常相似。
  2. 数据发现,它使用户能够发现和探索仓库中的相关和特定数据。可以使用此元数据构建其他工具,以公开并可能增强有关数据及其可用性的信息。

 

1. Metastore Architecture

元数据是存储在数据库或文件后端的对象存储。数据库支持的存储是使用称为DataNucleus的对象关系映射(ORM)解决方案实现的。

将其存储在关系数据库中的主要动机是元数据的可查询性。但会存在同步和伸缩性的问题。

对于存储在HDFS上,因为无法对文件的随机更新,现在还没有明确的方法在HDFS上实现对象存储。这一点,再加上关系存储的可查询性优势,使我们的方法变得合理。

可以通过远程和嵌入式两种方式来配置Metastore。详情见:

https://cwiki.apache.org/confluence/display/Hive/AdminManual+Metastore+Administration

 

2. Metastore Interface

Metastore提供了一个Thrift接口来操作和查询Hive元数据。Thrift可以绑定到许多流行语言中。第三方工具可以通过该接口将Hive元数据集到其他业务元数据存储库中。

 

三. Compiler

Parser :

将查询转换为解释树表达式

 

Semantic Analyser:语义分析器

  • 解析树表达式转换为内部查询表达式,内部查询表达式是基于块的而不是算子树(ing)。

  • 此过程中还会执行:验证列名并展开(select)* 、类型检查和任何隐式类型转换。

  • 如果表是分区表,则收集该表的所有表达式,以便稍后使用它们来删除不需要的分区。如果查询指定了采样,那么也将收集采样以供以后使用。

 
Logical Plan Generator:逻辑计划产生器:

  • 转换内部查询表达式为逻辑计划,逻辑计划由算子树组成。
    其中一些算子是关系代数运算符,如“过滤”、“连接”等。一些算子是Hive特有的,稍后将该计划转换为一系列map-reduce作业。比如发生在map-reduce边界的reduceSink算子。
  • 此过程还包括优化器转换逻辑计划以提高性能,如下:
    – 将一系列join转换为单个multi-way join
    – map端执行group-by部分聚合
    – 分两个阶段执行group-by,以避免单个reducer因group key导致数据倾斜而成为瓶颈的情况。
  • 每个操作符包含一个描述符,它是一个可序列化的对象。

 
Query Plan Generator:查询计划产生器。

  • 将逻辑计划转变为一系列的map-reduce任务。操作符树被递归地遍历,被分解成一系列map-reduce可序列化的任务,这些任务稍后提交给Hadoop分布式文件系统的map-reduce框架
  • reduceSink算子是map-reduce边界,算子描述符中包含reduction key,作为map-reduce边界。
  • 如果查询中明确了samples/partitions,计划还会包含samples/partitions。
  • 执行计划会被序列化写到一个文件中。

 

上述参考官网:hive-Design
 

四. hive架构小结

Hive主要由以下四个模块组成:
在这里插入图片描述

1.用户接口模块
用来实现对hive的访问,有CLI、HWI、JDBC、Thrift Server等

  • Cli(Command Line Interface):即命令行操作,类似sql

  • web ui(界面基本不用)

  • 通过jdbc/odbc进行连接:一般地hive连接:jdbc:hive2://(hive所在节点的)主机名:10000;

从上面的架构图可以看到,通过JDBC、ODBC连接,先会经过Thrift Server,然后再到Driver;其他通过command line和hive web interface则直接和Driver进行交互。

 

2.thrift server

即跨语言服务层:它将其他语言(java,c,python)转化为hive可识别的语言可以让不同的编程语言调用Hive的接口。

其中hive提供的Thrift 接口可以让用户通过JDBC连接发送HiveQL请求到thrift接口,然后交由 Driver,最后Thrift将执行结果返回客户端。

 
3.Driver
Hive执行的核心流程:

解释器:将Hql语句转化为抽象的语法树(提取关键字);

编译器:将抽象语法树编译成mapreduce任务;

优化器:对编译结果进行优化(任务的合并);

执行器:最后由 Executor 执行器进行执行。

 

  1. Meta Store

1)hive元数据可以存储在mysql中。默认元数据存储在一个自带的关系型数据库derby,但因为是单用户企业不适用。

2)hive元数据的储存内容:表数据的字段信息(字段名,字段类型,字段顺序)、表名信息表、以及和hdfs目录对应的关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1262505.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Authing CEO 谢扬来信 |我的原则

从忙碌的工作中短暂抽身,有很多感想,不吐不快,借此机会,倾我所有,诉我原则。 原则一:坚强信念,坚定意志 商人大多「无利不起早」,而创业者的反馈周期比商人长非常非常多。 相比「商品…

微服务知识大杂烩

1.什么是微服务? 微服务(Microservices)是一种软件架构风格,将一个大型应用程序划分为一组小型、自治且松耦合的服务。每个微服务负责执行特定的业务功能,并通过轻量级通信机制(如HTTP)相互协作。每个微服务可以独立开发、部署和扩展,使得应用程序更加灵活、可伸缩和可…

认证授权常见方式

认证授权 认证 (Authentication) 和授权 (Authorization)的区别是什么? 说简单点就是: 认证 (Authentication): 你是谁。授权 (Authorization): 你有权限干什么。 稍微正式点(啰嗦点)的说法就是&#x…

15亿元!类ChatGPT平台AI21 Labs,获巨额融资

著名生成式AI平台AI21 Labs在官网宣布,获得2.08亿美元(约15亿元)C系列融资,估值14亿美元(约100亿)。 本次由英特尔旗下风投机构、康卡斯特旗下风投机构、现有投资者Ahren Innovation Capital等联合投资&am…

使用Zoho Projects项目管理系统进行研发排期的策略与方法

研发排期旨在有序地填充待开发的就绪队列,明确最近的发布计划,让准备就绪的需求如行云流水般进入开发阶段。 使用Zoho Projects项目管理系统进行研发排期的步骤如下: 1.创建项目: 登录Zoho Projects账户,创建一个新项…

java学习part19接口

113-面向对象(高级)-接口的使用_哔哩哔哩_bilibili 1.接口概念 个人认为是一种能力,某个类是否具有某种能力。一个类实现了一个接口就相当于学会了某些功能。 2.使用 接口里的属性都是全局常量public static final,即便不写也会自动加上。 3.多实现 4.接…

wsl 命令详解

WSL 简介 WSL全称 Windows Subsystem for Linux ,是微软开发的一个运行在Windows上的兼容层,它允许开发人员和用户直接在Windows上运行原生Linux二进制文件,而无需配置或修改系统。 WSL命令是用于管理和操作WSL子系统的工具。 常用WSL命令…

【运维知识大神篇】超详细的ELFK日志分析教程5(Logstash中Filter常用插件详解+实战练习)

本篇文章主要讲解logstash的有关内容,包括filter的grok、date、user_agent、geoip、mutate插件,多个输入输出方案(多实例if多分支语句),每个知识点都涉及实战练习,在实战中学习,事半功倍&#x…

信号分析仪-4024CA频谱分析仪 频率范围9kHz~9GHz

01 4024CA频谱分析仪 产品综述: 4024CA频谱分析仪是一款专为外场测试而设计的大宽带手持式实时频谱分析仪,最大实时分析带宽达到120MHz,具有实时频谱分析、5G NR解调分析、LTE FDD/TDD解调分析、GSM/EDGE解调分析、定向分析等多种测量功能…

英伟达“阉割版”AI芯片遇阻,推迟至明年发布 | 百能云芯

近日,英伟达(Nvidia)为遵守美国出口规定而推迟在中国市场推出的新款人工智能(AI)芯片引起了业界广泛关注。 据路透社报道,两位消息人士透露,该芯片被命名为H20,是英伟达为遵守美国最…

JavaEE(SpringMVC)期末复习(选择+填空+解答)

文章目录 JavaEE期末复习一、单选题:二、多选题三、填空题四、解答 JavaEE期末复习 一、单选题: 1.Spring的核⼼技术是( A )? A依赖注入 B.JdbcTmplate C.声明式事务 D.资源访问 Spring的核心技术包括依赖注入&#x…

从零带你底层实现unordered_map (2)

💯 博客内容:从零带你实现unordered_map 😀 作  者:陈大大陈 🚀 个人简介:一个正在努力学技术的准C后端工程师,专注基础和实战分享 ,欢迎私信! 💖 欢迎大家…

springboot云HIS医院信息综合管理平台源码

满足基层医院机构各类业务需要的健康云HIS系统。该系统能帮助基层医院机构完成日常各类业务,提供病患挂号支持、病患问诊、电子病历、开药发药、会员管理、统计查询、医生站和护士站等一系列常规功能,能与公卫、PACS等各类外部系统融合,实现多…

服务器主机安全如何保障

随着互联网的快速发展,服务器主机安全问题日益凸显。服务器主机是网络世界中的核心,其安全性关乎着整个网络系统的稳定性和可靠性。 当前,服务器主机面临着多种安全威胁。其中,网络攻击是最为常见的一种。网络攻击者利用各种手段…

Java核心知识点整理大全20-笔记

目录 17. 设计模式 17.1.1. 设计原则 17.1.24. 解释器模式 18. 负载均衡 18.1.1.1. 四层负载均衡(目标地址和端口交换) 18.1.1.2. 七层负载均衡(内容交换) 18.1.2. 负载均衡算法/策略 18.1.2.1. 轮循均衡(Roun…

【doccano】文本标注工具——安装运行教程

笔记为自我总结整理的学习笔记,若有错误欢迎指出哟~ 【doccano】文本标注工具 doccano简介安装doccano1. 创建并激活虚拟环境2. 安装doccano 运行Doccano访问Doccano doccano简介 doccano是一个开源的文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释…

人工智能应用:文本分类的技术突破与实战指导

随着信息爆炸式增长,处理大量文本数据的需求也日益迫切。文本分类作为一种常见的人工智能应用,通过将文本数据分到不同的预定义类别中,帮助解决信息分类和处理的问题。本文将探讨文本分类的技术突破以及实战指导,帮助读者了解其原…

spring-boot集成mybatis-generator

通用 Mapper 在 1.0.0 版本的时候增加了 MyBatis Generator (以下简称 MBG) 插件&#xff0c;使用该插件可以很方便的生成实体类、Mapper 接口以及对应的 XML 文件。 下面介绍了 mybatis-generator 在 spring-boot 中的使用过程 一、引入pom依赖 <dependencies><de…

IE工业工程不可不知的高效工具 – 视与视ECRS生产现场动作分析与改善软件

生产现场的作业效率如何改善&#xff1f; 如何有效优化一线生产者的动作&#xff0c;从而提升作业效率&#xff1f; 新进员工如何进行规范化的作业培训&#xff1f; 如何对班组、个人的生产效率进行定量分析与优化&#xff1f; 山积表、作业指导书、标准作业组合表、生产平…

2.3基于springboot养老院管理系统

2.3基于springboot养老院管理系统 成品项目已经更新&#xff01;同学们可以打开链接查看&#xff01;需要定做的及时联系我&#xff01;专业团队定做&#xff01;全程包售后&#xff01; 2000套项目视频链接&#xff1a;https://pan.baidu.com/s/1N4L3zMQ9nNm8nvEVfIR2pg?pwd…