Hive及其架构简介

Hive及其架构简介

news2025/4/8 11:02:08

什么是 Hive ？

一个基于 Hadoop 的数据仓库，适用于一些高延迟性的应用（离线开发），可以将存储在 Hadoop 文件中的结构化、半结构化数据文件映射为一张数据库表，并基于表提供类似 SQL 的查询模型，称为 Hive 查询语言（HQL），用于访问和分析存储在 Hadoop 文件中的大型数据集；
Hive 的核心是将 HQL 转换为 MapReduce 程序，然后将程序提交到 Hadoop 集群执行；
Hive 本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表是纯逻辑表；

什么是数据仓库？

数据仓库本身并不“生产“任何数据，其数据来源于不同外部系统；
同时数据仓库自身也不需要”消费“任何的数据，其结果开放给各个外部应用使用；
这就是为什么叫”仓库“，而不叫”工厂的原因“；

Hive 架构及组件

在这里插入图片描述

Meta store：通常存储在关系型数据库如 Mysql / derby 中，Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性(是否是外部表等)，表的数据所在目录等；
Driver：驱动程序，包括语法解析器、计划编译器、优化器、执行器。完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有执行引擎调用执行；
- 解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST ，对 AST 进行语法分析，比如 SQL 语义是否正确、表是否存在、字段是否存在；
- 编译器（Physical Plan）：将 AST 编译生成逻辑执行计划（DAG）；
- 优化器（Query Optimizer）：对逻辑执行计划进行优化；
- 执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划，就是 MapReduce / Spark 程序；

HQL 执行流程

在这里插入图片描述

发起请求： 从UI发起执行请求到Driver；
获取执行计划： Driver将用户请求发送到编译器获取执行计划；
获取元数据： 编译器根据 SQL 语句中相关表和分区信息从 Meta store 获取相关元数据；
返回元数据： Meta store 向编译器返回对应元数据；
返回执行计划： 根据表和分区的元数据对 SQL 解析和优化，生成逻辑执行计划。该计划是一个 DAG 图，每个 stage 对应一个 MapReduce 的 map 或者 reduce 操作；
运行执行计划： 将执行计划发送到 Execution Engine，执行引擎会将逻辑执行计划提交到 Hadoop 中以 MapReduce 形式进行执行；
运行结果获取： Driver将运行结果收集发送给UI；

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1926008.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

秋招突击——7/12——复习{每日温度、完全平方数、无重复最长子串}——新作{字节面试——控制多线程按照顺序输出}

秋招突击——7/12——复习{每日温度、完全平方数、无重复最长子串}——新作{字节面试——控制多线程按照顺序输出}

文章目录引言复习每日温度复习实现参考学习完全平方数复习实现参考学习无重复字符的最长子串复习实现参考学习新作控制多线程输出Java实现线程——不使用锁实现使用synchronized关键实现——使用锁实现使用synchronized、wait和notify关键字实现总结引言今天又要面试字…

阅读更多...

006-三台交换机堆叠

006-三台交换机堆叠

三台交换机堆叠链形连接和环形连接链形配置IRF与环形配置IRF的区别三个交换机链形配置IRF与三个交换机环形配置IRF的主要区别体现在以下几个方面： 物理位置要求： 链形连接：对成员设备的物理位置要求相对较低，主要适用于成员…

阅读更多...

Java 过载状态下的快速失败

Java 过载状态下的快速失败

Java Chassis 3技术解密：过载状态下的快速失败在熔断机制的改进路程技术解密中，总结了如何设计一个优雅的熔断机制。作为微服务最重要的治理策略之一，熔断机制能够在故障场景起到防止雪崩效应的作用。过载状态是一种特殊的故障场景&…

阅读更多...

商品详情使用富文本编辑器

商品详情使用富文本编辑器

1、https://www.wangeditor.com/ 1、安装依赖包 npm install wangeditor/editor-for-vuenext --save 2、因为好多页面都需要用到，封装富文本编辑器组件 Editor.vue代码 <template><div style"border: 1px solid #ccc"><Toolbar style&q…

阅读更多...

Syslog 管理工具

Syslog 管理工具

Syslog常被称为系统日志或系统记录，是一种用来在互联网协议（TCP/IP）的网上中传递记录档消息的标准，常用来指涉实际的Syslog 协议，或者那些提交syslog消息的应用程序或数据库。系统日志协议（Syslog&#x…

阅读更多...

成为CMake砖家(3):Windows安装make.exe

成为CMake砖家(3):Windows安装make.exe

大家好，我是白鱼。相信很多朋友已经在用 CMake 做交叉编译了， 而交叉编译往往少不了 make.exe, 这篇来讲讲 make.exe 在 Windows 上的安装。 1. 交叉编译需要 generator CMake 本身是一个 meta build tool， 或者说它是派发任务到具体的 bui…

阅读更多...

Windows上网络调试助手NetAssist的使用

Windows上网络调试助手NetAssist的使用

NetAssist是Windows上的网络调试助手，从 https://free.cmsoft.cn 下载最新的5.0.13版本，解压缩后直接双击NetAssist.exe即可，无需安装，界面如下图所示： (1).支持的协议类型包括：UDP、UDP IPv6、TCP Client、…

阅读更多...

操作系统真象还原：创建文件系统

操作系统真象还原：创建文件系统

14.2 创建文件系统 14.2.1 创建超级块、i结点、目录项超级块 /** Author: Adward-DYX 1654783946qq.com* Date: 2024-05-07 10:18:02* LastEditors: Adward-DYX 1654783946qq.com* LastEditTime: 2024-05-07 11:24:50* FilePath: /OS/chapter14/14.2/fs/super_block.h* Des…

阅读更多...

P14-磁通量、高斯定理

P14-磁通量、高斯定理

高斯定理： 由于磁感线是闭合的，因此对于任一闭合曲面来说，有多少条磁感线进入闭合曲面，就一定有多少条磁感线穿出该闭合曲面。也就是说，通过任意闭合曲面的磁通量必等于零，称为磁场的高斯定理或磁通连续定…

阅读更多...

前端面试题(CSS篇六)

一、浏览器如何判断是否支持 webp 格式图片 （1）宽高判断法。通过创建image对象，将其src属性设置为webp格式的图片，然后在onload事件中获取图片的宽高，如果能够获取，则说明浏览器支持webp格式图片。如果不能…

阅读更多...

【pbootcms】新环境搭建环境安装时发生错误

【pbootcms】新环境搭建环境安装时发生错误

【pbootcms】新环境搭建环境安装时发生错误提示一下内容： 登录请求发生错误，您可按照如下方式排查: 1、试着删除根目录下runtime目录,刷新页面重试 2、检查系统会话文件存储目录是否具有写入权限; 3、检查服务器环境pathinfo及伪静态规则配置; 先按照…

阅读更多...

OWASP 移动应用 2024 十大安全风险

OWASP 移动应用 2024 十大安全风险

1. OWASP 移动应用 2024 十大安全风险开放全球应用程序安全项目 （OWASP） 是一个非营利性基金会，致力于提高软件的安全性。自 2014、2016 年两次发布了移动应用的十大风险后，今年再次发布2024版。这对移动应用软件的检查工具有着…

阅读更多...

css画半圆画圆弧

css画半圆画圆弧

利用border-radius和border完成： <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>test</title> <style> .semicircle {width: 100px;height: 50px;border-radius: 0 0 50px 50px;background:…

阅读更多...

IDEA社区版使用Maven archetype 创建Spring boot 项目

IDEA社区版使用Maven archetype 创建Spring boot 项目

1.新建new project 2.选择Maven Archetype 3.命名name 4.选择存储地址 5.选择jdk版本 6.Archetype使用webapp 7.create创建项目创建好长这样。检查一下自己的Maven是否是自己的。没问题的话就开始增添java包。 [有的人连resources包也没有，那就需要自己添…

阅读更多...

5、Hacker_Kid-v1.0.1

5、Hacker_Kid-v1.0.1

中等难度目标root权限先进行一波IP地址发现 netdiscover -i eth0 -r 192.168.1.1/24 发现存在的靶机ip 进行一波端口的探测发现是一个apache的服务和一个tornado的网站这里有个细节部分，53端口常见的情况都是走的udp协议做的域名解析，这里查询出来…

阅读更多...

manim学习笔记04：使用manim，表示向量和加法。

manim学习笔记04：使用manim，表示向量和加法。

manim学习笔记04：使用manim，表示向量和加法。一，相关定义 1.有向线段： 规定若线段 AB的端点为起点为A，B为终点，则线段就具有了从起点 A到终点 B的方向和长度。具有方向和长度的线段叫做有向线段。接下…

阅读更多...

多个版本JAVA切换（学习笔记）

多个版本JAVA切换（学习笔记）

多个版本JAVA切换很多时候，我们电脑上会安装多个版本的java版本，java8，java11，java17等等，这时候如果想要切换java的版本，可以按照以下方式进行 1.检查当前版本的JAVA 同时按下 win r 可以调出运行工具…

阅读更多...

牛客周赛51

牛客周赛51

思路：求a mod 上b后的值为amodb, 求gcd(b, amodb)即可 int gcd(int a,int b){return b ? gcd(b, a % b) : a; }void solve(){string a;cin >> a;int b;cin >> b;int amodb 0;for(auto c : a){amodb (amodb * 10 (c - 0)) % b;}cout << gcd(b…

阅读更多...

Access denied for user ‘root‘@‘localhost‘ (using password: YES)解决办法

Access denied for user ‘root‘@‘localhost‘ (using password: YES)解决办法

在Spring配置数据源时，当使用Spring容器加载druid.properties数据库连接池配置文件时，容易碰到create connection SQLException, url: jdbc:mysql://127.0.0.1:3306/mydbs, errorCode 1045, state 28000 java.sql.SQLException: Access denied for user …

阅读更多...

【香橙派 AIpro评测】烧系统运行部署LLMS大模型体验Jupyter Lab AI 应用样例（新手入门）

【香橙派 AIpro评测】烧系统运行部署LLMS大模型体验Jupyter Lab AI 应用样例（新手入门）

文章目录一、引言⭐1.1下载镜像烧系统⭐1.2开发板初始化系统配置远程登陆💖 远程ssh💖查看ubuntu桌面💖 远程向日葵二、部署LLMS大模型2.1 快速启动💖拉取代码💖下载mode数据💖启动模型对话三、体验内置…

阅读更多...

推荐文章

最新文章