Hadoop之Hive

news2025/1/12 4:06:26

文章目录

  • 一、Hive简介
    • 1.1 Hive 基本概念
    • 1.2 Hive架构图
    • 1.3 Hive数据模型
  • 二、Hive安装配置
    • 2.1 内嵌模式
    • 2.2 配置元数据到mysql
    • 2.3本地模式
    • 2.4远程模式
    • 2.5 Hive JDBC Hiverserver2
      • 2.5.1远程模式下使用Beeline CLI
      • 2.5.2 DataGrip图形化客户端
    • 2.6 Hive常见属性配置

一、Hive简介

https://hive.apache.org/

1.1 Hive 基本概念

Hive是一个基于Hadoop的数据仓库架构,使用SQL语句读、写和管理大型分布式数据集。Hive可以将SQL语句转化MapReduce(或Apache Spark和Apache Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。

可以将Hive理解为一个客户端工具,其提供了一种类SQL查询语言,称为 HiveQL

1.2 Hive架构图

在这里插入图片描述

在这里插入图片描述

用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command lineinterface)为shell命令行;Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。

元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

Driver驱动程序,包括语法解析器、计划编译器、优化器、执行器:完成 HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有执行引擎调用执行。

执行引擎:Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎

1.3 Hive数据模型

数据模型:用来描述数据、组织数据和对数据进行操作,是对现实世界数据特征的描述。Hive的数据模型类似于RDBMS库表结构,此外还有自己特有模型。

Hive中的数据可以在粒度级别上分为三类:
Table 表
Partition分区
Bucket 分桶

Hive作为一个数据仓库。默认数据库default。

Hive的数据都是存储在HDFS上的,默认有一个根目录,在hive-site.xml中,由参数hive.metastore.warehouse.dir指定。默认值为/user/hive/warehouse

二、Hive安装配置

Hive根据Metastore Server的位置不同可以分为三种运行模式:内嵌模式、本地模式和远程模式。
Hive基于Hadoop,Hive只需在Hadoop集群的其中一个节点安装即可,而不需要搭建Hive集群。

2.1 内嵌模式

在这里插入图片描述

#安装
tar -zxvf apache-hive-3.1.3-bin.tar.gz -C /opt/modules/
#环境变量
vim /etc/profile
......
export HIVE_HOME=/opt/modules/apache-hive-3.1.3-bin
export PATH=$PATH:$HIVE_HOME/bin
......
source /etc/profile
hive --version

#关联Hadoop 
#拷贝Hive安装目录下的conf/hive-env.sh.template文件为hive-env.sh,
export HADOOP_HOME=/opt/modules/hadoop-3.3.4

#创建数据仓库目录
$ hadoop fs -mkdir      /tmp
$ hadoop fs -mkdir -p  /user/hive/warehouse

#初始化元数据信息
schematool -dbType derby –initSchema
#启动Hive CLI
hive

2.2 配置元数据到mysql

mysql 安装配置
https://blog.csdn.net/qq_35911309/article/details/122266247
新建Hive元数据库
mysql -uroot -p’123456’
mysql> create database metastore;#hive_db或不配置时建
mysql> quit;
#初始化元数据库表
TBLS COLUMNS_V2 SDS…

2.3本地模式

在这里插入图片描述

mysql-connector-j-8.0.32.jar驱动包下载
在这里插入图片描述

#MySQL的驱动包到Hive lib目录下
cp mysql-connector-j-8.0.32-1.el7.noarch.rpm /opt/modules/apache-hive-3.1.3-bin/lib/
#配置hive
vim hive-site.xml
......
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!--MySQL数据库连接信息 -->
 <property><!--连接MySQL的驱动类 -->
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.cj.jdbc.Driver</value>
 </property>
 <property><!--MySQL连接地址,此处连接远程数据库,可根据实际情况进行修改 -->
  <name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://centos1:3306/hive_db?createDatabaseIfNotExist=true</value>
 </property>
 <property><!--MySQL用户名 -->
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
 </property>
 <property><!--MySQL密码 -->
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>hive</value>
 </property>
</configuration>
......
#初始化原数据
schematool -dbType mysql –initSchema
#启动
hive

2.4远程模式

远程模式将Metastore
Server分离了出来,作为一个单独的进程,并且可以部署多个,运行于不同的机器上。这样的模式,将数据库层完全置于防火墙后,使客户端访问时不需要数据库凭据(用户名和密码),提高了可管理性和安全性。

在这里插入图片描述

(1)安装Hive客户端
#在本地模式基础上,centos01节点中执行以下命令,将Hive安装文件拷贝到centos2节点:
scp -r apache-hive-3.1.3-bin/  root@centos2:/opt/modules/2)修改centos2节(客户端) hive-site.xml
<!--Hive数据仓库在HDFS中的存储目录-->
<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>/user/hive/warehouse</value>
</property>
<!--是否启用本地服务器连接Hive,false为非本地模式,即远程模式-->
<property>
  <name>hive.metastore.local</name>
  <value>false</value>
</property>
<!--Hive服务端Metastore Server连接地址,默认监听端口9083-->
<property>
  <name>hive.metastore.uris</name>
  <value>thrift://centos1:9083</value>
</property>3)启动Metasotre Server 在centos1 节点执行
hive --service metastore &
# 控制台输出2023-04-16 15:48:34: Starting Hive Metastore Server

在这里插入图片描述

测试:
centos1节点(服务端)
hive> CREATE TABLE stu2(id INT,name STRING);
centos2节点(H客户端)查看Hive中的所有表:
hive> SHOW TABLES;

在这里插入图片描述

2.5 Hive JDBC Hiverserver2

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.5.1远程模式下使用Beeline CLI

#centos1节点修改Hadoop配置文件core-site.xml
......
<property> 
    <name>hadoop.proxyuser.root.hosts</name> 
    <value>*</value> 
</property> 
<property> 
    <name>hadoop.proxyuser.root.groups</name> 
    <value>*</value> 
</property>
......
# 将core-site.xml 同步到Hadoop集群其他节点。就可以用root用户在CLI中连接Hive
# 启动HiveServer2 centos1
hive --service hiveserver2 &
#启动Beeline CLI  cenots2
bin/beeline
# 连接HiveSver2服务
beeline> !connect jdbc:hive2://centos1:10000

centos1
在这里插入图片描述
http://192.168.10.101:10002/ hive-web_-ui 默认端口10002在这里插入图片描述
centos2 链接默认端口10000,默认密码为空,用户为启动配置用户在这里插入图片描述
在BeelineCLI 界面执行相关HiveQL了
在这里插入图片描述

2.5.2 DataGrip图形化客户端

在这里插入图片描述

2.6 Hive常见属性配置


vim hive-site.xml
......
#数据仓库位置:
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<!--在Hive提示符中包含当前数据库-->
<property>
	<name>hive.cli.print.current.db</name>
	<value>true</value>
</property>
<!--在查询输出中打印列的名称-->
<property>
    <name>hive.cli.print.header</name>
    <value>true</value>
 </property>
......
#日志文件 默认存放于/tmp/${username}/hive.log
 vim hive-log4j2.properties
 ......
 property.hive.log.dir = /home/hadoop
 ......

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/436272.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue基础入门(上)

<script src"https://unpkg.com/vuenext"></script> 从面向dom编程到面向数据编程 输入显示列表 const appVue.createApp({data(){return{inputValue:,list:[]}},methods:{handleAddItem(){this.list.push(this.inputValue);this.inputValue;}},templ…

(一) nvidia jetson orin nvcsi tegra-capture-vi camera相关内容梳理 之 vi相关代码分析

背景:对于nvidia 的jetson orin 的camera,其内部是如何实现的尼?硬件方面的pipeline是怎么关联的,其内部有哪些camera相关的modules?对于这些modules,软件上又是怎么去实现?设备树如何去抽象这些modules?分析完后,给我们一个camera sensor,如何进行bring up?本文将会…

什么是 AUTOSAR C++14?

总目录链接>> AutoSAR入门和实战系列总目录 总目录链接>> AutoSAR BSW高阶配置系列总目录 文章目录 什么是 AUTOSAR C14&#xff1f;AUTOSAR C14 规则和偏差静态分析工具可以完全支持自动 什么是 AUTOSAR C14&#xff1f; 它是 C 版本 14 (ISO/IEC 14882:2014…

Mac安装Stable Diffusion教程【超详细教程】附带安装包

Mac安装Stable Diffusion教程 本机配置Mac安装Stable Diffusion教程 配带官方说明重要注意事项安装所需文件已上传网盘自动安装新安装&#xff1a; 自动安装现有安装&#xff1a; 下载稳定扩散模型故障排除Web UI无法启动&#xff1a;性能不佳&#xff1a; 本机配置 电脑&…

DJ4-3 路由器的工作原理

目录 一、路由器的整体结构 二、输入端口的功能 1. 三大模块 2. 查找与转发模块 三、交换结构 1. 经内存的交换结构 2. 经总线的交换结构 3. 经交换矩阵交换结构 四、输出端口的功能 五、排队 1. 输入端口排队 2. 输出端口排队 一、路由器的整体结构 路由器的两个…

一秒钟给硬盘文件做个树状结构目录

一秒钟给硬盘文件做个树状结构目录 一、背景 对于长时间坐在电脑前的打工人来说&#xff0c;若没有养成良好文件分类习惯的话&#xff0c;年终整理电脑文件绝对是件头疼的事情。 给磁盘文件做个目录&#xff0c;一目了然文件都在哪里&#xff1f;想想都是件头疼的事情。 对于…

golang 实现 ldif 数据转成 json 初探

theme: Chinese-red 「这是我参与11月更文挑战的第 8 天&#xff0c;活动详情查看&#xff1a;2021最后一次更文挑战」 上一篇我们分享了如何将 ldif 格式的数据&#xff0c;转换成 json 数据的思路并画相应的简图 这一次&#xff0c;我们就来实现一下 实现方式如下&#xff…

P1829 [国家集训队]Crash的数字表格 / JZPTAB(莫比乌斯反演)

[国家集训队]Crash的数字表格 / JZPTAB 题目描述 今天的数学课上&#xff0c;Crash 小朋友学习了最小公倍数&#xff08;Least Common Multiple&#xff09;。对于两个正整数 a a a 和 b b b&#xff0c; lcm ( a , b ) \text{lcm}(a,b) lcm(a,b) 表示能同时整除 a a a 和…

『pyqt5 从0基础开始项目实战』10.日志记录 鼠标右键打开(保姆级图文)

目录 导包和框架代码实现右键功能实现日志展示弹窗编写一个日志文件用于测试日志展示完整代码main.pythreads.pydialog.py 总结 欢迎关注 『pyqt5 从0基础开始项目实战』 专栏&#xff0c;持续更新中 欢迎关注 『pyqt5 从0基础开始项目实战』 专栏&#xff0c;持续更新中 导包和…

Python常用练习小例子

Python常用练习小例子 1、输出九九乘法表 源码如下&#xff1a; # 九九乘法表 for i in range(1, 10):for j in range(1, i1):print({}x{}{}\t.format(i, j, i*j), end)print() # 换行&#xff0c;相当于print(end\n) 其中&#xff0c;rint({}x{}{}\t.format(i, j, i*j), e…

Kubespray v2.21.0 离线部署 Kubernetes v1.25.6 集群

文章目录 1. 前言2. 预备条件3. 配置代理4. 下载介质5. 初始化配置6. 安装部署工具6.1 配置 venv 部署环境6.2 配置容器部署环境 7. 配置互信8. 编写 inventory.ini9. 编写 offline.yml10. 部署 offline repo11. 部署 kubernetes 1. 前言 Kubespray 是 Kubernetes incubator 中…

【Python合集】程序员系列代码之“这么好的天气应该去放风筝,而不是在搬砖,好想去放风筝哦~”(附完整代码)

导语 ☽ ☽ ☽ ☽ ☽ ☽ 文案丨April 19th, 2023 ☆ ☽ ☽☽ ☽☽ ☽ 江滩边摇摇晃晃的风筝 是春日越冬归来的信号 风筝蹦蹦跳跳 看盎然春意四处热闹阿姨路过菜摊子 带把香椿回家炒蛋细子摘桑 被酸得直口水嗲嗲裹着棉袄 托起霸缸到处晒大阳妹子没管倒春寒 提前换上短…

HttpServletRequest

1、HttpServletRequest对象 在Servlet API中&#xff0c;定义了一个HttpServletRequest接口&#xff0c;它继承自ServletRequest接口&#xff0c;专门用于封装HTTP请求消息 1.1 获取请求行信息的相关方法 当访问Servlet时&#xff0c;请求消息的请求行中会包含请求方法、请求…

Spring入门案例--bean实例化

bean实例化 对象已经能交给Spring的IOC容器来创建了&#xff0c;但是容器是如何来创建对象的呢? 就需要研究下bean的实例化过程 &#xff0c;在这块内容中主要解决两部分内容&#xff0c;分别是 bean是如何创建的实例化bean的三种方式&#xff0c; 构造方法,静态工厂 和 …

USB TO SPI / USB TO I2C 软件概要 1 --- 专业版调试器

所需设备&#xff1a; 1、USB转SPI_I2C适配器(专业版); 软件概述&#xff1a; SPI类: USB TO SPI 1.0-Slave SPI从机软件&#xff0c;适合单步调试&#xff0c;支持SPI工作模式0、1、2、3&#xff0c;自动跟随主机通讯速率&#xff0c;自动接收数据&#xff1b; USB TO SP…

21、指标监控

文章目录 1、SpringBoot Actuator1、简介2、1.x与2.x的不同3、如何使用4、可视化 2、Actuator Endpoint1、最常使用的端点2、Health Endpoint3、Metrics Endpoint4、管理Endpoints1、开启与禁用Endpoints2、暴露Endpoints 3、定制 Endpoint1、定制 Health 信息2、定制info信息1…

springboot集成nacos配置管理

官方文档&#xff1a;Nacos Spring Boot 快速开始 个人实践&#xff1a; Namespace定义环境&#xff0c;例如&#xff1a;开发环境、测试环境、生产环境。 Group定义不同的应用。 DataId用来区分配置&#xff0c;例如&#xff1a;mysql配置&#xff0c;redis配置&#xff0…

web集群

1. 简述静态网页和动态网页的区别 1.更新和维护&#xff1a; 静态网页内容一经发布到网站服务器上&#xff0c;无论是否有用户访问&#xff0c;这些网页内容都是保存在网站服务器上的。如果要修改网页的内容&#xff0c;就必须修改其源代码&#xff0c;然后重新上传到服务器上…

新一代异步IO框架 io_uring | 得物技术

1.Linux IO 模型分类 相比于kernel bypass 模式需要结合具体的硬件支撑来讲&#xff0c;native IO是日常工作中接触到比较多的一种&#xff0c;其中同步IO在较长一段时间内被广泛使用&#xff0c;通常我们接触到的IO操作主要分为网络IO和存储IO。在大流量高并发的今天&#xff…

【golang学习笔记】——(三)golang vscode编译第一个程序

这里有一个盲区的坑&#xff0c;先埋下&#xff0c;待会再讲。 一、工程创建 首先是在一个自己需要的文件夹下创建一个.go空文件&#xff0c;老传统&#xff0c;这里就是hellowrold.go&#xff0c;致敬原神Brian Kernighan&#xff08;1978年出版的《The C Programming Langua…