Hadoop生态圈框架部署(九)- Hive部署

news2024/11/28 11:44:54

文章目录

  • 前言
  • 一、Hive部署(手动部署)
    • 下载Hive
    • 1. 上传安装包
    • 2. 解压Hive安装包
      • 2.1 解压
      • 2.2 重命名
      • 2.3 解决guava冲突
    • 3. 配置Hive
      • 3.1 配置Hive环境变量
      • 3.2 修改 hive-site.xml 配置文件
      • 3.3 配置MySQL驱动包
      • 3.3.1 下在MySQL驱动包
      • 3.3.2 上传MySQL驱动包
      • 3.3.3 配置MySQL驱动包
    • 4. 初始化MySQL上的存储hive元数据的数据库
    • 5. 进入Hive客户端
    • 6. 设置远程连接
      • 6.1 启动MetaStore服务
      • 6.2 启动HiveServer2服务
      • 6.3 进入Hive客户端
  • 二、在hadoop2部署一个hive作为客户端
    • 1. 在hadoop2部署hive
    • 2. 配置
      • 2.1 配置Hive环境变量
      • 2.2 修改 hive-site.xml 配置文件
    • 3. 进入Hive客户端


前言

随着大数据技术的快速发展,Hive作为一种数据仓库工具,在处理大规模数据集时展现了其独特的优势。它基于Hadoop分布式文件系统(HDFS)之上提供了一种类似SQL的查询语言——HiveQL,使得熟悉关系型数据库的开发者能够轻松地进行数据查询和分析。此外,Hive还支持数据汇总、即席查询以及数据分析等任务,成为企业级数据处理解决方案中的重要组成部分。

本教程旨在为读者提供一份详尽且易于理解的Hive部署教程。通过按照本文档步骤操作,您可以成功地在单机或多机环境中搭建起Hive环境,并实现与Hadoop集群的良好集成。我们将从下载Hive安装包开始,逐步介绍如何上传、解压、配置Hive环境变量及核心配置文件,直至完成Hive服务的启动和客户端访问。不仅如此,我们还将进一步探讨如何设置远程连接,以便用户可以从其他主机上连接到Hive执行查询任务。


一、Hive部署(手动部署)

下载Hive

点击在官网下载Hive3.1.3安装包:https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz

点击在华为镜像站下载Hvie3.1.3安装包:https://repo.huaweicloud.com/apache/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz

1. 上传安装包

通过拖移的方式将下载的Hive安装包apache-hive-3.1.3-bin.tar.gz上传至虚拟机hadoop3/export/software目录。

在这里插入图片描述

2. 解压Hive安装包

2.1 解压

虚拟机hadoop3上传完成后将Hive安装包通过解压方式安装至/export/servers目录。

tar -zxvf /export/software/apache-hive-3.1.3-bin.tar.gz -C /export/servers/

解压完成如下图所示。

在这里插入图片描述

2.2 重命名

虚拟机hadoop3执行如下命令将apache-hive-3.1.3-bin重命名为hive-3.1.3。

mv /export/servers/apache-hive-3.1.3-bin /export/servers/hive-3.1.3

在这里插入图片描述

2.3 解决guava冲突

如下图所示,hadoop中的guava与hive中的guava版本不一致,会产生冲突,需要把hive的guava更换为hadoop的guava高版本。

在这里插入图片描述

虚拟机hadoop3执行如下命令解决guava冲突问题。

rm -f /export/servers/hive-3.1.3/lib/guava-19.0.jar
cp /export/servers/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0-jre.jar /export/servers/hive-3.1.3/lib

在这里插入图片描述

3. 配置Hive

3.1 配置Hive环境变量

虚拟机hadoop3执行如下命令设置Hive环境变量,并加载系统环境变量配置文件。

echo >> /etc/profile
echo 'export HIVE_HOME=/export/servers/hive-3.1.3' >> /etc/profile
echo 'export PATH=$PATH:$HIVE_HOME/bin' >> /etc/profile
source /etc/profile

在这里插入图片描述

3.2 修改 hive-site.xml 配置文件

虚拟机hadoop3使用cat命令把配置内容重定向并写入到 /export/servers/hive-3.1.3/conf/hive-site.xml 文件。

cat >/export/servers/hive-3.1.3/conf/hive-site.xml <<EOF
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 配置JDO(Java Data Objects)选项,指定Hive元数据存储的数据库连接URL。这里使用的是MySQL数据库,并且如果数据库不存在则自动创建。 -->
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://hadoop1:3306/hive?createDatabaseIfNotExist=true</value>
    </property>
    <!-- 指定用于连接数据库的JDBC驱动类名 -->
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.cj.jdbc.Driver</value>
    </property>
    <!-- 数据库连接用户名 -->
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
    </property>
    <!-- 数据库连接密码 -->
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>123456</value>
    </property>
    <!-- 指定Hive元数据仓库目录的位置 -->
    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive_local/warehouse</value>
    </property>
</configuration>
EOF

在这里插入图片描述

3.3 配置MySQL驱动包

3.3.1 下在MySQL驱动包

点击下载MySQL驱动jar包:https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.30/mysql-connector-java-8.0.30.jar

3.3.2 上传MySQL驱动包

通过拖移的方式将下载的MySQL驱动包上传至虚拟机hadoop3/export/software目录。

在这里插入图片描述

3.3.3 配置MySQL驱动包

虚拟机hadoop3执行如下命令复制MySQL驱动包到/export/servers/hive-3.1.3/lib目录下。

cp /export/software/mysql-connector-java-8.0.30.jar /export/servers/hive-3.1.3/lib/

在这里插入图片描述

4. 初始化MySQL上的存储hive元数据的数据库

虚拟机hadoop3执行如下命令初始化MySQL上的存储hive元数据的数据库。

schematool -initSchema -dbType mysql

在这里插入图片描述

初始化完成如下图所示。

在这里插入图片描述

5. 进入Hive客户端

虚拟机hadoop3执行如下命令在本地进入Hive客户端。

hive

在这里插入图片描述

退出Hive客户端。可以使用exit;命令或者按快捷键Ctrl+c退出。

exit;

在这里插入图片描述

6. 设置远程连接

Hive 提供了两种服务以支持用户的远程连接:

  1. MetaStore 服务:MetaStore 服务负责管理 Hive 的元数据,并通过与关系型数据库的连接来存储和检索这些元数据。

  2. HiveServer2 服务:HiveServer2 服务基于 Thrift 协议实现,提供了通过 JDBC 和 ODBC 连接到 Hive 的功能。它依赖于 MetaStore 服务来获取元数据信息。用户在通过 HiveServer2 服务远程连接到 Hive 之前,需要确保 MetaStore 服务已经启动并运行。

6.1 启动MetaStore服务

虚拟机hadoop3执行如下命令启动MetaStore服务。此时的MetaStore服务是前台启动,退出将会停止MetaStore服务。

hive --service metastore

在这里插入图片描述

可以按快捷键Ctrl+c停止MetaStore服务。

由于前台启动会占用页面,执行其他命令时需要复制一个新标签,我们可以在停止MetaStore服务后使用如下命令把MetaStore服务放到后台启动,并指定日志输出位置。

mkdir -p /export/servers/hive-3.1.3/logs
nohup hive --service metastore > /export/servers/hive-3.1.3/logs/metastore.log 2>&1 &

在这里插入图片描述

可以使用如下命令查看启动后的MetaStore服务进程,此时如果要停止MetaStore服务,需要使用kill命令杀死对应进程。

ps -ef | grep hive

在这里插入图片描述

6.2 启动HiveServer2服务

复制一个hadoop3标签,在虚拟机hadoop3执行如下命令启动HiveServer2服务。此时的HiveServer2服务是前台启动,退出将会停止HiveServer2服务。启动HiveServer2服务后,用户可以通过HiveServer2服务远程连接Hive。

hive --service hiveserver2

在这里插入图片描述

可以按快捷键Ctrl+c停止HiveServer2服务。

由于前台启动会占用页面,执行其他命令时需要复制一个新标签,我们可以在停止HiveServer2服务后使用如下命令把HiveServer2服务放到后台启动,并指定日志输出位置。

nohup hive --service hiveserver2 > /export/servers/hive-3.1.3/logs/hiveserver2.log 2>&1 &

在这里插入图片描述

可以使用如下命令查看启动后的HiveServer2服务进程,此时如果要停止HiveServer2服务,需要使用kill命令杀死对应进程。

ps -ef | grep hive

在这里插入图片描述

6.3 进入Hive客户端

复制一个hadoop3标签,在虚拟机hadoop3执行如下命令远程进入Hive客户端。

beeline -u jdbc:hive2://hadoop3:10000 -n root --hiveconf hive.metastore.uris=thrift://hadoop3:9083
  • 参数 -u:指定HiveServer2服务的JDBC URL。

    • jdbc:hive2://hadoop3:10000 中:
      • hadoop3 是运行HiveServer2服务的服务器主机名。
      • 10000 是HiveServer2服务默认使用的端口号。
  • 参数 -n:指定连接HiveServer2服务时使用的用户名。

    • root 是用户名,该用户必须具有操作HDFS的适当权限。

在这里插入图片描述


二、在hadoop2部署一个hive作为客户端

1. 在hadoop2部署hive

虚拟机hadoop3执行如下命令复制hadoop3安装好的hive到虚拟机hadoop2。

scp -r root@hadoop3:/export/servers/hive-3.1.3 root@hadoop2:/export/servers/

在这里插入图片描述

2. 配置

2.1 配置Hive环境变量

虚拟机hadoop2执行如下命令设置Hive环境变量,并加载系统环境变量配置文件。

echo >> /etc/profile
echo 'export HIVE_HOME=/export/servers/hive-3.1.3' >> /etc/profile
echo 'export PATH=$PATH:$HIVE_HOME/bin' >> /etc/profile
source /etc/profile

在这里插入图片描述

2.2 修改 hive-site.xml 配置文件

虚拟机hadoop2使用cat命令把配置内容重定向并写入到 /export/servers/hive-3.1.3/conf/hive-site.xml 文件。

cat >/export/servers/hive-3.1.3/conf/hive-site.xml <<EOF
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 指定Hive Metastore服务的地址 -->
    <property>
        <name>hive.metastore.uris</name>
        <value>thrift://hadoop3:9083</value>
    </property>
</configuration>
EOF

在这里插入图片描述

3. 进入Hive客户端

虚拟机hadoop2执行如下命令远程进入部署在hadoop3的Hive

beeline -u jdbc:hive2://hadoop3:10000 -n root

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2249028.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RHCE——SELinux

SELinux 什么是SELinux呢&#xff1f;其实它是【Security-Enhanced Linux】的英文缩写&#xff0c;字母上的意思就是安全强化Linux的意思。 SELinux是由美国国家安全局(NSA)开发的&#xff0c;当初开发的原因是很多企业发现&#xff0c;系统出现问题的原因大部分都在于【内部…

Vue3的通灵之术Teleport

前言 近期Vue3更新了一些新的内容&#xff0c;我都还没有一个一个仔细去看&#xff0c;但是还是有必要去解读一下新内容的。就先从Teleport 开始吧。 官方对 Teleport 的解释是&#xff1a;<Teleport> 是一个内置组件&#xff0c;它可以将一个组件内部的一部分模板“传…

介绍一下atof(arr);(c基础)

hi , I am 36 适合对象c语言初学者 atof(arr)&#xff1b;是返回浮点数(double型)&#xff0c;浮点数数是arr数组中字符中数字 格式 #include<stdio.h> atof(arr); 返回值arr数组中的数 未改变arr数组 #include<stdio.h> //atof(arr) 返 <stdlib> int…

STM32 USART配置库函数

单片机学习&#xff01; 目录 一、USART配置函数 1.1 USART_DeInit函数 1.2 USART_Init函数 1.3 USART_StructInit函数 二、配置同步时钟输出函数 2.1 USART_ClockInit函数 2.2 USART_ClockStructInit函数 三、USART的外设与中断函数 3.1 USART_Cmd函数 3.2 USART_IT…

通俗理解人工智能、机器学习和深度学习的关系

最近几年人工智能成为极其热门的概念和话题&#xff0c;可以说彻底出圈了。但人工智能的概念在1955年就提出来了&#xff0c;可以说非常古老。我在上小学的时候《科学》课本上就有人工智能的概念介绍&#xff0c;至今还有印象&#xff0c;但那些年AI正处于“寒冬”&#xff0c;…

2024数学建模亚太赛【C题】赛题详细解析

目录 &#x1f4d1;一、竞赛时间 &#x1f5dd;️二、奖项设置 ✏️三、选题思路 &#x1f50d;阶段一&#xff1a;【数据预处理与探索性分析】 1.【数据清洗与预处理】 2.【探索性数据分析&#xff08;EDA&#xff09;】 &#x1f50d;阶段二&#xff1a;【时间序列建模…

数据结构 【堆实现】

上文提到堆是一种特殊的二叉树&#xff0c;其中它的父结点均不大于或者不小于其子结点的值。堆总是一棵完全二叉树。其中&#xff0c;堆的父节点全部不小于它的子结点时称为大堆&#xff0c;堆的父结点全部不大于其子结点的堆称为小堆。 堆可以由两种结构来实现&#xff0c;分别…

【AI绘画】Midjourney进阶:色调详解(下)

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AI绘画 | Midjourney 文章目录 &#x1f4af;前言&#x1f4af;Midjourney中的色彩控制为什么要控制色彩&#xff1f;为什么要在Midjourney中控制色彩&#xff1f; &#x1f4af;色调纯色调灰色调暗色调 &#x1f4af…

[代码随想录Day24打卡] 93.复原IP地址 78.子集 90.子集II

93.复原IP地址 一个合法的IP地址是什么样的&#xff1a; 有3个’.分割得到4个数&#xff0c;每个数第一个数不能是0&#xff0c;不能含有非法字符&#xff0c;不能大于255。 这个是否属于合法IP相当于一个分割问题&#xff0c;把一串字符串分割成4部分&#xff0c;分别判断每…

“harmony”整合不同平台的单细胞数据之旅

其实在Seurat v3官方网站的Vignettes中就曾见过该算法&#xff0c;但并没有太多关注&#xff0c;直到看了北大张泽民团队在2019年10月31日发表于Cell的《Landscap and Dynamics of Single Immune Cells in Hepatocellular Carcinoma》&#xff0c;为了同时整合两类数据&#xf…

贴代码PasteForm框架之框架核心帮助类PasteFormHelper说明

简介 PasteForm是贴代码推出的 “新一代CRUD” &#xff0c;基于ABPvNext&#xff0c;目的是通过对Dto的特性的标注&#xff0c;从而实现管理端的统一UI&#xff0c;借助于配套的PasteBuilder代码生成器&#xff0c;你可以快速的为自己的项目构建后台管理端&#xff01;目前管…

杂7杂8学一点之ZC序列

重要的放在前面&#xff0c;优秀文章链接&#xff1a;5GNR漫谈13&#xff1a;Zadoff –Chu&#xff08;ZC&#xff09;序列性质 目录 1. ZC序列 1.1 ZC序列的表达式 1.2 ZC序列的特点 2. PRACH中的ZC序列 2.1 为什么要有逻辑根序列与物理根序列的概念 1. ZC序列 ZC序列&…

matlab代码--卷积神经网络的手写数字识别

1.cnn介绍 卷积神经网络&#xff08;Convolutional Neural Network, CNN&#xff09;是一种深度学习的算法&#xff0c;在图像和视频识别、图像分类、自然语言处理等领域有着广泛的应用。CNN的基本结构包括输入层、卷积层、池化层&#xff08;Pooling Layer&#xff09;、全连…

【Linux】—简单实现一个shell(myshell)

大家好呀&#xff0c;我是残念&#xff0c;希望在你看完之后&#xff0c;能对你有所帮助&#xff0c;有什么不足请指正&#xff01;共同学习交流哦&#xff01; 本文由&#xff1a;残念ing原创CSDN首发&#xff0c;如需要转载请通知 个人主页&#xff1a;残念ing-CSDN博客&…

基于 Flask 和 RabbitMQ 构建高效消息队列系统:从数据生成到消费

简介 在构建 Web 应用时&#xff0c;处理和传输大量数据是不可避免的。对于需要高效、可扩展的消息处理和异步任务执行的场景&#xff0c;使用 RabbitMQ&#xff08;一种流行的消息队列中间件&#xff09;与 Flask&#xff08;一个轻量级的 Python Web 框架&#xff09;结合&a…

Linux:文件管理(一)——文件描述符fd

目录 一、文件基础认识 二、C语言操作文件的接口 1.> 和 >> 2.理解“当前路径” 三、相关系统调用 1.open 2.文件描述符 3.一切皆文件 4.再次理解重定向 一、文件基础认识 文件 内容 属性。换句话说&#xff0c;如果在电脑上新建了一个空白文档&#xff0…

机器学习模型——线性回归

文章目录 前言1.基础概念2.代价函数3.单变量线性回归3.1加载数据3.2初始化超参数3.3梯度下降算法3.3.1初次梯度下降3.3.2 多次梯度下降3.3.3结果可视化 前言 随着互联网数据不断累积&#xff0c;硬件不断升级迭代&#xff0c;在这个信息爆炸的时代&#xff0c;机器学习已被应用…

如何安全高效地打开和管理动态链接库(DLL)?系统提示dll丢失问题的多种有效修复指南

动态链接库&#xff08;DLL&#xff09;文件是Windows操作系统中非常重要的一部分&#xff0c;它们包含了程序运行所需的代码和数据。当系统提示DLL文件丢失时&#xff0c;可能会导致应用程序无法正常运行。以下是一些安全高效地打开和管理DLL文件以及修复DLL丢失问题的方法&am…

数据结构(初阶7)---七大排序法(堆排序,快速排序,归并排序,希尔排序,冒泡排序,选择排序,插入排序)(详解)

排序 1.插入排序2.希尔排序3.冒泡排序4.选择排序(双头排序优化版)5.堆排序6.快速排序1). 双指针法2).前后指针法3).非递归法 7.归并排序1).递归版本(递归的回退就是归并)2).非递归版本(迭代版本) 计算机执行的最多的操作之一就有排序&#xff0c;排序是一项极其重要的技能 接下…

【JavaEE初阶 — 网络原理】初识网络原理

目录 1. 网络发展史 1.1 独立模式 1.2 网络互连 1.2.1 网络互联的背景 1.2.2 网络互联的定义 1.3 局域网LAN 1.4 广域网WAN 2. 网络通信基础 2.1 IP地址 2.2 端口号 2.3 认识协议 2.4 五元组 2.5 协议分层 2.5.1 分…