1、 Hive安装部署
1)把hive-3.1.3.tar.gz上传到linux的/opt/software目录下
2)解压hive-3.1.3.tar.gz到/opt/module/目录下面
[shuidi@hadoop102 module]$ tar -zxvf /opt/software/hive-3.1.3.tar.gz -C /opt/module/
3)修改hive-3.1.3-bin.tar.gz的名称为hive
[shuidi@hadoop102 module]$ mv /opt/module/apache-hive-3.1.3-bin/ /opt/module/hive
4)修改/etc/profile.d/my_env.sh,添加环境变量
[shuidi@hadoop102 module]$ sudo vim /etc/profile.d/my_env.sh
添加内容
#HIVE_HOME
export HIVE_HOME=/opt/module/hive
export PATH=$PATH:$HIVE_HOME/bin
重启Xshell对话框或者source一下 /etc/profile.d/my_env.sh文件,使环境变量生效。
[shuidi@hadoop102 module]$ source /etc/profile.d/my_env.sh
5)解决日志Jar包冲突,进入/opt/module/hive/lib目录
[shuidi@hadoop102 module]$ cd /opt/module/hive/lib
[shuidi@hadoop102 lib]$ mv log4j-slf4j-impl-2.17.1.jar log4j-slf4j-impl-2.17.1.jar.bak
6) 修改Hive的log存放日志到/opt/module/hive/logs
修改$HIVE_HOME/conf/hive-log4j2.properties.template文件名称为 hive-log4j2.properties
[shuidi@hadoop102 ~]$ mv /opt/module/hive/conf/hive-log4j2.properties.template /opt/module/hive/conf/hive-log4j2.properties
修改配置如下
property.hive.log.dir=/opt/module/hive/logs
2 、Hive元数据配置到MySQL
2.1、 拷贝驱动
将MySQL的JDBC驱动 mysql-connector-j-8.0.31.jar 上传到Hive的lib目录下 /opt/module/hive/lib/。
2.2、 配置Metastore到MySQL
在$HIVE_HOME/conf目录下新建hive-site.xml文件。
[shuidi@hadoop102 conf]$ vim hive-site.xml
添加如下内容。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!--配置Hive保存元数据信息所需的 MySQL URL地址-->
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://hadoop102:3306/metastore?useSSL=false&useUnicode=true&characterEncoding=UTF-8&allowPublicKeyRetrieval=true</value>
</property>
<!--配置Hive连接MySQL的驱动全类名-->
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.cj.jdbc.Driver</value>
</property>
<!--配置Hive连接MySQL的用户名 -->
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<!--配置Hive连接MySQL的密码 -->
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>Zan@#2024</value>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>
<property>
<name>hive.server2.thrift.port</name>
<value>10000</value>
</property>
<property>
<name>hive.server2.thrift.bind.host</name>
<value>hadoop102</value>
</property>
<property>
<name>hive.metastore.event.db.notification.api.auth</name>
<value>false</value>
</property>
<property>
<name>hive.cli.print.header</name>
<value>true</value>
</property>
<property>
<name>hive.cli.print.current.db</name>
<value>true</value>
</property>
</configuration>
3、 启动Hive
3.1、 初始化元数据库
1)登陆MySQL
[shuidi@hadoop102 conf]$ mysql -uroot -p
2)新建Hive元数据库
mysql> create database metastore;
3)初始化Hive元数据库
[atguigu@hadoop102 conf]$ schematool -initSchema -dbType mysql -verbose
4)修改元数据库字符集
Hive元数据库的字符集默认为Latin1,由于其不支持中文字符,所以建表语句中如果包含中文注释,会出现乱码现象。如需解决乱码问题,须做以下修改。
修改Hive元数据库中存储注释的字段的字符集为utf-8。
(1)字段注释
mysql> use metastore;
mysql> alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
(2)表注释
mysql> alter table TABLE_PARAMS modify column PARAM_VALUE mediumtext character set utf8;
5)退出mysql
mysql> quit;
3.2、 启动Hive客户端
1)启动Hive客户端
[shuidi@hadoop102 hive]$ hive
2)查看一下数据库
hive (default)> show databases;
OK
database_name
default
Time taken: 0.905 seconds, Fetched: 1 row(s)
hive (default)>
4、Hive环境搭建
1)Hive引擎简介
Hive引擎包括:默认MR、Tez、Spark。
Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。
Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。
2)Hive on Spark配置
(1)兼容性说明
注意:官网下载的Hive3.1.3和Spark3.3.1默认是不兼容的。因为Hive3.1.3支持的Spark版本是2.3.0,所以需要我们重新编译Hive3.1.3版本。
编译步骤:官网下载Hive3.1.3源码,修改pom文件中引用的Spark版本为3.3.1,如果编译通过,直接打包获取jar包。如果报错,就根据提示,修改相关方法,直到不报错,打包获取jar包。
(2)在Hive所在节点部署Spark纯净版
①Spark官网下载jar包地址:
Downloads | Apache Spark
②上传并解压解压spark-3.3.1-bin-without-hadoop.tgz
[shuidi@hadoop102 module]$ tar -zxvf /opt/software/spark-3.3.1-bin-without-hadoop.tgz -C /opt/module/
[shuidi@hadoop102 module]$ mv /opt/module/spark-3.3.1-bin-without-hadoop /opt/module/spark
③修改spark-env.sh配置文件
修改文件名。
[shuidi@hadoop102 module]$ mv /opt/module/spark/conf/spark-env.sh.template /opt/module/spark/conf/spark-env.sh
编辑文件
[shuidi@hadoop102 module]$ vim /opt/module/spark/conf/spark-env.sh
增加如下内容。
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
(3)配置SPARK_HOME环境变量
[shuidi@hadoop102 module]$ sudo vim /etc/profile.d/my_env.sh
添加如下内容。
# SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin
source 使其生效。
[shuidi@hadoop102 module]$ source /etc/profile.d/my_env.sh
(4)在hive中创建spark配置文件
[shuidi@hadoop102 module]$ vim /opt/module/hive/conf/spark-defaults.conf
添加如下内容(在执行任务时,会根据如下参数执行)。
spark.master yarn
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:8020/spark-history
spark.executor.memory 1g
spark.driver.memory 1g
在HDFS创建如下路径,用于存储历史日志。
[shuidi@hadoop102 module]$ hadoop fs -mkdir /spark-history
(5)向HDFS上传Spark纯净版jar包
说明1:采用Spark纯净版jar包,不包含hadoop和hive相关依赖,能避免依赖冲突。
说明2:Hive任务最终由Spark来执行,Spark任务资源分配由Yarn来调度,该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径,这样集群中任何一个节点都能获取到。
[shuidi@hadoop102 module]$ hadoop fs -mkdir /spark-jars
[shuidi@hadoop102 module]$ hadoop fs -put /opt/module/spark/jars/* /spark-jars
(6)修改hive-site.xml文件
[shuidi@hadoop102 module]$ vim /opt/module/hive/conf/hive-site.xml
添加如下内容。
<!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
<property>
<name>spark.yarn.jars</name>
<value>hdfs://hadoop102:8020/spark-jars/*</value>
</property>
<!--Hive执行引擎-->
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
3)Hive on Spark测试
(1)启动hive客户端
[shuidi@hadoop102 module]$ hive
(2)创建一张测试表
hive (default)> create table student(id int, name string);
OK
Time taken: 1.368 seconds
(3)通过insert测试效果
hive (default)> insert into table student values(1,'abc');
若结果如下,则说明配置成功。
5、Yarn环境配置
1)增加ApplicationMaster资源比例
容量调度器对每个资源队列中同时运行的Application Master占用的资源进行了限制,该限制通过yarn.scheduler.capacity.maximum-am-resource-percent参数实现,其默认值是0.1,表示每个资源队列上Application Master最多可使用的资源为该队列总资源的10%,目的是防止大部分资源都被Application Master占用,而导致Map/Reduce Task无法执行。
生产环境该参数可使用默认值。但学习环境,集群资源总数很少,如果只分配10%的资源给Application Master,则可能出现,同一时刻只能运行一个Job的情况,因为一个Application Master使用的资源就可能已经达到10%的上限了。故此处可将该值适当调大。
(1)在hadoop102的/opt/module/hadoop/etc/hadoop/capacity-scheduler.xml文件中修改如下参数值
[shuidi@hadoop102 module]$ vim /opt/module/hadoop/etc/hadoop/capacity-scheduler.xml
<property>
<name>yarn.scheduler.capacity.maximum-am-resource-percent</name>
<value>0.8</value>
</property
(2)分发capacity-scheduler.xml配置文件
[shuidi@hadoop102 module]$ xsync /opt/module/hadoop/etc/hadoop/capacity-scheduler.xml
(3)关闭正在运行的任务,hadoop103重新启动yarn集群
[shuidi@hadoop103 ~]$ stop-yarn.sh
[shuidi@hadoop103 ~]$ start-yarn.sh
6、 数据仓库开发环境
数仓开发工具可选用DBeaver或者DataGrip。两者都需要用到JDBC协议连接到Hive,故需要启动HiveServer2。
1)启动HiveServer2
[shuidi@hadoop102 module]$ hiveserver2
后台启动命令
nohup hive --service hiveserver2 2>&1 &
2)配置DataGrip连接
(1)创建连接
(2)配置连接属性
所有属性配置,和Hive的beeline客户端配置一致即可。初次使用,配置过程会提示缺少JDBC驱动,按照提示下载即可。
3)测试使用
创建数据库gmall,并观察是否创建成功。
(1)创建数据库
(2)查看数据库
(3)修改连接,指明连接数据库
(4)选择当前数据库为gmall
7、Hive 常见问题及解决方式
1)DataGrip 中注释乱码问题
注释属于元数据的一部分,同样存储在mysql的metastore库中,如果metastore库的字符集不支持中文,就会导致中文显示乱码。
不建议修改Hive元数据库的编码,此处我们在metastore中找存储注释的表,找到表中存储注释的字段,只改对应表对应字段的编码。
如下两步修改,缺一不可。
(1)修改mysql元数据库
我们用到的注释有两种:字段注释和整张表的注释。
COLUMNS_V2 表中的 COMMENT 字段存储了 Hive 表所有字段的注释,TABLE_PARAMS 表中的 PARAM_VALUE 字段存储了所有表的注释。我们可以通过命令修改字段编码,也可以用 DataGrip 或 Navicat 等工具修改,此处仅对 Navicat 进行展示。
①命令修改
采集部分已介绍。
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE mediumtext character set utf8;
②使用工具
以COLUMNS_V2表中COMMENT字段的修改为例。
(a)右键点击表名,选择设计表
(b)在右侧页面中选中表的字段
(c)在页面下方下拉列表中将字符集改为 utf8
修改字符集之后,已存在的中文注释能否正确显示?不能。为何?
数据库中的字符都是通过编码存储的,写入时编码,读取时解码。修改字段编码并不会改变此前数据的编码方式,依然为默认的 latin1,此时读取之前的中文注释会用 utf8 解码,编解码方式不一致,依然乱码。
(2)url连接的编码指定为UTF-8
修改 hive-site.xml,在javax.jdo.option.ConnectionURL的value末尾添加以下内容。
&useUnicode=true&characterEncoding=UTF-8
这一步在采集部分已完成。
xml文件中&符是有特殊含义的,我们必须使用转义的方式&对&进行替换,如下。
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://hadoop102:3306/metastore?useSSL=false&useUnicode=true&characterEncoding=UTF-8&allowPublicKeyRetrieval=true
</value>
</property>
只要修改了hive-site.xml,就必须重启hiveserver2。
2)DataGrip 刷新连接时 hiveserver2 后台报错
关键信息如下。
FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement
3986 [44f450f2-fc83-42fb-8c99-f4bc4617d6c2 HiveServer2-Handler-Pool: Thread-87] ERROR org.apache.hadoop.hive.ql.Driver - FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement
org.apache.hadoop.hive.ql.parse.ParseException: line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement
原因:早期版本的 Hive 有索引功能,当前版本已移除, DataGrip 刷新连接时会扫描索引,而 Hive 没有,就会报错。
上述问题是DataGrip导致的,并非Hive环境的问题,不影响使用。
3)OOM报错
Hive默认堆内存只有256M,如果hiveserver2后台频繁出现OutOfMemoryError,可以调大堆内存。
在Hive家目录的conf目录下复制一份模板文件hive-env.sh.template。
[shuidi@hadoop102 ~]$ cd $HIVE_HOME/conf
[shuidi@hadoop102 conf]$ cp hive-env.sh.template hive-env.sh
修改 hive-env.sh,将 Hive 堆内存改为 4096M,如下。
export HADOOP_HEAPSIZE=4096
可根据实际使用情况适当调整堆内存。
4)DataGrip ODS层部分表字段显示异常
建表字段中有如下语句的表字段无法显示。
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.JsonSerDe'
上述语句指定了Hive表的序列化器和反序列化器SERDE(serialization 和 deserialization的合并缩写),用于解析 JSON 格式的文件。上述 SERDE 是由第三方提供的,在hive-site.xml中添加如下配置即可解决。
<property>
<name>metastore.storage.schema.reader.impl</name>
<value>org.apache.hadoop.hive.metastore.SerDeStorageSchemaReader</value>
</property>
8、模拟数据准备
通常企业在开始搭建数仓时,业务系统中会存在历史数据,一般是业务数据库存在历史数据,而用户行为日志无历史数据。假定数仓上线的日期为2022-06-08,为模拟真实场景,需准备以下数据。
注:在执行以下操作之前,先将HDFS上/origin_data路径下之前的数据删除。
1)启动采集通道
命令如下。
[shuidi@hadoop102 ~]$ cluster.sh start
停止Maxwell。
[shuidi@hadoop102 bin]$ mxw.sh stop
停止Maxwell
2)数据准备
(1)生成模拟数据
① 修改hadoop102节点的/opt/module/applog/application.yml文件,将mock.date,mock.clear,mock.clear.user,mock.new.user,mock.log.db.enable五个参数调整为如下的值。
#业务日期
mock.date: "2022-06-04"
#是否重置业务数据
mock.clear.busi: 1
#是否重置用户数据
mock.clear.user: 1
# 批量生成新用户数量
mock.new.user: 100
# 日志是否写入数据库一份 写入z_log表中
mock.log.db.enable: 0
② 执行数据生成脚本,生成第一天2022-06-04的历史数据。
[shuidi@hadoop102 ~]$ lg.sh
③ 修改/opt/module/applog/application.properties文件,将mock.date、mock.clear,mock.clear.user,mock.new.user四个参数调整为如图所示的值。
#业务日期
mock.date: "2022-06-05"
#是否重置业务数据
mock.clear.busi: 0
#是否重置用户数据
mock.clear.user: 0
# 批量生成新用户
mock.new.user: 0
④ 执行数据生成脚本,生成第二天2022-06-05的历史数据。
[shuidi@hadoop102 ~]$ lg.sh
⑤ 之后只修改/opt/module/applog/application.properties文件中的mock.date参数,依次改为2022-06-06,2022-06-07,并分别生成对应日期的数据。
⑥ 删除/origin_data/gmall/log目录,将⑤中提到的参数修改为2022-06-08,并生成当日模拟数据。
(2)全量表同步
① 执行全量表同步脚本
[shuidi@hadoop102 ~]$ mysql_to_hdfs_full.sh all 2022-06-08
② 观察HDFS上是否出现全量表数据
(3)增量表首日全量同步
① 清除Maxwell断点记录
由于Maxwell支持断点续传,而上述重新生成业务数据的过程,会产生大量的binlog操作日志,这些日志我们并不需要。故此处需清除Maxwell的断点记录,令其从binlog最新的位置开始采集。
清空Maxwell数据库,相当于初始化Maxwell。
mysql>
drop table maxwell.bootstrap;
drop table maxwell.columns;
drop table maxwell.databases;
drop table maxwell.heartbeats;
drop table maxwell.positions;
drop table maxwell.schemas;
drop table maxwell.tables;
② 修改Maxwell配置文件中的mock_date参数
[shuidi@hadoop102 maxwell]$ vim /opt/module/maxwell/config.properties
mock_date=2022-06-08
③ 启动Maxwell
[shuidi@hadoop102 ~]$ mxw.sh start
④ 执行增量表首日全量同步脚本
[shuidi@hadoop102 ~]$ mysql_to_kafka_inc_init.sh all
⑤ 观察HDFS上是否出现增量表数据