一、hive在IDEA中debug
- 安装hadoop环境(1和2替换顺序也可以)
注:hadoop环境不需要从源码编译
https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
- 按照官网教程编译源码
https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-BuildingHivefromSource
注意事项:maven环境中使用JDK8,否则会出问题
-
按照上面2个官网的教程配置好环境,(hive还需要配置mysql,官网没有提)
-
开启debug,在$HIVE_HOME/bin下操作:
-
hive-client debug:
注:在hive-client中debug只可以看到客户端的提交任务的逻辑,看不到sql是如何解析的,sql解析的逻辑需在hive-server中debug
-
启动hiveserver2:./hiveserver2
-
启动beeline:beeline -u jdbc:hive2://localhost:10000 --debug
注:debug不是和beeline绑定的,而是单独的一个脚本文件,hive-server debug也可以使用同样的方式,具体实现细节可以看下bin/hive和bin/ext/debug.sh文件
-
在idea中配置
-
在配置之后在beeline类中打上断点,点debug按钮即可
-
-
hive-server debug:
-
hive-server debug的方式和 hive-client 一样,是在启动hiveServer2的时候开启debug
hiveserver2 --debug
在idea中点debug
-
在hiveserver2的debug都通过后,hiveserver2就启动起来了,这时候启动beeline
beeline -u jdbc:hive2://localhost:10000
-
-
二、udf的调用流程(目前只梳理了部分)
-
hiveserver2在启动的时候会加载udf函数到map里
-
生成SQLOperation,封装了输入的sql语句,执行引擎,配置信息。sql:select name, abs(age) from first_test;
-
Operation.run()
- 生成ast
- 生成执行计划