Apache Hive 使用

news2026/2/12 6:27:47

Apache Hive 使用

- 使用beeline 连接Apache Hive
- 查看数据库
- 使用或进入数据库
- 创建表
- 查看数据表
- 上传数据
- 数据操纵语言（DML）
- - 查询语句
- 函数
- 数学函数
- - 条件函数

请添加图片描述
)

使用beeline 连接Apache Hive

/export/server/apache-hive-3.1.2-bin/bin/beeline

beeline> ! connect jdbc:hive2://node1:10000 # 【jdbc:hive2://node1:10000】是自己的地址
beeline> root # 输入账号
beeline> password # 输入密码，点击回车

查看数据库

show databases;
或者
show schemas;

使用或进入数据库

use 数据库名称;

创建表

create tabele 表名 (字段名1，数据类型，字段名2，数据类型，……)
row format delimited
fields terminated by "分割符号";

查看数据表

show databases [in 数据库名称];
[in 数据库名称] 指定查看某个数据的中的数据表
desc formatted 数据表名 ; 查询表的元数据

上传数据

load data [local] inpath '数据文件的位置' [overwrite] into table '数据表名称'；

从本地上传数据（示例）

（从本地上上传并不是客户端所在的位置是服务器所在的位置）

LOAD DATA LOCAL INPATH '/root/hivedata/students.txt' INTO TABLE student_local;

从HDFS中移动到表（示例）：

LOAD DATA INPATH '/students.txt' INTO TABLE student_HDFS;

数据操纵语言（DML）

查询语句

--all:返回所有的行
select all state from covid_2019_usa;
-- distinct: 对数据去重后再返回
select distinct state from covid_2019_usa;
-- 出现返回时对两个自动共同去重
select distinct cases,state from covid_2019_usa;
-- 当where返回的值true时返回数据
select * from covid_2019_usa where 1=1;
-- 当where返回的值为false时不反悔任何数据
select * from covid_2019_usa where 1>2;
-- where 参数可以搭配函数使用,但是不支持聚合函数
select * from covid_2019_usa where length(state) >10;
-- where 可以搭配逻辑运算和比较运算使用
select state from covid_2019_usa where fips > 42000; -- 查询数据大于42000的城市
select state from covid_2019_usa where fips > 42000 and deaths > 100; --查询fips大于42000   并且  deaths> 100的城市
select state from covid_2019_usa where fips > 42000 or deaths > 100;-- 查询fips大于42000  或者  deaths> 100的城市

where搭配特殊条件使用

select * from covid_2019_usa where state is  null; -- 查询表中state为null的数据
select * from covid_2019_usa where state is not null; -- 查询表中state不为null的数据
select * from covid_2019_usa where fips between 1550 and 55555; -- 查询表中fips 1550到55555的数据
select * from covid_2019_usa where fips in (1500 ,100); -- 查询表中fips是1500和100的数据

– 聚合函数(函数的使用方法一致所以不再一一举例)

select count(state) from covid_2019_usa; -- 表中state有多少行
 -- group by语法(在group by 中所展示的字段要么是分组字段要么是聚合函数应用的字段，要不然会报错)
select state,count(countiy) from covid_2019_usa group by state;
-- 错误写法：org.apache.hadoop.hive.ql.parse.SemanticException:Line 1:7 Expression not in GROUP BY key 'fips'
select fips,state,count(countiy) from covid_2019_usa group by state;

– having筛选 as 是给字段起一个别名
– where 和 having 的区别：
– having是在分组后对数据进行过滤
– where是在分组前对数据进行过滤
– having后面可以使用聚合函数
– where后面不可以使用聚合函数

select state,sum(deaths) as sum_deaths from covid_2019_usa where count_time ="2021-01-28" group by state having sum_deaths > 10000;

– order by
– 对指定列数据进行排序

select state,sum(deaths) as sum_deaths from covid_2019_usa where count_time ="2021-01-28" group by state having sum_deaths > 10000 order by sum_deaths;

– limit 对返回的数据进行限制（第一个参数是从第几行开始，第二个参数是显示几行）

select * from covid_2019_usa limit 2,5;

– 第一个参数据的是从0开始也就是0行才是真正意义上的第一行
– hive dml命令的执行顺序
– from > where > group(包含聚合) > having > order >select > limit和order by ;

– join 关联查询语法

select * from employee;

– 内连接所取的数据必须是id都有的也就是交集
– inner join

select e.id,e.name,e2.city from employee e  inner join employee_address e2 on e.id = e2.id;

– 等价连接

select e.id,e.name,e2.city from employee e join employee_address e2  on e.id = e2.id;

– 隐式连接表示法

select e.id,e.name,e_a.city from employee e ,employee_address e_a where e.id = e_a.id;

– 左连接
– left join

select e.id,e.name,e_2.city from employee e left join employee_address e_2 on e.id = e_2.id ;

– 等价连接

select e.id,e.name,e2.city  from employee e left outer join employee_address e2 on e.id=e2.id;

函数

– 查看函数

show functions ;
describe function extended count;

– 函数分类

– 分为内置函数和用户自定义函数
– 用户自定义输出的udf分类标准
– 根据函数的输入输出的行数：
– UDF- 一进一出
– UDAF- 聚合函数，多进一出
– UDTF - 表生成函数，一进多出

– 内置函数
– 字符串函数

SELECT length('yujinlong'); -- 字符串长度
select reverse('yujinlong'); --倒置字符串
select concat('yu','jinlong'); --拼接

– 带分割符号的连接符（第一个参数是分割符号，后面是连接内容）

select concat_ws('.','www',array('itcast','com'));

– 字符串截取

select substr('yujinlong',-2);--索引从1开始，如果为负数则倒着数
select substr('yujinlong',2,2); -- 取两位

– 分割字符串
– 根据自定义的符号进行切割

select split('apache hive',' ');

– 日期函数
– 获取当前日期

select current_date();

–获取当前时间戳

select unix_timestamp();

– 按照日期转化时间戳

select unix_timestamp("2023-12-07 13:01:03");

– 按照指定格式转化时间戳函数

select unix_timestamp('20230108 13:20:20','yyyyMMdd HH:mm:ss');

– unix转化时间戳

select from_unixtime(1673184020);
select from_unixtime(0,"yyyy-MM-dd HH:mm:ss");

– 日期比较函数

select datediff('2012-12-08','2012-05-09');

– 增加日期函数

select date_add('2012-02-28',10);

– 日期减少函数

select date_sub('2012-02-28',10);

数学函数

– 取整函数

select round(3.1415926); --遵循四舍五入
select round(3.1415926); --可以指定精准度

– 取随机数

select rand();

– 设定种子，得到一个稳定的随机数序列

select rand(3);

条件函数

select * from t_students limit 3;

– if 判断

select if(sex='男','m','w') from students.t_students limit 3;

– 空置转化

select nvl('yu','yyyyy');
select nvl(null,'qqqq');

– 条件转化函数

select case 100 when 50 then 'tom' when 100 then 'mary' else 'tim' end ;
select case sex when '男' then 'm' when '女' then 'w' end from t_students;

愿君前程似锦，未来可期去💯,感谢您的阅读，如果对您有用希望您留下宝贵的点赞和收藏
本文章为本人学习笔记，学习网站为黑马程序员的Hadoop可以一起学习共同进步谢谢，如有请侵权联系，本人会立即删除侵权文章。可以一起学习共同进步谢谢，如有请侵权联系，本人会立即删除侵权文章。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/148207.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！