Apache Hive 使用
- 使用beeline 连接Apache Hive
- 查看数据库
- 使用或进入数据库
- 创建表
- 查看数据表
- 上传数据
- 数据操纵语言(DML)
- 查询语句
- 函数
- 数学函数
- 条件函数
)
使用beeline 连接Apache Hive
/export/server/apache-hive-3.1.2-bin/bin/beeline
beeline> ! connect jdbc:hive2://node1:10000 # 【jdbc:hive2://node1:10000】是自己的地址
beeline> root # 输入账号
beeline> password # 输入密码,点击回车
查看数据库
show databases;
或者
show schemas;
使用或进入数据库
use 数据库名称;
创建表
create tabele 表名 (字段名1,数据类型,字段名2,数据类型,……)
row format delimited
fields terminated by "分割符号";
查看数据表
show databases [in 数据库名称];
[in 数据库名称] 指定查看某个数据的中的数据表
desc formatted 数据表名 ; 查询表的元数据
上传数据
load data [local] inpath '数据文件的位置' [overwrite] into table '数据表名称';
从本地上传数据(示例)
(从本地上上传并不是客户端所在的位置是服务器所在的位置)
LOAD DATA LOCAL INPATH '/root/hivedata/students.txt' INTO TABLE student_local;
从HDFS中移动到表(示例):
LOAD DATA INPATH '/students.txt' INTO TABLE student_HDFS;
数据操纵语言(DML)
查询语句
--all:返回所有的行
select all state from covid_2019_usa;
-- distinct: 对数据去重后再返回
select distinct state from covid_2019_usa;
-- 出现返回时对两个自动共同去重
select distinct cases,state from covid_2019_usa;
-- 当where返回的值true时返回数据
select * from covid_2019_usa where 1=1;
-- 当where返回的值为false时不反悔任何数据
select * from covid_2019_usa where 1>2;
-- where 参数可以搭配函数使用,但是不支持聚合函数
select * from covid_2019_usa where length(state) >10;
-- where 可以搭配逻辑运算和比较运算使用
select state from covid_2019_usa where fips > 42000; -- 查询数据大于42000的城市
select state from covid_2019_usa where fips > 42000 and deaths > 100; --查询fips大于42000 并且 deaths> 100的城市
select state from covid_2019_usa where fips > 42000 or deaths > 100;-- 查询fips大于42000 或者 deaths> 100的城市
where搭配特殊条件使用
select * from covid_2019_usa where state is null; -- 查询表中state为null的数据
select * from covid_2019_usa where state is not null; -- 查询表中state不为null的数据
select * from covid_2019_usa where fips between 1550 and 55555; -- 查询表中fips 1550到55555的数据
select * from covid_2019_usa where fips in (1500 ,100); -- 查询表中fips是1500和100的数据
– 聚合函数(函数的使用方法一致所以不再一一举例)
select count(state) from covid_2019_usa; -- 表中state有多少行
-- group by语法(在group by 中所展示的字段要么是分组字段要么是聚合函数应用的字段,要不然会报错)
select state,count(countiy) from covid_2019_usa group by state;
-- 错误写法:org.apache.hadoop.hive.ql.parse.SemanticException:Line 1:7 Expression not in GROUP BY key 'fips'
select fips,state,count(countiy) from covid_2019_usa group by state;
– having筛选 as 是给字段起一个别名
– where 和 having 的区别:
– having是在分组后对数据进行过滤
– where是在分组前对数据进行过滤
– having后面可以使用聚合函数
– where后面不可以使用聚合函数
select state,sum(deaths) as sum_deaths from covid_2019_usa where count_time ="2021-01-28" group by state having sum_deaths > 10000;
– order by
– 对指定列数据进行排序
select state,sum(deaths) as sum_deaths from covid_2019_usa where count_time ="2021-01-28" group by state having sum_deaths > 10000 order by sum_deaths;
– limit 对返回的数据进行限制 (第一个参数是从第几行开始,第二个参数是显示几行)
select * from covid_2019_usa limit 2,5;
– 第一个参数据的是从0开始也就是0行才是真正意义上的第一行
– hive dml命令的执行顺序
– from > where > group(包含聚合) > having > order >select > limit和order by ;
– join 关联查询语法
select * from employee;
– 内连接 所取的数据必须是id都有的也就是交集
– inner join
select e.id,e.name,e2.city from employee e inner join employee_address e2 on e.id = e2.id;
– 等价连接
select e.id,e.name,e2.city from employee e join employee_address e2 on e.id = e2.id;
– 隐式连接表示法
select e.id,e.name,e_a.city from employee e ,employee_address e_a where e.id = e_a.id;
– 左连接
– left join
select e.id,e.name,e_2.city from employee e left join employee_address e_2 on e.id = e_2.id ;
– 等价连接
select e.id,e.name,e2.city from employee e left outer join employee_address e2 on e.id=e2.id;
函数
– 查看函数
show functions ;
describe function extended count;
– 函数分类
– 分为内置函数和用户自定义函数
– 用户自定义输出的udf分类标准
– 根据函数的输入输出的行数:
– UDF- 一进一出
– UDAF- 聚合函数,多进一出
– UDTF - 表生成函数,一进多出
– 内置函数
– 字符串函数
SELECT length('yujinlong'); -- 字符串长度
select reverse('yujinlong'); --倒置字符串
select concat('yu','jinlong'); --拼接
– 带分割符号的连接符(第一个参数是分割符号,后面是连接内容)
select concat_ws('.','www',array('itcast','com'));
– 字符串截取
select substr('yujinlong',-2);--索引从1开始,如果为负数则倒着数
select substr('yujinlong',2,2); -- 取两位
– 分割字符串
– 根据自定义的符号进行切割
select split('apache hive',' ');
– 日期函数
– 获取当前日期
select current_date();
–获取当前时间戳
select unix_timestamp();
– 按照日期转化时间戳
select unix_timestamp("2023-12-07 13:01:03");
– 按照指定格式转化时间戳函数
select unix_timestamp('20230108 13:20:20','yyyyMMdd HH:mm:ss');
– unix转化时间戳
select from_unixtime(1673184020);
select from_unixtime(0,"yyyy-MM-dd HH:mm:ss");
– 日期比较函数
select datediff('2012-12-08','2012-05-09');
– 增加日期函数
select date_add('2012-02-28',10);
– 日期减少函数
select date_sub('2012-02-28',10);
数学函数
– 取整函数
select round(3.1415926); --遵循四舍五入
select round(3.1415926); --可以指定精准度
– 取随机数
select rand();
– 设定种子,得到一个稳定的随机数序列
select rand(3);
条件函数
select * from t_students limit 3;
– if 判断
select if(sex='男','m','w') from students.t_students limit 3;
– 空置转化
select nvl('yu','yyyyy');
select nvl(null,'qqqq');
– 条件转化函数
select case 100 when 50 then 'tom' when 100 then 'mary' else 'tim' end ;
select case sex when '男' then 'm' when '女' then 'w' end from t_students;
愿君前程似锦,未来可期去💯,感谢您的阅读,如果对您有用希望您留下宝贵的点赞和收藏
本文章为本人学习笔记,学习网站为黑马程序员的Hadoop可以一起学习共同进步谢谢,如有请侵权联系,本人会立即删除侵权文章。可以一起学习共同进步谢谢,如有请侵权联系,本人会立即删除侵权文章。