hive学习（五）

news2026/2/15 1:12:44

一、hive的DML操作

1.load（向表中装载数据）

hive> load data [local] inpath '路径' [overwrite] into table 表名 [partition (partcol1=val1,…)];

特殊说明

1）local：标识从本地加载数据到Hive表，若没有local的话从HDFS加载数据到Hive表

2）overwrite：表示覆盖原有数据，若没有追加在原有数据上

3）若目标是分区表，则需用partition指定分区表

2.insert

1）将查询结构插入表中

INSERT (INTO | OVERWRITE) TABLE tablename [PARTITION
(partcoll=vall, partcol2=va12 ... ) ] select_statement;

//INTO是追加，overwrite是覆盖

示例：

insert overwrite table student partition(month='20240818') select id, name from teacher

2）给定values插入表中

INSERT (INTO | OVERWRITE) TABLE tablename [PARTITION
(partcoll [=vall], partcol2[=va12] ... ) ] VALUES values_row [,
values_row ... ]

示例：

insert into table  teacher partition(month='202408016') values(1,'mark');

3）将查询结果写入目标路径

INSERT OVERWRITE [LOCAL] DIRECTORY directory
[ROW FORMAT row format] [STORED AS
file format] select statement;

3.Export和Inmport

介绍：Export将表的数据和元数据信息一并导出到Hdfs路径，Import将Export到处的内容导入Hive，表的数据和元数据信息都会恢复

-- 导出
EXPORT TABLE tablename TO 'export_target_path'

-- 导入
IMPORT
'source path' [LOCATION 'import_target_path' ]

[EXTERNAL] TABLE new_or_original_tablename FROM

二、hive的查询语句

语法

[WITH CommonTableExpression (, CommonTableExpression)*]    (Note: Only available
 starting with Hive 0.13.0)
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
  FROM table_reference
  [WHERE where_condition]
  [GROUP BY col_list]
  [ORDER BY col_list]
  [CLUSTER BY col_list
    | [DISTRIBUTE BY col_list] [SORT BY col_list]
  ]
 [LIMIT number]

1.基本查询

1）全表查询

select * from emp;

2）特定列查询

select id, name from emp;

注：关键字不能被缩写也不能多行

2）limit语句

//返回前5行
hive (default)> select * from emp limit 5;

//从指定行数开始

hive (default)> select * from emp limit 5,3;

3）where语句

基本同SQL语句相同，注意where语句中不能使用字段别名

4）关系运算函数

5）逻辑运算函数（与SQL相同）

6）Join语句（与SQL相似）

--内连接（只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来）

select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno = d.deptno;

--左外连接（JOIN操作符左边表中符合WHERE子句的所有记录将会被返回）

select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno = d.deptno;

--右外连接（JOIN操作符右边表中符合WHERE子句的所有记录将会被返回）

select e.empno, e.ename, d.deptno from emp e right join dept d on e.deptno = d.deptno;

--满外连接（将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话，那么就使用NULL值替代）

 select e.empno, e.ename, d.deptno from emp e full join dept d on e.deptno = d.deptno;

--笛卡尔积

select * from table1 join table2

2.排序

1）order by（全局排序)

在hive中，order by通常与limit使用

2）Sort By（每个Redeuce内部排序）

对每个Reduce进行排序，对全局结果来说并不是排序

--设置reduce个数

hive (default)> set mapreduce.job.reduces=3;

--查看设置reduce个数

hive (default)> set mapreduce.job.reduces;

3）Distribute By（分区）

结合sort by使用，且要求Distribute by 要在Sort by语句之前

4）Cluster By（分区排序）

当 distribute by 和 sort by字段相同时,可以使用cluster by方式。

cluster by 除了具有distribute by 的功能外还兼具sort by的功能。但是排序只能是升序

排序,不能指定排序规则为asc或者desc。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2093855.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

hive学习（五）

相关文章

Linux系统下KubeSphere3.4.1离线安装包制作及部署过程

JS设计模式之“幽灵工厂” - 抽象工厂模式

【函数模板】函数模板的类型推导

【MySQL】索引使用规则——（覆盖索引，单列索引，联合索引，前缀索引，SQL提示，数据分布影响，查询失效情况）

【初出江湖】剖析软件架构发展之路

Django 第十一课 -- ORM - 多表实例

eNSP-交换机的广播域和冲突域

uniapp+vue3+setup返回上一页传参

ElasticSearch和Kibana的安全设置以及https设置

3D打印透气钢与传统透气钢的差异

【国铁采购平台-注册安全分析报告-无验证方式导致安全隐患】

vue项目安装pnpm和无法加载pnpm，已解决

C++基础知识七

机器学习之监督学习（一）线性回归、多项式回归、算法优化[巨详细笔记]

CohereForAI更新企业级开源模型 c4ai-command-r-08-2024和c4ai-command-r-plus-08-2024

nginx平滑升级与回滚

【MySQL】索引性能分析工具详解——＞为sql优化(select)做准备

机械学习—零基础学习日志（概率论总笔记1）

Java | Leetcode Java题解之第378题有序矩阵中第K小的元素

Python酷库之旅-第三方库Pandas(113)