Hive数据库与表操作全指南

news2024/12/22 23:08:36

目录

Hive数据库操作详解

 创建数据库

1)语法

2)案例

 查询数据库

1)展示所有数据库

(1)语法

(2)案例

2)查看数据库信息

(1)语法

(2)案例

 修改数据库

1)语法

2)案例

 删除数据库

1)语法

2)案例

 切换当前数据库

1)语法

 Hive表操作详解

 创建表

 语法

1)普通建表

(1)完整语法

(2)关键字说明:

2)Create Table As Select(CTAS)建表

3)Create Table Like语法

 案例

1)内部表与外部表

(1)内部表

(2)外部表

2)SERDE和复杂数据类型

3)create table as select 和 create table like

(1)create table as select

(2)create table like

 查看表

1)展示所有表

(1)语法

(2)案例

2)查看表信息

(1)语法

(2)案例

 修改表

1)重命名表

(1)语法

(2)案例

2)修改列信息

(1)语法

(2)案例

 删除表

1)语法

2)案例

 清空表

1)语法

2)案例


Hive数据库操作详解

 创建数据库

1)语法
CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value, ...)];
2)案例
  • 创建一个数据库,不指定路径

    hive (default)> create database db_hive1;

    注:若不指定路径,其默认路径为 ${hive.metastore.warehouse.dir}/database_name.db

  • 创建一个数据库,指定路径

    hive (default)> create database db_hive2 location '/db_hive2';
  • 创建一个数据库,带有 dbproperties

    hive (default)> create database db_hive3 with dbproperties('create_date'='2022-11-18');

 查询数据库

1)展示所有数据库
(1)语法
SHOW DATABASES [LIKE 'identifier_with_wildcards'];

注:LIKE 通配表达式说明:* 表示任意个任意字符,| 表示或的关系。

(2)案例
hive> show databases like 'db_hive*';
OK
db_hive_1
db_hive_2
2)查看数据库信息
(1)语法
DESCRIBE DATABASE [EXTENDED] db_name;
(2)案例
  1. 查看基本信息

    hive> desc database db_hive3;
    OK
    db_hive    hdfs://hadoop12:8020/user/hive/warehouse/db_hive.db   lzl   USER
  2. 查看更多信息

    hive> desc database extended db_hive3;
    OK
    db_name    comment    location    owner_name    owner_type    parameters
    db_hive3    hdfs://hadoop12:8020/user/hive/warehouse/db_hive3.db    lzl    USER    {create_date=2022-11-18}

 修改数据库

用户可以使用 ALTER DATABASE 命令修改数据库某些信息,其中能够修改的信息包括 dbpropertieslocationowner user。需要注意的是:修改数据库 location,不会改变当前已有表的路径信息,而只是改变后续创建的新表的默认的父目录。

1)语法
  • 修改 dbproperties

    ALTER DATABASE database_name SET DBPROPERTIES (property_name=property_value, ...);
  • 修改 location

    ALTER DATABASE database_name SET LOCATION hdfs_path;
  • 修改 owner user

    ALTER DATABASE database_name SET OWNER USER user_name;
2)案例
  • 修改 dbproperties

    hive> ALTER DATABASE db_hive3 SET DBPROPERTIES ('create_date'='2022-11-20');

 删除数据库

1)语法
DROP DATABASE [IF EXISTS] database_name [RESTRICT|CASCADE];

注:RESTRICT:严格模式,若数据库不为空,则会删除失败,默认为该模式。
CASCADE:级联模式,若数据库不为空,则会将库中的表一并删除。

2)案例
  • 删除空数据库

    hive> drop database db_hive2;
  • 删除非空数据库

    hive> drop database db_hive3 cascade;

 切换当前数据库

1)语法
USE database_name;

 Hive表操作详解

 创建表

 语法
1)普通建表
(1)完整语法
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
(
  (col_name data_type [COMMENT col_comment], ...)
)
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format] 
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)];
(2)关键字说明:
  1. TEMPORARY

     

    临时表,该表只在当前会话可见,会话结束,表会被删除。

  2. EXTERNAL(重点)

     

    外部表,与之相对应的是内部表(管理表)。管理表意味着Hive会完全接管该表,包括元数据和HDFS中的数据。而外部表则意味着Hive只接管元数据,而不完全接管HDFS中的数据。

  3. data_type(重点)

     

    Hive中的字段类型可分为基本数据类型和复杂数据类型。

     

    基本数据类型如下:

    Hive说明定义
    tinyint1byte有符号整数
    smallint2byte有符号整数
    int4byte有符号整数
    bigint8byte有符号整数
    boolean布尔类型,true或者false
    float单精度浮点数
    double双精度浮点数
    decimal十进制精准数字类型decimal(16,2)
    varchar字符序列,需指定最大长度,最大长度的范围是[1,65535]varchar(32)
    string字符串,无需指定最大长度
    timestamp时间类型
    binary二进制数据

    复杂数据类型如下:

    类型说明定义取值
    array数组是一组相同类型的值的集合array<string>arr[0]
    mapmap是一组相同类型的键-值对集合map<string, int>map['key']
    struct结构体由多个属性组成,每个属性都有自己的属性名和数据类型struct<id:int, name:string>struct.id

    注:类型转换

     

    Hive的基本数据类型可以做类型转换,转换的方式包括隐式转换以及显示转换。

     

    方式一:隐式转换

     

    具体规则如下:

     

    a. 任何整数类型都可以隐式地转换为一个范围更广的类型,如tinyint可以转换成int,int可以转换成bigint。

     

    b. 所有整数类型、float和string类型都可以隐式地转换成double。

     

    c. tinyint、smallint、int都可以转换为float。

     

    d. boolean类型不可以转换为任何其它的类型。

     

    详情可参考Hive官方说明:Allowed Implicit Conversionsicon-default.png?t=N7T8https://tongyi.aliyun.com/qianwen/?sessionId=05dafa94c8504e1faa491422eb8defe2#LanguageManualTypes-AllowedImplicitConversions

     

    方式二:显示转换

     

    可以借助cast函数完成显示的类型转换

     

    a. 语法

    cast(expr as <type>)

    b. 案例

    hive (default)> select '1' + 2, cast('1' as int) + 2;
    _c0  _c1
    3.0  3
  4. PARTITIONED BY(重点)

     

    创建分区表

  5. CLUSTERED BY ... SORTED BY .. INTO ... BUCKETS(重点)

     

    创建分桶表

  6. ROW FORMAT(重点)

     

    指定SERDE,SERDE是Serializer and Deserializer的简写。Hive使用SERDE序列化和反序列化每行数据。详情可参考 Hive-Serde。语法说明如下:

     

    语法一: DELIMITED关键字表示对文件中的每个字段按照特定分割符进行分割,其会使用默认的SERDE对每行数据进行序列化和反序列化。

    ROW FORMAT DELIMITED
    [FIELDS TERMINATED BY char]
    [COLLECTION ITEMS TERMINATED BY char]
    [MAP KEYS TERMINATED BY char]
    [LINES TERMINATED BY char]
    [NULL DEFINED AS char]

    注:

    • FIELDS TERMINATED BY:列分隔符
    • COLLECTION ITEMS TERMINATED BY:map、struct和array中每个元素之间的分隔符
    • MAP KEYS TERMINATED BY:map中的key与value的分隔符
    • LINES TERMINATED BY:行分隔符

    语法二: SERDE关键字可用于指定其他内置的SERDE或者用户自定义的SERDE。例如JSON SERDE,可用于处理JSON字符串。

    ROW FORMAT SERDE serde_name
    [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
  7. STORED AS(重点)

     

    指定文件格式,常用的文件格式有textfile(默认值),sequence file,orc file、parquet file等等。

  8. LOCATION

     

    指定表所对应的HDFS路径,若不指定路径,其默认值为 ${hive.metastore.warehouse.dir}/db_name.db/table_name

  9. TBLPROPERTIES

     

    用于配置表的一些KV键值对参数

2)Create Table As Select(CTAS)建表

该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句返回的内容。

CREATE [TEMPORARY] TABLE [IF NOT EXISTS] table_name
[COMMENT table_comment]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement]
3)Create Table Like语法

该语法允许用户复刻一张已经存在的表结构,与上述的CTAS语法不同,该语法创建出来的表中不包含数据。

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
[LIKE exist_table_name]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
 案例
1)内部表与外部表
(1)内部表

Hive中默认创建的表都是内部表,有时也被称为管理表。对于内部表,Hive会完全管理表的元数据和数据文件。

创建内部表如下:

create table if not exists student(
  id int, 
  name string
)
row format delimited fields terminated by '\t'
location '/user/hive/warehouse/student';

准备其需要的文件如下,注意字段之间的分隔符。

[lzl@hadoop12 datas]$ vim /opt/module/datas/student.txt
1001	student1
1002	student2
1003	student3
1004	student4
1005	student5
1006	student6
1007	student7
1008	student8
1009	student9
1010	student10
1011	student11
1012	student12
1013	student13
1014	student14
1015	student15
1016	student16

上传文件到Hive表指定的路径

[lzl@hadoop12 datas]$ hadoop fs -put student.txt /user/hive/warehouse/student

删除表,观察数据HDFS中的数据文件是否还在

hive (default)> drop table student;
(2)外部表

外部表通常可用于处理其他工具上传的数据文件,对于外部表,Hive只负责管理元数据,不负责管理HDFS中的数据文件。

创建外部表如下:

create external table if not exists student(
  id int, 
  name string
)
row format delimited fields terminated by '\t'
location '/user/hive/warehouse/student';

上传文件到Hive表指定的路径

[lzl@hadoop12 datas]$ hadoop fs -put student.txt /user/hive/warehouse/student

删除表,观察数据HDFS中的数据文件是否还在

hive (default)> drop table student;
2)SERDE和复杂数据类型

本案例重点练习SERDE和复杂数据类型的使用。

若现有如下格式的JSON文件需要由Hive进行分析处理,请考虑如何设计表?

注:以下内容为格式化之后的结果,文件中每行数据为一个完整的JSON字符串。

{
  "name": "dasongsong",
  "friends": [
    "bingbing",
    "lili"
  ],
  "students": {
    "xiaohaihai": 18,
    "xiaoyangyang": 16
  },
  "address": {
    "street": "hui long guan",
    "city": "beijing",
    "postal_code": 10010
  }
}

我们可以考虑使用专门负责JSON文件的JSON Serde,设计表字段时,表的字段与JSON字符串中的一级字段保持一致,对于具有嵌套结构的JSON字符串,考虑使用合适复杂数据类型保存其内容。最终设计出的表结构如下:

hive>
create table teacher
(
  name   string,
  friends array<string>,
  students map<string,int>,
  address struct<city:string,street:string,postal_code:int>
)
row format serde 'org.apache.hadoop.hive.serde2.JsonSerDe'
location '/user/hive/warehouse/teacher';

创建该表,并准备以下文件。注意,需要确保文件中每行数据都是一个完整的JSON字符串,JSON SERDE才能正确地处理。

[lzl@hadoop12 datas]$ vim /opt/module/datas/teacher.txt
{"name":"dasongsong","friends":["bingbing","lili"],"students":{"xiaohaihai":18,"xiaoyangyang":16},"address":{"street":"hui long guan","city":"beijing","postal_code":10010}}

上传文件到Hive表指定的路径

[lzl@hadoop12 datas]$ hadoop fs -put teacher.txt /user/hive/warehouse/teacher

尝试从复杂数据类型的字段中取值

3)create table as select 和 create table like
(1)create table as select
hive>
create table teacher1 as select * from teacher;
(2)create table like
hive>
create table teacher2 like teacher;

 

 查看表

1)展示所有表
(1)语法
SHOW TABLES [IN database_name] LIKE ['identifier_with_wildcards'];

注:LIKE 通配表达式说明:* 表示任意个任意字符,| 表示或的关系。

(2)案例
hive> show tables like 'stu*';
2)查看表信息
(1)语法
DESCRIBE [EXTENDED | FORMATTED] [db_name.]table_name

注:EXTENDED:展示详细信息
FORMATTED:对详细信息进行格式化的展示

(2)案例
  1. 查看基本信息

    hive> desc stu;
  2. 查看更多信息

    hive> desc formatted stu;

 修改表

1)重命名表
(1)语法
ALTER TABLE table_name RENAME TO new_table_name
(2)案例
hive (default)> alter table stu rename to stu1;
2)修改列信息
(1)语法
  1. 增加列

     

    该语句允许用户增加新的列,新增列的位置位于末尾。

    ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)
  2. 更新列

     

    该语句允许用户修改指定列的列名、数据类型、注释信息以及在表中的位置。

    ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]
  3. 替换列

     

    该语句允许用户用新的列集替换表中原有的全部列。

    ALTER TABLE table_name REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)
(2)案例
  1. 查询表结构

    hive (default)> desc stu;
  2. 添加列

    hive (default)> alter table stu add columns(age int);
  3. 查询表结构

    hive (default)> desc stu;
  4. 更新列

    hive (default)> alter table stu change column age ages double;
  5. 替换列

    hive (default)> alter table stu replace columns(id int, name string);

 删除表

1)语法
DROP TABLE [IF EXISTS] table_name;
2)案例
hive (default)> drop table stu;

 清空表

1)语法
TRUNCATE [TABLE] table_name

注意:TRUNCATE 只能清空管理表,不能删除外部表中数据。

2)案例
hive (default)> truncate table student;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2106785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【免费分享】嵌入式Linux开发板【入门+项目,应用+底层】资料包一网打尽,附教程/视频/源码...

想要深入学习嵌入式Linux开发吗&#xff1f;现在机会来了&#xff01;我们为初学者们准备了一份全面的资料包&#xff0c;包括原理图、教程、课件、视频、项目、源码等&#xff0c;所有资料全部免费领取&#xff0c;课程视频可试看&#xff08;购买后看完整版&#xff09;&…

U盘提示需要格式化才能使用怎么办?教你轻松应对

U盘作为一种便捷的数据存储设备&#xff0c;广泛应用于日常工作和生活中。然而&#xff0c;有时我们会遇到U盘插入电脑后提示需要格式化才能使用的情况&#xff0c;这让人倍感焦虑&#xff0c;因为格式化往往意味着数据丢失。不过&#xff0c;在采取极端措施之前&#xff0c;我…

如何验证mos管好坏

用万用表的二极管档位测试&#xff0c;只有D&#xff08;&#xff09;S&#xff08;-&#xff09;之间电压低于0.7v&#xff0c;其他任意两脚之间电压都是大于1.5V。这是正常的。

不限专业和工作经验,这个含金量巨高的IT证书,90%的大学生都不知道!

软考现在正在报名阶段&#xff0c;大学生们千万不要错过&#xff01;这个IT证书的含金量巨高&#xff0c;对你的大学生涯乃至毕业后的职业规划都有帮助&#xff01; 下面就来为大家详细讲解一番&#xff0c;速速码住&#xff01; 1、软考报名条件 软考报名没有学历、资历、年龄…

【Python常用库_1】网络安全清洁专家——Bleach

前言&#xff1a; &#x1f60a;&#x1f60a;&#x1f60a;欢迎来到本博客&#x1f60a;&#x1f60a;&#x1f60a; &#x1f31f;&#x1f31f;&#x1f31f; 本专栏主要分享常用的一些Python库&#xff0c;让工作学习事半功倍&#xff0c;适用于平时学习、工作快速查询等…

CPP多态

目录 前言 多态的概念 多态的定义及实现 多态的构成条件 虚函数 虚函数的重写 虚函数重写的两个例外 C11 override 和 final 重载、覆盖(重写)、隐藏(重定义)的对比 抽象类 接口继承和实现继承 多态的原理 虚函数表 多态的原理 动态绑定与静态绑定 单继承和多继…

Aspose.PDF功能演示:在 C# 中将 JPG 图像合并为 PDF

Aspose.PDF 是一款高级PDF处理API&#xff0c;可以在跨平台应用程序中轻松生成&#xff0c;修改&#xff0c;转换&#xff0c;呈现&#xff0c;保护和打印文档。无需使用Adobe Acrobat。此外&#xff0c;API提供压缩选项&#xff0c;表创建和处理&#xff0c;图形和图像功能&am…

网安新声 | 智能家居时代,用户隐私谁来守护

网安加社区【网安新声】栏目&#xff0c;汇聚网络安全领域的权威专家与资深学者&#xff0c;紧跟当下热点安全事件、剖析前沿技术动态及政策导向&#xff0c;以专业视野和前瞻洞察&#xff0c;引领行业共同探讨并应对新挑战的策略与可行路径。 近日&#xff0c;某知名品牌旗下的…

【初领妙道】一眼学会Redis之重点大纲

重点大纲 1. Redis基础2. Redis核心功能3. 高级特性4. 性能优化5. 高可用性6. 安全性7. 实战应用8. 监控与运维总结 Redis&#xff08;Remote Dictionary Server&#xff09;是一款开源的、高性能的键值存储系统&#xff0c;它支持多种数据结构&#xff0c;如字符串、列表、集合…

STL算法详细解剖——单纯数据处理函数

STL算法详细解剖——单纯数据处理函数 前言1.replace 替代函数值2.replace_copy 替代函数值3.replace_if 替代函数值4.replace_copy_if 替代函数值5.reverse 颠倒排序6.reverse_copy 颠倒排序7.rotate 将元素按某个中间值进行互换7.1.rotate 将元素按某个中间值进行互换8.roate…

hex文件转bin文件

一、简介 在进行MCU开发时,经常需要使用到hex和bin文件,这里总结几种hex转bin的方法。 二、MDK转换 很多的MCU开发,都会用到MDK,而MDK自身是可以执行批处理,来完成hex到bin文件的直接转化的。 见如下指令: fromelf --bin -o ..\..\output\@L.bin #L 这里解释一下上面指令…

音频在线转换mp3:学会这2个方法,拿捏音频转换

如今音频文件的格式转换变得越发重要。你是否曾因为无法在设备上播放特定格式的歌曲而感到困扰&#xff1f;你是否希望将原有的音频文件转换为更常见、更通用的mp3格式&#xff0c;以便在不同设备上畅快地品味音乐&#xff1f; 为了音频文件的顺利播放&#xff0c;我们需要学会…

SpringBoot 增量部署发布

一、背景介绍 由于项目依赖的jar越来越多&#xff0c;Springboot默认的打包方式是将整个项目打包成一个jar包&#xff0c;每次发布时&#xff0c;打包后的jar越来越大&#xff0c;更新一个很小的功能&#xff0c;需要将整个jar上传运行。这样效率太低了&#xff0c;考虑实现每…

2024年百元蓝牙耳机推荐有哪些?四款年度热门机型评测推荐

随着蓝牙技术的不断成熟和普及&#xff0c;蓝牙耳机已经悄然成为我们日常生活中不可或缺的一部分&#xff0c;特别是在2024年&#xff0c;市面上涌现出了许多性价比极高的百元蓝牙耳机&#xff0c;那么在众多的蓝牙耳机里2024年百元蓝牙耳机推荐有哪些&#xff1f;为了解决大家…

【Java】实体类Javabean

文章目录 前言一、实体类Javabean是什么&#xff1f;二、代码总结 前言 记录实体类的基本语法 一、实体类Javabean是什么&#xff1f; 其实就是一种特殊形式的类&#xff0c;这种类特殊点在于&#xff1a; 1、这个类中的成员变量都要私有&#xff0c;并且要对外提供相应的ge…

【STM32+HAL库】---- 硬件IIC驱动0.96OLED

硬件开发板&#xff1a;STM32G0B1RET6 软件平台&#xff1a;cubemaxkeilVScode内容原著声明 代码借鉴学习于以下文章&#xff1a; STM32 使用硬件IIC驱动0.96寸4针IOLED显示器&#xff08;HAL库&#xff09; 1 新建cubemax工程 1.1 配置系统时钟RCC 1.2 配置引脚 1.3 导出工…

ICM20948 DMP代码详解(1)

序言 接触Invensense的芯片这已经是第三次了。2015年在第二空间的时候第一次接触它的芯片&#xff0c;那时候是MPU9250&#xff1b;2021年的时候在智橙动力再一次接触到了MPU6050&#xff0c;那个时候用到了其中的DMP&#xff1b;这次接触的是ICM20948&#xff0c;按目前笔者理…

吃多一时爽,吃少活更长!

美国索尔克生物研究所Belmonte研究团队和中科院研究团队在Cell上发表题为Caloric Restriction Reprograms the Single-Cell Transcriptional Landscape of Rattus Norvegicus Aging的研究内容&#xff0c;比较了摄入热量少30%的老鼠和正常饮食的老鼠之间的区别&#xff0c;发现…

黑马点评7——达人探店

文章目录 发布探店笔记查看探店笔记点赞功能点赞排行榜功能 发布探店笔记 这个其实比较简单&#xff0c;就是把笔记保存到数据库tb_blog中去 PostMappingpublic Result saveBlog(RequestBody Blog blog) {// 获取登录用户UserDTO user UserHolder.getUser();blog.setUserId(u…

python OpenCV的羽化融合图像

1. 读入两幅图像,苹果和橘子 2. 构建苹果和橘子的高斯金字塔&#xff08;6 层&#xff09; 3. 根据高斯金字塔计算拉普拉斯金字塔 4. 在拉普拉斯的每一层进行图像融合&#xff08;苹果的左边与橘子的右边融合&#xff09; 5. 根据融合后的图像金字塔重建原始图像。 impor…