大数据处理技术导论(6) | Datawhale组队学习46期

news2024/10/2 10:36:12

文章目录

  • 1. hive 概述
  • 2. hive 与传统关系型数据库的对比
  • 3. hive 数据类型
  • 4. hive 数据模型
  • 5. hive 实战
    • 5.1 创建表
    • 5.2 修改表
    • 5.3 清空表、删除表
    • 5.4 其他命令

项目地址 https://github.com/datawhalechina/juicy-bigdata,感谢项目团队的付出。
本次主要学习 hive 相关内容。

1. hive 概述

hive 是建立在 hadoop 之上的数仓工具。它将 hadoop 上存储的结构化、半结构化数据文件映射为表,使得可以通过 HiveQL(HQL)对存储于 hadoop 上的大型数据文件进行访问与分析。

hive 本身并不存储数据,它只是提供了用户与 hadoop 系统文件之前的连接通道。其核心是将 HQL 翻译成 MapReduce 任务,然后提交至 hadoop 集群中进行执行,并给用户返回处理结果。

hive 大幅降低了普通业务人员或者说数据开发(不了解 java 编程)进行大数据分析的门槛。

hive 适合对海量数据进行离线分析,不适合对数据进行实时处理。前边学过的 HBase 适合数据的实时处理。

2. hive 与传统关系型数据库的对比

在使用方面,hive 和传统关系型数据库基本相同,由于其文件系统为 HDFS,hive 与传统关系型数据库还是由不少区别,详见下表对比情况。

对比内容Hive传统关系型数据库
数据存储HDFS本地文件系统
索引基本不支持支持复杂索引
分区支持支持
执行引擎MapReduce、Tez、Spark自身的执行引擎
执行延迟高(T+1)
扩展性有限
数据规模

3. hive 数据类型

hive 支持以下几种数据类型:

大类类型
Integers(整型)TINYINT:1字节的有符号整数;
SMALLINT:2字节的有符号整数;
INT:4字节的有符号整数;
BIGINT:8字节的有符号整数
Boolean(布尔型)BOOLEAN:TRUE/FALSE
Floating point numbers(浮点型)FLOAT:单精度浮点型;
DOUBLE:双精度浮点型
Fixed point numbers(定点数)DECIMAL:用户自定义精度定点数,比如 DECIMAL(7,2)
String types(字符串)STRING:指定字符集的字符序列;
VARCHAR:具有最大长度限制的字符序列;
CHAR:固定长度的字符序列
Date and time types(日期时间类型)TIMESTAMP:时间戳;
TIMESTAMP WITH LOCAL TIME ZONE:本地时区时间戳,纳秒精度;
DATE:日期类型
Binary types(二进制类型)BINARY:字节序列

4. hive 数据模型

自上而下,hive 分为库、表、分区、分桶 4种数据模型。


  • hive 数据库中,默认的 database 是 default,实际应用中一般不适用 default 数据库而是新建 database。


  • hive 本身并不存储数据,hive 表对应的数据都是存储在 HDFS 上,hive 表相关的元数据存储于 hive 内置的 Derby (仅支持一个实例,极少使用)或者第三方的 MySQL (运行多个实例同时访问)。
    hive 表分为内部表和外部表。

    • 内部表的表创建过程和数据加载过程是分离的,加载数据过程中,数据会被移动至相应的数仓目录下(HDFS 上的 A 位置移动至 HDFS 上的 B 位置),对于 hive 内部表数据的访问都是对数仓目录进行操作。删除 hive 内部表也是真正的删除数据,要慎重哦~

    • 外部表的表创建过程和数据加载过程是同一个过程,hive 外部表的创建只是在元数据里添加了映射记录,对于 hive 外部表的访问还是读取 HDFS 上的内容。删除 hive 外部表时,也只是删除了该表的元数据,而并未真正删除数据。

    hive 内部表和外部表的差异总结如下:

对比内容内部表外部表
数据存储位置内部表数据存储的位置由 hive-site.xml 中的hive.Metastore.warehouse.dir参数指定,
默认情况下,表的数据存储在HDFS/user/hive/warehouse/数据库名.db/表名/目录下
外部表数据的存储位置创建表时由Location参数指定
导入数据在导入数据到内部表,内部表将数据移动到自己的数据仓库目录下,
数据的生命周期由Hive来进行管理
外部表不会将数据移动到自己的数据仓库目录下,
只是在元数据中存储了数据的位置
删除表删除元数据(metadata)和 HDFS 数据文件只删除元数据(metadata)
安全性低(容易误删数据)
  • 分区
    hive 分区就是将数据存放于不同的目录,查询时命中分区,能避免全表扫描,提高查询效率。
  • 分桶
    可以在分区的基础上继续进行分桶,所谓分桶,就是将分区内数据以某个字段的 hash 值进行分组,将数据文件拆分为若干个小文件。优点是优化 join 查询和方便抽样查询,缺点是会生成很多小文件。

5. hive 实战

由于我的 hive 运行环境之前已经部署好了,这里不再赘述,详情可以参考 hive安装部署和管理

好久不用了,试了下,居然报错了

FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

在这里插入图片描述
报错的意思是说无法实例化 hive 元数据客户端,重新初始化之后也是不行。最终通过如下命令解决

cd /opt/module/hive/bin
./hive --service metastore &

./hive

该命令的含义是在后台启动了 hive 元数据服务。

5.1 创建表

hive 创建表的语法如下,实际操作时按需选择操作符即可

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name     -- 表名
  [(col_name data_type [COMMENT col_comment],
    ... [constraint_specification])]  -- 列名 列数据类型
  [COMMENT table_comment]   -- 表描述
  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]  -- 分区表分区规则
  [
    CLUSTERED BY (col_name, col_name, ...) 
   [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS
  ]  -- 分桶表分桶规则
  [SKEWED BY (col_name, col_name, ...) ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)  
   [STORED AS DIRECTORIES] 
  ]  -- 指定倾斜列和值
  [
   [ROW FORMAT row_format]    
   [STORED AS file_format]
     | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  
  ]  -- 指定行分隔符、存储文件格式或采用自定义存储格式
  [LOCATION hdfs_path]  -- 指定表的存储位置
  [TBLPROPERTIES (property_name=property_value, ...)]  -- 指定表的属性
  [AS select_statement];   -- 从查询结果创建表

在这里插入图片描述

使用 create like 语句可以复制一张表的表结构

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name  -- 创建表的表名
   LIKE existing_table_or_view_name  -- 被复制表的表名
   [LOCATION hdfs_path]; -- 存储位置

在这里插入图片描述
加载 HDFS 路径数据文件到表的命令如下:

-- 加载数据到 emp 表中
load data local inpath "/home/omc/emp.txt" into table emp;

5.2 修改表

  • 修改表名
ALTER TABLE table_name RENAME TO new_table_name;

ALTER TABLE whaleMart_copy RENAME TO whaleMart_tmp;
在这里插入图片描述

  • 修改列
ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name col_new_name column_type
  [COMMENT col_comment] [FIRST|AFTER column_name] [CASCADE|RESTRICT];

修改 whaleMart 表中的字段属性,命令如下

-- 修改字段名和类型
ALTER TABLE whaleMart CHANGE goods_id goods_code STRING;

-- 修改字段 goods_code 的名称并将其放置到 goods_name 字段后
ALTER TABLE whaleMart CHANGE goods_code goods_id STRING AFTER goods_name;

-- 为字段增加注释
ALTER TABLE whaleMart CHANGE goods_id goods_id STRING COMMENT '商品编号';

在这里插入图片描述
在这里插入图片描述
可以看到,添加的中文注释并未正常显示。这是因为 hive 元数据库创建,默认编码是 lanin1,需要登录当前 hive 运行环境的 mysql 数据库,执行如下命令:

//修改字段注释字符集
     alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;


   //修改表注释字符集
     alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;


   //修改分区注释字符集
    alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;


5.3 清空表、删除表

  • 清空表
-- 清空整个表或表指定分区中的数据
TRUNCATE TABLE table_name [PARTITION (partition_column = partition_col_value,  ...)];

需要注意的是:只有内部表才支持 TRUNCATE 命令,对外部表执行 TRUNCATE 操作时会报错。

TRUNCATE TABLE whaleMart_tmp

  • 删除表
DROP TABLE [IF EXISTS] table_name [PURGE]; 

5.4 其他命令

  • describe 命令
DESCRIBE|Desc DATABASE [EXTENDED] db_name;  -- EXTENDED 是否显示额外属性

DESCRIBE|Desc [EXTENDED|FORMATTED] table_name;  -- FORMATTED 以友好的展现方式查看表详情

在这里插入图片描述

  • show
    不太常用的命令如下:
-- 查看视图列表
SHOW VIEWS

-- 查看表的分区列表
SHOW PARTITIONS table_name;

-- 查看表或者视图的创建语句
SHOW CREATE TABLE ([db_name.]table_name|view_name);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/380381.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

web,h5海康视频接入监控视频流记录三(后台node取流)

前端vue,接入ws视频播放 云台控制 ,回放预览,都是需要调对应的海康接口。相当于,点击时,请求后台写好的接口,接口再去请求海康的接口 调用云台控制是,操作一次,不会自己停止&#x…

元宇宙如何在未来5年影响你的业务

自新冠疫情暴发以来,虽然数字经济的和实体经济受到了严重的冲击和影响,但这也加速了元宇宙在全球的发展。区块链、数字资产和非同质化代币(NFTs)的兴起进一步推动了世界对元宇宙的需求。元宇宙被定义为用户可以在其中进行互动的虚…

HiveSQL一天一个小技巧:如何将分组内数据填充完整?

0 需求1 需求分析需求分析:需求中需要求出分组中按成绩排名取倒数第二的值作为新字段,且分组内没有倒数第二条的时候取当前值。如果本题只是求分组内排序后倒数第二,则很简单,使用row_number()函数即可求出,但是本题问…

Netty之io.netty.util.concurrent.Promise与io.netty.util.concurrent.Future初解

目录 目标 Netty版本 Netty官方API 三者之间的关系 基本使用方法 java.util.concurrent.Future io.netty.util.concurrent.Future io.netty.util.concurrent.Promise 目标 了解io.netty.util.concurrent.Promise与io.netty.util.concurrent.Future的基本使用方法。了解…

操作系统权限提升(二十四)之Linux提权-明文ROOT密码提权

系列文章 操作系统权限提升(十八)之Linux提权-内核提权 操作系统权限提升(十九)之Linux提权-SUID提权 操作系统权限提升(二十)之Linux提权-计划任务提权 操作系统权限提升(二十一)之Linux提权-环境变量劫持提权 操作系统权限提升(二十二)之Linux提权-SUDO滥用提权 操作系统权限…

Netty学习(二):线程模型

目录 一、线程模型基本介绍 二、传统阻塞IO服务模型 2.1 工作原理图 2.2 模型特点 2.3 问题分析 三、Reactor模式 3.1 完善传统阻塞I/O服务模型 3.2 Reactor模型原理图 3.3 Reactor模式中核心组成 3.4 Reactor模式分类 四、单 Reactor 单线程 4.1 原理图 4.2 方案说…

(二十一)操作系统-信号量机制2

文章目录一、知识总览二、知识点回顾三、信号量机制实现进程互斥四、信号量机制实现进程同步五、信号量机制实现前驱关系六、总结一、知识总览 二、知识点回顾 整型信号量:用一个整数型的变量作为信号量,用来表示系统中某种资源的数量。   记录型信号量…

4.5 正则表达式过滤查询数据

文章目录1. 概述2. 基本字符匹配3.LIKE关键字与正则表达式的区别4.进行OR匹配5.匹配几个字符之一6.匹配范围7.匹配特殊字符8.匹配多个实例9.定位符1. 概述 正则表达式用来匹配更加复杂的查询条件,例如你想从文件中提取电话号码,想从查找名字中间有数字的…

带你掌握webSocket 和 socket.io的基本用法

两者的作用和区别 作用:使得前后端可以随时地相互沟通。什么是互相沟通呢?像网络请求这种就是客户端向服务端的单向的沟通,当然,网络请求也可以实现双向的沟通,比如ajax 轮询,就是浏览器开个定时器不断的发…

Python虚拟环境(pipenv、venv、conda一网打尽)[通俗易懂]

一、什么是虚拟环境 1. 什么是Python环境 要搞清楚什么是虚拟环境,首先要清楚Python的环境指的是什么。当我们在执行python test.py时,思考如下问题: python哪里来?这个主要归功于配置的系统环境变量PATH,当我们在命…

山地车和公路车怎么选

公路车: 只能适应平坦的路面,骑行阻力小,速度快比较适合新手 山地车: 能适应所有路面,更注重操控性和舒适性 怎么选? 1、先决定用途 旅游:旅行车、山地车、 通勤:公路车 2、预…

如何使用BeaconEye监控CobaltStrike的Beacon

关于BeaconEye BeaconEye是一款针对CobaltStrike的安全工具,该工具可以扫描正在运行的主动CobaltStrike Beacon。当BeaconEye扫描到了正在运行Beacon的进程之后,BeaconEye将会监控每一个进程以查看C2活动。 工作机制 BeaconEye将会扫描活动进程或Mini…

G公司对接伍尔特wurth EDI项目案例

项目背景 对伍尔特wurth 而言,与其供应商开展成功的数字化项目通常是以自动连接开始的。通过这种方式,标准化的信息可以在彼此之间进行简单而自动的交换。这个流程被称为电子数据交换(EDI)。 EDI使得诸如订单、送货单、发票、订单…

Jmeter常用断言之JSON断言简介

JSON断言可以对服务器返回的JSON文档进行验证。 JSON断言有两种使用模式: 1.根据JSONPath能否在JSON文档中找到路径; 2.根据JSONPath提取值并对值进行验证。 结果判定:若文档格式为非JSON则断言失败;找不到路径断言失败&#xff1…

深度学习 | BN层原理浅谈

深度学习 | BN层原理浅谈 文章目录深度学习 | BN层原理浅谈一. 背景二. BN层作用三. 计算原理四. 注意事项为什么BN层一般用在线性层和卷积层的后面,而不是放在激活函数后为什么BN能抑制过拟合(有争议)一. 背景 神经网络在训练时,由于内存限制&#xff0…

Swagger2实现配置Header请求头

效果 实现 大家使用swagger肯定知道在代码中会写一个 SwaggerConfig 配置类,如果没有这个类swagger指定也用不起来,所以在swagger中配置请求头也是在这个 SwaggerConfig 中操作。 1、要实现配置请求头在配置swagger的Docket的bean实例中添加一个 globa…

用Python做了一个法律查询小工具,非常好用

用Python做了一个法律查询小工具,非常好用效果展示准备工作不会的话可以点我直达代码和视频讲解,我都准备好了主要代码哈喽兄弟,今天给大家分享一个Python tkinter制作法律查询小工具。 光爬虫大家也只能自己用用,就算打包了exe&…

安全狗受聘成为福州网信办网络安全技术支撑单位

近日,福州市委网信办召开了2022年度网络安全技术支撑单位总结表彰大会。 作为国内云原生安全领导厂商,安全狗也出席了此次活动。 据悉,会议主要对2022年度优秀支撑单位进行表彰,并为2023年度支撑单位举行授牌仪式。 本次遴选工…

2.1 黑群晖驱动:10代u核显硬解驱动(解决掉IP、重启无法连接问题)

本文提供了两种10代核显驱动方式:1)第一种(本文:二、仅修改i915.ko驱动10代u核显方法)为网上流传最多但是对主板兼容性要求很高,网上评论常会出现操作后无法识别IP(掉IP)的问题。因此,采用第一种…

vue-cli升级vue-cli5(webpack5引入)

一. 升级目标 vue-cli从v4版本升级到v5版本(同时升级到webpack5) node-sass不再支持,需要删除依赖,并将/deep/ 替换为v::deep方式 二. vue-cli4升级为vue-cli5 1.全局安装vue-cli npm install -g vue/cli// 检查是否更新成功 …