入门用Hive构建数据仓库

news2025/1/16 6:43:17

在当今数据爆炸的时代,构建高效的数据仓库是企业实现数据驱动决策的关键。Apache Hive 是一个基于 Hadoop 的数据仓库工具,可以轻松地进行数据存储、查询和分析。本文将介绍什么是 Hive、为什么选择 Hive 构建数据仓库、如何搭建 Hive 环境以及如何在 Hive 中实现数据仓库的分层建模。

本篇文章先做初步讲解,后续会结合数仓建模,Kimball维度建模,从ODS到DWD、DWS、数据集市、ADS等各层进行维度表和事实表的建模。

一、什么是 Hive?

Apache Hive 是一个基于 Hadoop 的数据仓库工具,可以将结构化数据映射到 Hadoop 分布式文件系统(HDFS)上,并提供类似 SQL 的查询语言(HiveQL)来查询和分析数据。Hive 可以处理 PB 级别的数据规模,并提供了高可靠性和扩展性。

二、为什么选择 Hive 构建数据仓库?

易用性: Hive 提供了类似 SQL 的查询语言,使得用户可以轻松地进行数据查询和分析,无需学习复杂的 MapReduce 编程。

扩展性: Hive 可以处理 PB 级别的数据规模,适用于大规模数据存储和分析。

与 Hadoop 生态集成: Hive 可以与其他 Hadoop 生态系统组件(如HDFS、HBase)无缝集成,实现全面的数据管理和分析。

三、如何搭建 Hive 环境?

搭建 Hive 环境通常需要以下步骤:

1.安装 Hadoop:

首先需要安装和配置 Hadoop 分布式文件系统(HDFS)和 YARN(资源管理器)。

2.下载和配置 Hive:

下载并解压缩 Hive 的安装包,根据实际需求配置 Hive 的环境变量和配置文件。

下载 Hive: 访问 Apache Hive 官方网站(https://hive.apache.org/),下载最新版本的 Hive 安装包。

解压安装包: 使用以下命令解压缩安装包到指定目录:

tar -zxvf apache-hive-x.y.z-bin.tar.gz -C /opt

配置环境变量: 在用户的环境配置文件(如 ~/.bashrc)中添加以下配置:

export HIVE_HOME=/opt/apache-hive-x.y.z
export PATH=$PATH:$HIVE_HOME/bi

配置 Hive 配置文件: 进入 Hive 安装目录,复制 hive-default.xml.template 文件为 hive-site.xml,并进行必要的配置:

cd /opt/apache-hive-x.y.z/conf
cp hive-default.xml.template hive-site.xml

配置 hive-site.xml 文件,根据实际需求设置 Hadoop 的相关参数,如 Hadoop 的 HDFS 地址、YARN 地址等。

3.初始化元数据库:

运行 Hive 的初始化脚本,创建元数据库和初始表。

schematool -initSchema -dbType derby

这将在默认的 Derby 数据库中初始化 Hive 的元数据库。如果需要使用其他数据库,可以相应地修改配置文件并初始化。

4.启动 Hive:

启动 Hive 服务,开始使用 Hive 进行数据查询和分析。

hive

这将启动 Hive CLI,允许用户使用 HiveQL 进行数据查询和操作。也可以启动 HiveServer2 服务,允许远程连接和提交 Hive 查询。

通过以上步骤,就可以成功搭建 Hive 环境,并开始在其中构建数据仓库和进行数据分析。以下是一个完整的示例代码,演示了如何在 Hive 中创建分区表和分桶表,并进行数据查询和分析。

四、在 Hive 中实现数据仓库的分层建模

Hive 的分区表(Partitioned Table)和分桶表(Bucketed Table)是在数据仓库建模中常用的两种技术,用于提高数据查询和处理的效率。它们在 Hive 中的实现方式和用途略有不同。

1. Hive 分区表(Partitioned Table)

Hive 分区表是按照一个或多个列的值进行逻辑上的划分和存储的表格。通过分区表,可以将数据分散存储在不同的目录中,提高查询性能,同时也更便于数据管理和维护。

特点:

  • 按列值分区: 根据一个或多个列的值将数据分区存储。
  • 提高查询性能: 可以针对特定的分区进行查询,减少不必要的数据扫描,提高查询效率。
  • 便于管理: 可以根据分区进行数据管理和维护,如备份、删除、移动等操作。

示例:

假设有销售数据表 sales,我们可以按照销售日期进行分区存储:

CREATE TABLE sales (
    product_id INT,
    sale_date STRING,
    amount DOUBLE
)
PARTITIONED BY (sale_year INT, sale_month INT);

2. Hive 分桶表(Bucketed Table)

Hive 分桶表是将数据根据某一列的哈希值分桶存储的表格。分桶表通过将数据分布到不同的桶中,可以提高数据查询的效率。

特点:

  • 按哈希值分桶: 根据某列的哈希值将数据分桶存储。
  • 提高查询性能: 可以针对特定的桶进行查询,减少数据扫描,提高查询效率。
  • 均匀分布: 数据会被均匀地分布在不同的桶中,避免数据倾斜问题。

示例:

假设有销售数据表 sales,我们可以按照产品ID进行分桶存储:

CREATE TABLE sales_bucketed (
    product_id INT,
    sale_date STRING,
    amount DOUBLE
)
CLUSTERED BY (product_id) INTO 4 BUCKETS;

数据加载示例:

假设有如下的 data.csv 文件包含了销售数据:

product_id,sale_date,amount
101,2022-01-01,100.50
102,2022-01-02,150.75
103,2022-01-03,200.25
104,2022-01-04,180.00

我们可以使用以下命令将数据加载到 Hive 表中:

-- 创建分区表
CREATE TABLE sales (
    product_id INT,
    sale_date STRING,
    amount DOUBLE
)
PARTITIONED BY (sale_year INT, sale_month INT);

-- 加载数据到分区表
LOAD DATA INPATH '/path/to/data.csv' INTO TABLE sales PARTITION (sale_year=2022, sale_month=1);

通过以上示例,可以了解 Hive 分区表和分桶表的概念、特点以及如何加载数据。

3.以下是一个完整的示例代码

演示了如何在 Hive 中创建分区表和分桶表,并进行数据查询:

在 Hive 中建立数据仓库的表并插入数据,然后进行数据查询,通常需要以下步骤:

1). 创建表

在 Hive 中创建表可以使用类似于 SQL 的语法,定义表的结构和属性。

通过以上示例代码,读者可以了解如何在 Hive 中创建分区表和分桶表,并进行数据查询和分析,从而实现数据仓库的分层建模。Hive 提供了强大的数据管理和分析能力,是构建数据仓库的理想选择。

-- 创建用户表
CREATE TABLE users (
    user_id INT,
    username STRING,
    age INT,
    gender STRING,
    occupation STRING
);
2). 插入数据

在创建好的表中插入数据,可以使用 INSERT INTO 语句或者从外部数据源加载数据。

使用 INSERT INTO 插入数据:

-- 插入数据到用户表
INSERT INTO users VALUES
(1, 'Alice', 30, 'Female', 'Engineer'),
(2, 'Bob', 35, 'Male', 'Manager'),
(3, 'Charlie', 25, 'Male', 'Data Scientist');

从外部数据源加载数据:

-- 从外部数据源加载数据到用户表
LOAD DATA INPATH '/path/to/users.csv' OVERWRITE INTO TABLE users;
3). 数据查询

在 Hive 中进行数据查询可以使用类似于 SQL 的语法,执行常见的查询操作。

查询所有数据:

-- 查询用户表中所有数据
SELECT * FROM users;

条件查询:

-- 查询年龄大于 30 岁的用户
SELECT * FROM users WHERE age > 30;

聚合查询:

-- 统计不同职业的用户数量
SELECT occupation, COUNT(*) AS user_count FROM users GROUP BY occupation;

通过以上示例代码,可以初步了解如何在 Hive 中创建数据仓库的表、插入数据,并进行常见的数据查询操作。在实际应用中,可以根据具体需求和数据情况编写更复杂的查询语句,实现更多样化的数据分析功能。

更多内容,请关注「同道说」

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1569565.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

读《Spring实战》:面向切面

AOP术语 通知(Advice) 在AOP中,切面的工作被称为通知,也就是通知就是具体要干的工作。 spring中有5中通知: 前置通知: 在目标方法之前调用通知功能后置通知: 在目标方法之后调用通知功能返回…

无线电和雷达频谱大全

1,频率单位 2,全球警用雷达频率 3,军用雷达频段 4,国际电联ITU雷达频段 5,无线电频段 6,电子对抗ECM频段 7,声波频段

C#清空窗体的背景图片

目录 一、涉及到的知识点 1.设置窗体的背景图 2.加载窗体背景图 3.清空窗体的背景图 二、 示例 一、涉及到的知识点 1.设置窗体的背景图 详见本文作者的其他文章:C#手动改变自制窗体的大小-CSDN博客 https://wenchm.blog.csdn.net/article/details/137027140…

基于SpringBoot和Vue的金融融资管理系统的设计和实现【附源码】

1、系统演示视频(演示视频) 2、需要交流和学习请联系

paddlepaddle模型转换onnx指导文档

一、检查本机cuda版本 1、右键找到invdia控制面板 2、找到系统信息 3、点开“组件”选项卡, 可以看到cuda版本,我们这里是cuda11.7 cuda驱动版本为516.94 二、安装paddlepaddle环境 1、获取pip安装命令 ,我们到paddlepaddle官网&#xff…

网络原理 - HTTP / HTTPS(3)——http响应

目录 一、认识 “状态码”(status code) 常见的状态码 (1)200 OK (2)404 Not Found (3)403 ForBidden (4)405 Method Not Allowed (5&…

Unity框架,ET框架8.1版本的打包流程记录

目录 打包代码前置1.必须要安装Visusal Studio 2022的组件,如下图,必须都要进行安装,不然会在代码重构的时候报错,丢失SDK。Rider的版本必须2023及以上 步骤一、使用Rider编辑器打开项目后进行重构项目步骤二、使用HybirdCLR生成A…

openGauss学习笔记-256 openGauss性能调优-使用Plan Hint进行调优-优化器GUC参数的Hint

文章目录 openGauss学习笔记-256 openGauss性能调优-使用Plan Hint进行调优-优化器GUC参数的Hint256.1 功能描述256.2 语法格式256.3 参数说明 openGauss学习笔记-256 openGauss性能调优-使用Plan Hint进行调优-优化器GUC参数的Hint 256.1 功能描述 设置本次查询执行内生效的…

Flume 拦截器概念及自定义拦截器的运用

文章目录 Flume 拦截器拦截器的作用拦截器运用1.创建项目2.实现拦截器接口3.编写事件处理逻辑4.拦截器构建5.打包与上传6.编写配置文件7.测试运行 Flume 拦截器 在 Flume 中,拦截器(Interceptors)是一种可以在事件传输过程中拦截、处理和修改…

【Qt 学习笔记】Qt的坐标体系

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt的坐标体系 文章编号:Qt 学习笔记 / 11 文章目录 Qt的坐…

ML.NET(二) 使用机器学习预测表情分析

这个例子使用模型进行表情分析: 准备数据: happy,sad 等; using Common; using ConsoleApp2; using Microsoft.ML; using Microsoft.ML.Data; using System.Diagnostics; using static Microsoft.ML.Transforms.ValueToKeyMappingEstimator;…

[C#]OpenCvSharp实现直方图均衡化全局直方图局部直方图自适应直方图

【什么是直方图均衡化】 直方图均衡化是一种简单而有效的图像处理技术,它旨在改善图像的视觉效果,使图像变得更加清晰和对比度更高。其核心原理是将原始图像的灰度直方图从可能较为集中的某个灰度区间转变为在全部灰度范围内的均匀分布。通过这种方法&a…

【接口】HTTP(1)|请求|响应

1、概念 Hyper Text Transfer Protocol(超文本传输协议)用于从万维网(就是www)服务器传输超文本到本地浏览器的传送协议。 HTTP协议是基于TCP的应用层协议,它不关心数据传输的细节,主要是用来规定客户端和…

【Linux】第二个小程序--简易shell

请看上面的shell,其本质就是一个字符串,我们知道bash本质上就是一个进程,只不过命令行就是一个输出的字符串, 我们输入的命令“ls -a -l”实际上是我们在输入行输入的字符串,所以,如果我们想要做一个简易的…

vscode开发ESP32问题记录

vscode 开发ESP32问题记录 1. 解决vscode中的波浪线警告 1. 解决vscode中的波浪线警告 参考链接:https://blog.csdn.net/fucingman/article/details/134404485 首先可以通过vscode 中的IDF插件生成模板工程,这样会自动创建.vscode文件夹中的一些json配…

Jackson @JsonUnwrapped注解扁平化 序列化反序列化数据

参考资料 Jackson 2.x 系列【7】注解大全篇三JsonUnwrapped 以扁平的数据结构序列化/反序列化属性Jackson扁平化处理对象 目录 一. 前期准备1.1 前端1.2 实体类1.3 Controller层 二. 扁平化序列反序列化数据2.1 序列化数据2.2 反序列化数据 三. 前缀后缀处理属性同名四. Map数…

RabbitMQ3.7.8集群分区(脑裂现象)模拟及恢复处置全场景测试

测试环境准备: MQ服务器集群地址,版本号为3.7.8: 管理控制台地址:http://173.101.4.6:15672/#/queues 集群状态 rabbitmqctl cluster_status 集群操作相关命令: 创建一个RabbitMQ集群涉及到如下步骤: 安装RabbitMQ: 在每台要在集…

【Linux】Ubuntu 文件权限管理

Linux 系统对文件的权限有着严格的控制,用于如果相对某个文件执行某种操作,必须具有对应的权限方可执行成功,这也是Linux有别于Windows的机制,也是基于这个权限机制,Linux可以有效防止病毒自我运行。因为运行的条件是必…

软件架构复用

1.软件架构复用的定义及分类 软件产品线是指一组软件密集型系统,它们共享一个公共的、可管理的特性集,满足某个特定市场或任务的具体需要,是以规定的方式用公共的核心资产集成开发出来的。即围绕核心资产库进行管理、复用、集成新的系统。核心…

【随笔】Git 高级篇 -- 相对引用2(十三)

💌 所属专栏:【Git】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! 💖 欢迎大…