Hive数仓操作(一)

news2024/9/29 5:49:25

Hive 介绍

Hive 是一个基于 Hadoop 的数据仓库工具,旨在简化大规模数据集的管理和分析。它将结构化数据文件映射为表,并提供类似 SQL 的查询功能。Hive 的数据存储在 Hadoop 分布式文件系统(HDFS)中,使用 Hive 查询语言(HQL)进行数据处理。

1. Hive 的本质: HQL转化为MapReduce

  1. 数据存储:Hive 的数据存储在 HDFS 中。
  2. 底层实现:Hive 通过 MapReduce 框架处理数据,适合大数据量的分析任务。
  3. 执行延迟:Hive 的执行延迟较高,适合于对实时性要求不高的数据分析场景。

在这里插入图片描述


2. Hive 的优点

  1. 简单易用:采用类 SQL 语法,快速开发能力强。
  2. 低学习成本:避免手动编写 MapReduce 程序,减少开发人员的学习成本。
  3. 大数据处理:优势在于处理大规模数据,对于小数据量没有明显优势。
  4. 自定义扩展:支持用户自定义函数,能够满足特定需求。

3. Hive 和关系型数据库的比较

尽管 Hive 采用了类似 SQL 的查询语言 HQL,使得它在表面上看起来像一个数据库,但实际上,Hive 和数据库除了拥有类似的查询语言,再无类似之处,数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的工具。

特性Hive关系型数据库(如 Oracle,Mysql)
存储HDFS 分布式文件存储系统服务器本地的文件系统(如 DBF)
计算MapReduce专用的计算执行引擎
时间高延迟低延迟
数据量适用于 PB/TB 级别的大数据通常处理 GB 级别的数据
主键不支持主键支持主键
索引高版本才有位图索引,索引支持有限有丰富的索引支持
可扩展性与 Hadoop 的可扩展性一致,支持大规模集群由于 ACID 语义的限制,扩展性有限
数据规模支持大规模数据的并行计算支持的数据规模相对较小
  1. 查询语言:Hive 提供了针对其特性设计的类 SQL 查询语言 HQL,熟悉 SQL 的开发者可以快速上手。

  2. 数据存储位置:Hive 的数据都存储在 HDFS 中,而关系型数据库则可以保存在本地文件系统或块设备中。

  3. 数据更新:Hive 主要用于读多写少的场景,不建议频繁更新数据,而关系型数据库的设计则支持频繁的 CRUD 操作。

  4. 索引:Hive 在数据加载过程中不会自动创建索引,因此查询时可能需要全表扫描,这会导致较高的延迟。相对而言,关系型数据库通常会为重要字段创建索引,查询效率较高。

  5. 执行:Hive 查询通过 Hadoop 的 MapReduce 来实现,而关系型数据库则通常有自己的执行引擎,处理速度更快。

  6. 执行延迟:由于缺乏索引和使用 MapReduce,Hive 的查询延迟较高,因此不适合在线实时查询。

  7. 可扩展性:Hive 的可扩展性与 Hadoop 一致,能够在集群上水平扩展,支持大规模数据的处理。而传统关系型数据库在 ACID 语义的严格限制下,扩展性相对有限。

  8. 数据规模:Hive 利用 MapReduce 进行并行计算,能够支持 PB/TB 级别的数据规模。相比之下,关系型数据库的处理能力通常较小,适合 GB 级别的数据。

  9. 应用场景:Hive 是为数据仓库设计的,适用于数据分析和批处理,而关系型数据库更适合在线事务处理(OLTP)和实时数据查询。


4. Hive 的元数据存储

元数据是描述数据的数据,Hive 需要有一个地方来存储元数据,它包括以下内容:

  • 数据库的名称
  • 表的名称
  • 表的列名
  • 表的类型
  • 列的类型
  • 表的数据在 HDFS 上的位置

为了管理这些元数据,Hive 一般使用 关系型数据库如MySQL 作为存储后端。

相关操作

1. 登录 MySQL 数据库

在命令行中使用以下命令登录到 MySQL:

mysql -h 127.0.0.1 -u root -p123456

这里,-h 指定主机地址,-u 指定用户名,-p 后跟密码。

2. 查看 MySQL 中的数据库

登录后,可以显示 MySQL 中现有的数据库:

SHOW DATABASES;

会看到多个数据库,其中有一个名为 hive 的数据库,用来存储 Hive 的元数据。

3. 切换到 Hive 数据库

使用以下命令切换到 hive 数据库:

USE hive;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2175972.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用MessagePipe实现进程间通信

1、MessagePipe介绍 可以用于.NET和Unity上面的高性能的内存/分布式消息传递管道。适用于发布/订阅模式、CQRS的中介模式、Prism中的EventAggregator、IPC(进程间通信)-RPC等。 支持: 依赖注入过滤器管道更好的事件同步/异步带键值的/无键…

信息安全工程师(26)物理安全概念与要求

前言 物理安全是网络安全体系中的重要组成部分,它关注于保护物理环境、设备和资源免受未经授权的访问、破坏、损坏或盗窃。 一、物理安全概念 物理安全,也称为实体安全,是指通过采取各种物理措施来保护支持网络信息系统运行的硬件&#xff08…

【Qt】Qt中的窗口坐标 信号与槽

Qt中的窗口坐标 && 信号与槽 1. Qt中的窗口坐标2. 信号与槽的概述3. 信号和槽的使用3.1 connect函数的使用3.2 查看内置信号和槽3.2 connect的参数类型不匹配问题 4. 自定义信号 && 自定义槽4.1 自定义槽4.2 自定义信号 5. 带参数的信号和槽6. 信号与槽的关联方…

leetcode_55:跳跃游戏

给你一个非负整数数组 nums ,你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个下标,如果可以,返回 true ;否则,返回 false 。 示例 1: 输…

C#由窗体原子表溢出造成的软件闪退的问题解决方法

报错信息 由于在MS.Win32.UnsafeNativeMethods.RegisterClassEx产生了报错信息,但是一直向外部抛出错误但始终没有被捕捉成功,直到报错被UI线程捕获,但是仍然没有进行处理,所有造成WPF的应用闪退。 解析报错信息 1.从异常初始位…

Camera Raw:打开图像

在图像工作流程中,无论是 Raw 格式图像文件还是 JPEG、TIFF 文件,都可以先使用 Camera Raw 打开并调整后,再进入其它 Adobe 软件如 Photoshop 中进行进一步的编辑和处理。 一、打开 Raw 格式图像 1、通过 Adobe Bridge 打开 在 Adobe Bridge …

Excel插件:dd统计与排名

Excel插件:dd统计与排名 使用教程 专门为学校成绩统计与排名设计的插件 一、安装后如图 二、 功能介绍: (一)单科统计与排名 1、 模板说明(单科用) 2、 单科三分四率统计 PS:可以设置界值&am…

哈希知识点总结:哈希、哈希表、位图、布隆过滤器

目录 哈希 哈希表 哈希常用方法 1、直接定址法 2、存留余数法 哈希冲突 哈希冲突的解决办法 1、闭散列:开放定址法 (1)线性探测法 (2)二次探测法 2、开散列 哈希桶 / 拉链法 哈希的运用 位图 set操作 …

07-阿里云镜像仓库

07-阿里云镜像仓库 注册阿里云 先注册一个阿里云账号:https://www.aliyun.com/ 进入容器镜像服务控制台 工作台》容器》容器服务》容器镜像服务 实例列表》个人实例 仓库管理》镜像仓库》命名空间》创建命名空间 仓库管理》镜像仓库》镜像仓库》创建镜像仓库 使…

c++11~c++20 内联命名空间

在工作&#xff0c;我们经常会引入第三方库&#xff0c;偶尔会碰到同名的函数和类型&#xff0c;造成编译冲突的问题。一般我们可以使用命名空间&#xff0c;例如 #include <iostream> #include <iostream> using namespace std;namespace S1 {void foo(){cout &l…

Meta首款多模态Llama 3.2开源:支持图像推理,还有可在手机上运行的版本 | LeetTalk Daily...

“LeetTalk Daily”&#xff0c;每日科技前沿&#xff0c;由LeetTools AI精心筛选&#xff0c;为您带来最新鲜、最具洞察力的科技新闻。 Meta最近推出的Llama Stack的发布标志着一个重要的里程碑。这一新技术的推出不仅为开发者提供了强大的多模态能力&#xff0c;还为企业和初…

重构部队信息安全:部队涉密载体建设新策略

一、完善保密体系架构 1. 加强保密规章制度&#xff1a;制定或刷新关于机密信息管理的相关规定&#xff0c;明确机密信息的生成、复制、传输、使用、储存及销毁等核心环节的操作准则与责任分配&#xff0c;确保整个流程的标准化运作。 2. 明确个人保密义务&#xff1a;通过保密…

古老的啤酒酿造技艺:传承与发扬

在人类文明的浩瀚历史中&#xff0c;啤酒酿造技艺源远流长&#xff0c;承载着世代匠人的智慧与匠心。这些古老的技艺&#xff0c;不仅是一种手艺&#xff0c;更是一种文化的传承。今天&#xff0c;我们将一起走进这神秘的酿造世界&#xff0c;探寻古老啤酒酿造技艺的传承与发扬…

性能调优知识点(mysql)三

SQL底层执行原理 MySQL的内部组件结构&#xff1a;大体来说&#xff0c;MySQL 可以分为 Server 层和存储引擎层store两部分 Server层:主要包括连接器、查询缓存、分析器、优化器、执行器等&#xff0c;涵盖 MySQL 的大多数核心服务功能&#xff0c;以及所有的内置函数&#xf…

基于Python大数据可视化的民族服饰数据分析系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏&#xff1a;Java精选实战项目…

基于51单片机的多通道数字电压表proteus仿真

地址&#xff1a;https://pan.baidu.com/s/1zfDI2sjSGFHkYh33Sw6gHQ 提取码&#xff1a;1234 仿真图&#xff1a; 芯片/模块的特点&#xff1a; AT89C52/AT89C51简介&#xff1a; AT89C52/AT89C51是一款经典的8位单片机&#xff0c;是意法半导体&#xff08;STMicroelectron…

【数据结构】链表(1)

【概念】 一种物理存储结构上的非连续存储结构&#xff0c;数据元素的逻辑顺序是通过链表中的引用链接次序来实现的 也就是说&#xff0c;链表是由一个一个的节点组织起来的&#xff0c;如车厢一般&#xff0c;整体就叫做链表 【链表结构】 节点可以理解为”节点对象“&#…

详解代理模式-【静态代理与JDK动态代理】(非常的斯国一)

目录 静态代理 什么是静态代理: ​ 特点: 例子&#xff1a; JDK动态代理&#xff08;主要讲点&#xff09; 大纲&#xff1a; 1、与静态代码的联系 2、JDK动态代理的主流程 3、Proxy的源码 整体概述&#xff1a; 重要点的翻译 &#xff1a; newProxyInstance源码&am…

Adobe Photoshop 2024 v25.12 (macOS, Windows) 发布下载 - 照片和设计软件

Adobe Photoshop 2024 v25.12 (macOS, Windows) - 照片和设计软件 Acrobat、After Effects、Animate、Audition、Bridge、Character Animator、Dimension、Dreamweaver、Illustrator、InCopy、InDesign、Lightroom Classic、Media Encoder、Photoshop、Premiere Pro、Adobe XD…

算法宝典——二分查找算法

1.认识二分查找 二分查找的时间复杂度:O(logN) 二分查找属于算法中耳熟能详的一类&#xff0c;通常的我们会说只有数组有序才可以使用二分查找&#xff0c;不过这种说法并不完全正确&#xff0c;只要数据具有"二段性"就可以使用二分查找&#xff0c;即我们可以找出一…