Hive最全总结,学习与面试,收藏这一篇就够了!

news2024/11/17 6:20:15

Hive基础概念和用途

Hive是Hadoop下的顶级 Apache项目,早期的Hive开发工作始于2007年的 Facebook。

⬛ Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化

数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。

⬛ Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。

⬛ Hive由Facebook实现并开源。

Hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。

Apache Hive架构图

​Hive组件

用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;JDBC/ODBC是Hive的JAVA实现,与传统数据库JDBC类似;WebGUI是通过浏览器访问Hive。

元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。

执行引擎 : Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。

Hive与Hadoop的关系

简单说就是Hive利用HDFS存储数据,利用MapReduce查询分析数据。

⬛ 从功能来说,数据仓库软件,至少需要具备下述两种能力:

存储数据的能力、分析数据的能力

⬛ Apache Hive作为一款大数据时代的数据仓库软件,当然也具备上述两种能力。只不过Hive并不是自己实现了上述

两种能力,而是借助Hadoop。

Hive利用HDFS存储数据,利用MapReduce查询分析数据

⬛ 这样突然发现Hive没啥用,不过是套壳Hadoop罢了。其实不然,Hive的最大的魅力在于用户专注于编写HQL,

Hive帮您转换成为MapReduce程序完成对数据的分析。

Apache hive的技术特点

特点:

操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。

Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。

Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。

Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

Hive应用场景

总的来说,Hive是十分适合数据仓库的统计分析和Windows注册表文件。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(Hive superimposes structure on data in HDFS),并允许使用类似于SQL语法进行数据查询。 Hive更适合于数据仓库的任务,主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。

Hive与传统的关系型数据库对比

大规模数据处理的技术了解越多,对操作系统的体会越深。以下是一些基础操作

大数据相关:

Python+大数据开发
Linux入门:

新版Linux零基础快速入门到精通,全涵盖linux系统知识、常用软件环境部署、Shell脚本、云平台实践、大数据集群项目实战等
MySQL数据库:MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程
Hadoop入门:大数据Hadoop入门视频教程,适合零基础自学的大数据Hadoop教程
Hive数仓项目:大数据项目实战教程_大数据企业级离线数据仓库,在线教育项目实战(Hive数仓项目完整流程)

PB内存计算
Python入门:python教程,8天python从入门到精通,学python看这套就够了
Python编程进阶:Python高级语法进阶教程_python多任务及网络编程,从零搭建网站全套教程
spark3.2从基础到精通:Spark全套视频教程,4天spark3.2快速入门到精通,基于Python语言的spark教程
Hive+Spark离线数仓工业项目实战:全网首次披露大数据Spark离线数仓工业项目实战,Hive+Spark构建企业级大数据平台

大数据面试八股文之Hive篇

01 Hive的三种自定义函数是什么?它们之间的区别是什么?

  • UDF:用户自定义函数,user defined function。一对一的输入输出。
  • UDTF:用户自定义表生成函数。user defined table-generate function.一对多的输入输出。
  • UDAF:用户自定义聚合函数。user defined aggregate function,多对一的输入输出比如count sum等。

02 Hive SQL语句的执行顺序

如果上来就抛给你 “select from where group by having order by” 的执行顺序

平时没有仔细研究过,这题还真不好猜。

实际上,在 hive 和 mysql 中都可以通过 explain+sql 语句,来查看执行顺序。对于一条标准 sql 语句,它的书写顺序是这样的:

select … from … where … group by … having … order by … limit …

(1)mysql 语句执行顺序:

from... where...group by... having.... select ... order by... limit …

(2)hive 语句执行顺序:

from … where … select … group by … having … order by … limit …

根据执行顺序,平时编写时需要记住以下几点: 使用分区剪裁、列剪裁,分区一定要加 少用 COUNT DISTINCT,group by 代替 distinct 是否存在多对多的关联 连接表时使用相同的关键词,这样只会产生一个 job 减少每个阶段的数据量,只选出需要的,在 join 表前就进行过滤 大表放后面 谓词下推:where 谓词逻辑都尽可能提前执行,减少下游处理的数据量 sort by 代替 order by

03 hive内部表和外部表的区别

未被external修饰的是内部表,被external修饰的为外部表。

区别:

  • 内部表数据由Hive自身管理,外部表数据由HDFS管理;
  • 内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse), 外部表数据的存储位置由自己制定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹,并将属于这个表的数据存放在这里);
  • 删除内部表会直接删除元数据(metadata)及存储数据;删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除。

04 为什么要对数据仓库分层

  • 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会 存在大量冗余的数据。如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
  • 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

05 Hive 小文件过多怎么解决

  • 使用 hive 自带的 concatenate 命令,自动合并小文件
  • 调整参数减少Map数量
  • 减少Reduce的数量
  • 使用hadoop的archive将小文件归档

06 Hive有哪些方式保存元数据,各有哪些特点?

Hive支持三种不同的元存储服务器,分别为:内嵌式元存储服务器、本地元存储服务器、远程元存储服务器,每种存储方式使用不同的配置参数。

  • 内嵌式元存储主要用于单元测试,在该模式下每次只有一个进程可以连接到元存储,Derby是内嵌式元存储的默认数据库。
  • 在本地模式下,每个Hive客户端都会打开到数据存储的连接并在该连接上请求SQL查询。
  • 在远程模式下,所有的Hive客户端都将打开一个到元数据服务器的连接,该服务器依次查询元数据,元数据服务器和客户端之间使用Thrift协议通信

07 Hive的函数:UDF、UDAF、UDTF的区别?

  • UDF:单行进入,单行输出
  • UDAF:多行进入,单行输出
  • UDTF:单行输入,多行输出

08 Hive底层与数据库交互原理?

Hive 的查询功能是由 HDFS 和 MapReduce结合起来实现的,对于大规模数据查询还是不建议在 hive 中,因为过大数据量会造成查询十分缓慢。Hive 与 MySQL的关系:只是借用 MySQL来存储 hive 中的表的元数据信息,称为 metastore(元数据信息)。

09 hive中都有哪些join操作?

  • left join:以左侧为主表,返回记录与主表记录数相同,关联不上的字段为空。
  • right join:以右侧表为主表,返回记录与主表记录数相同,关联不上的字段为空。
  • full join:以两个表的记录为基准,返回两个表的记录去重之和,关联不上的字段为null。
  • cross join:返回两个表的笛卡尔积结果,不需要指定关联键。
  • map join map端连接,与普通连接的区别是这个连接中不会有reduce阶段存在,连接在map端完成。
  • common join:普通连接,在sql中不特殊指定连接方式使用的都是这种普通连接。
  • skew join:倾斜连接,主要针对数据倾斜的情况优化。
  • bucket map join:分桶连接。

10 hive 如何优化?

  • join 优化,尽量将小表放在 join 的左边,如果一个表很小可以采用 mapjoin。
  • 排序优化,order by 一个 reduce 效率低,distirbute by +sort by 也可以实现全局排序。
  • 使用分区,查询时可减少数据的检索,从而节省时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/192584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作系统(day05)-- 进程调度、调度算法

文章目录进程调度(低级调度)进程调度的时机进程调度的方式调度算法的评价指标FCFS,SJF,HRRN调度算法先来先服务(FCFS)短作业优先(SJF)高响应比优先(HRRN)进程…

从0开始用hooks搭建一个事件待办的demo(一)

需求一:实现header,点击加号展示input,再次点击隐藏input 分析: 首先,需要两个子组件header和addInput; header组件负责展示图一的内容,给加号添加一个点击事件,来触发展示input的函…

zookeeper源码分享五 --- 数据结构

zookeeper 内存数据结构 zookeeper在内存当中是有一份完整的数据,底层数据结构是基于hashMap去实现的。 在map的key是path,value是具体节点信息(DataNode)。 在map的顶层中有所有节点的path信息,每个节点都要子节点的path(不是具体的节点信息…

图的存储与遍历

目录 一.邻接矩阵 1.1概念介绍 1.2代码示例 1.3代码测试 二.邻接表 2.1概念介绍 2.2代码示例: 2.3代码测试 三.遍历 3.1广度优先遍历(BFS) 3.1.1邻接表(BFS) 3.1.2邻接矩阵(BFS) 3.2深…

不是计算机专业的,想学Java,能学得会吗?

看到这个问题,想到昨天一位机电一体化专业的同学来咨询了Java和云计算两个专业的培训情况。一来就问:“我这种情况能学得会吗,之前也没接触过计算机方面的专业,就是玩玩游戏,正常上网之类的操作;但我是真的…

【数据结构与算法】图的基本概念 | 邻接矩阵和邻接表 | 广度优先遍历和深度优先遍历

🌠作者:阿亮joy. 🎆专栏:《数据结构与算法要啸着学》 🎇座右铭:每个优秀的人都有一段沉默的时光,那段时光是付出了很多努力却得不到结果的日子,我们把它叫做扎根 目录👉…

ElasticSearc写入查询性能优化总结

文章目录前言1、bulk批量写入2、多线程写入3、修改索引刷新时间4、修改merge参数以及线程数6、index buffer7、磁盘间的任务均衡8、Mapping优化8.1、自动生成docID(避免ES对自定义ID验证的操作)8.2、调整字段Mapping8.3、调整_source字段8.4、禁用_all8.5、禁用Norms8.6、index…

Elasticsearch学习-父子文档

elasticsearch父子文档处理 join 一、背景二、需求三、前置知识四、实现步骤 1、创建 mapping2、添加父文档数据3、添加子文档4、查询文档 1、根据父文档id查询它下方的子文档2、has_child返回满足条件的父文档3、has_parent返回满足父文档的子文档 五、Nested Object 和 joi…

docker部署vue

1: 创建 Dockerfile 文件 配置一下内容: # 设置基础镜像,这里使用最新的nginx镜像,前面已经拉取过了 FROM nginx # 将dist文件中的内容复制到 /usr/share/nginx/html/ 这个目录下面 COPY dist/ /usr/share/nginx/html/ 2: 安装nginx …

物联网平台的产品架构

一、物联网介绍1. 概述物联网( IoT ,Internet of things )即“万物相连的互联网”,是互联网基础上的延伸和扩展的网络,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现在任何时间、任何地点&…

LeetCode 热题 HOT 100 -- Java 题解

LeetCode 热题 HOT 100 --Java 题解1. 两数之和2. 两数相加3. 无重复字符的最长子串4. 寻找两个正序数组的中位数1. 两数之和 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下…

【信管10.3】风险定量分析及应对监控

风险定量分析及应对监控通过前三个过程,我们已经有了风险登记册,也就是一个所有识别出来的风险情况。然后可以通过定性风险分析来进行分类和排序。接下来我们要继续通过定量,也就是数据的手段来继续完善风险登记册。只有有了详尽的风险登记册…

我对KMP算法的简单理解

我对KMP算法的简单理解 前言:字符串匹配问题 问题概述: “字符串A是否为字符串B的子串?如果是,出现在B的什么位置?”这个问题就是字符串匹配问题。字符串A称为模式串(zs),字符串B称为主串(ss)。 其中&a…

C++ 深入理解模板实现多态思想

文章目录前言一、模板与多态基础1.模板2.多态二、模板实现多态三、实际应用前言 对C/C学习感兴趣的可以看看这篇文章噢:C/C教程 最近有时间,便用WTL写了一个兼具群聊、单聊以及传输文件的聊天软件,过几天应该就能更新到 C/C教程系列 中了 …

EasyGBS+EasyNVS技术方案,如何实现对多现场国标视频平台的统一管理?

一、平台能力 1)EasyGBS EasyGBS国标视频云服务平台支持无缝、完整接入内网或者公网的国标设备,在输出上,实现全平台、全终端输出。EasyGBS可将GB/T28181设备/平台推送的PS流转成ES流,并提供RTSP、RTMP、FLV、HLS、WebRTC等多种…

使用shell进行简单操作

目录 1、shell实现乘法表的打印 2、shell判定成绩等级 3、循环创建用户 1、shell实现乘法表的打印 要求:嵌套循环实现9*9乘法表(两种方式) 创建脚本文件:vim mcl.sh #!/bin/bash ######################### #File name:mcl.s…

idea插件及插件使用方法

CamelCase (下划线转驼峰) 使用快捷键:altshiftu。 按住altshift再不停的按U,会把选中内容的单词的下划线转驼峰转大写等,不停的转换。 Maven Helper Maven助手 安装之后再次打开pom文件,文件左下角会多出一个视图。 切换到"…

软件测试基础(三) 之 软件的生命周期

软件的生命周期一、软件的生命周期简述软件的生命周期中最早可能是客户,可能是产品的一个想法阶段,然后再到后来的一个需求阶段,再到开发人员去进行编码,去进行自己的自测,再提到软件测试人员进行综合测试,…

C语言之初识指针

前言 🎈个人主页:🎈 :✨✨✨初阶牛✨✨✨ 🐻推荐专栏: 🍔🍟🌯 c语言初阶 🔑个人信条: 🌵知行合一 🍉本篇简介:>:介绍c语言中的新知识—指针有关的知识. 金句分享: ✨知…

大数据舆情监控流程,TOOM大数据舆情监控范围

大数据舆情监控是一种通过大数据技术,分析社会舆情信息,掌握舆情动态的方法。它利用大数据的存储和处理能力,对海量的网络舆情数据进行收集、清洗、分析、呈现,帮助企业和机构了解公众的想法和评价,掌握舆情动态&#…