Hive基础概念和用途

Hive是Hadoop下的顶级 Apache项目，早期的Hive开发工作始于2007年的 Facebook。

⬛ Apache Hive是一款建立在Hadoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化

数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言（HQL），用于访问和分析存储在Hadoop文件中的大型数据集。

⬛ Hive核心是将HQL转换为MapReduce程序，然后将程序提交到Hadoop群集执行。

⬛ Hive由Facebook实现并开源。

Hive的优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。

Apache Hive架构图

Hive组件

用户接口：包括 CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。

元数据存储：通常是存储在关系数据库如 mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。

执行引擎 : Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。

Hive与Hadoop的关系

简单说就是Hive利用HDFS存储数据，利用MapReduce查询分析数据。

⬛ 从功能来说，数据仓库软件，至少需要具备下述两种能力：

存储数据的能力、分析数据的能力

⬛ Apache Hive作为一款大数据时代的数据仓库软件，当然也具备上述两种能力。只不过Hive并不是自己实现了上述

两种能力，而是借助Hadoop。

Hive利用HDFS存储数据，利用MapReduce查询分析数据。

⬛ 这样突然发现Hive没啥用，不过是套壳Hadoop罢了。其实不然，Hive的最大的魅力在于用户专注于编写HQL，

Hive帮您转换成为MapReduce程序完成对数据的分析。

Apache hive的技术特点

特点：

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。

Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。

Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。

Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

Hive应用场景

总的来说，Hive是十分适合数据仓库的统计分析和Windows注册表文件。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS（Hive superimposes structure on data in HDFS），并允许使用类似于SQL语法进行数据查询。 Hive更适合于数据仓库的任务，主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。

Hive与传统的关系型数据库对比

大规模数据处理的技术了解越多，对操作系统的体会越深。以下是一些基础操作

大数据相关：

Python+大数据开发
Linux入门：

新版Linux零基础快速入门到精通，全涵盖linux系统知识、常用软件环境部署、Shell脚本、云平台实践、大数据集群项目实战等
MySQL数据库：MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程
Hadoop入门：大数据Hadoop入门视频教程，适合零基础自学的大数据Hadoop教程
Hive数仓项目：大数据项目实战教程_大数据企业级离线数据仓库，在线教育项目实战（Hive数仓项目完整流程）

PB内存计算
Python入门：python教程，8天python从入门到精通，学python看这套就够了
Python编程进阶：Python高级语法进阶教程_python多任务及网络编程，从零搭建网站全套教程
spark3.2从基础到精通：Spark全套视频教程，4天spark3.2快速入门到精通，基于Python语言的spark教程
Hive+Spark离线数仓工业项目实战：全网首次披露大数据Spark离线数仓工业项目实战，Hive+Spark构建企业级大数据平台

大数据面试八股文之Hive篇

01 Hive的三种自定义函数是什么?它们之间的区别是什么?

UDF：用户自定义函数，user defined function。一对一的输入输出。
UDTF：用户自定义表生成函数。user defined table-generate function.一对多的输入输出。
UDAF：用户自定义聚合函数。user defined aggregate function，多对一的输入输出比如count sum等。

02 Hive SQL语句的执行顺序

如果上来就抛给你 “select from where group by having order by” 的执行顺序

平时没有仔细研究过，这题还真不好猜。

实际上，在 hive 和 mysql 中都可以通过 explain+sql 语句，来查看执行顺序。对于一条标准 sql 语句，它的书写顺序是这样的：

select … from … where … group by … having … order by … limit …

（1）mysql 语句执行顺序：

from... where...group by... having.... select ... order by... limit …

（2）hive 语句执行顺序：

from … where … select … group by … having … order by … limit …

根据执行顺序，平时编写时需要记住以下几点： 使用分区剪裁、列剪裁，分区一定要加少用 COUNT DISTINCT，group by 代替 distinct 是否存在多对多的关联连接表时使用相同的关键词，这样只会产生一个 job 减少每个阶段的数据量，只选出需要的，在 join 表前就进行过滤大表放后面谓词下推：where 谓词逻辑都尽可能提前执行，减少下游处理的数据量 sort by 代替 order by

03 hive内部表和外部表的区别

未被external修饰的是内部表，被external修饰的为外部表。

区别:

内部表数据由Hive自身管理，外部表数据由HDFS管理；
内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己制定（如果没有LOCATION，Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹，并将属于这个表的数据存放在这里）；
删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除。

04 为什么要对数据仓库分层

用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据。如果不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大。
通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样我们比较容易保证每一个步骤的正确性，当数据发生错误的时候，往往我们只需要局部调整某个步骤即可。