Hive测试

news2026/2/15 14:30:21

1、数据仓库的体系结构包含四个层次，分别是：
数据源
数据存储和管理
数据服务
数据应用

2、Hive提供了类似关系数据库SQL的查询语言：
HiveQL

3、Hive某种程度上可以看作 用户编程接口，本身不存储和处理数据，存储数据依赖 HDFS,
处理数据依赖 MapReduce或Tez或Spark

4、HBase一个 面向列的、分布式的、可压缩的数据库，它可以提供数据的 实时访问功能，而Hive只能处理 静态数据所以HBase.与Hive的功能是互补的，它实现了Hive不能提供功能。

5、Hive系统架构包括三个模块：
用户结构模块
驱动模块
元数据存储模块

6、在实际应用中，Hive暴露出不稳定的问题， Hive HA的出现就是为了解决这类问题，它由多个Hive实例进行管理，这些实例被纳入一个资源池，由 HAProxy提供统一的对外接口

7、Hive采用 MapReduce完成批量化的数据处理，因此实时性不好，查询延迟较高， Impala作为开源大数据分析引擎，支持 实时计算,提供了与Hive类似的功能，但性能更高。

8、Hive和Impara都提供了SQL语义，但由于Hive底层执行需要 MapReduce,不能满足实时交互查询。

9、Impara采用了与商用MPP并行关系数据库类似的分布式查询引擎，可以直接从 HDFS或Hbase中用SQL查询，不需要转换为MapReduce进行执行，大大降低了延迟。但Impara不能完全替代Hive,其运行仍然需要依赖： Hive的元数据，Hive和Impara采用相同的： SQL语法、ODBS驱动程序、用户接口

10、HiveQL语句延迟要比传统数据库SQL语句延迟高。√

11、Hive和Impara?功能类似，都可以用于实时交互式SQL查询。X

12、尽管mpara目前理查询时会受到一定限制，但仍适用于大数据量的批量处理。X

13、数据量较小的实时处理建议采用Impara,而大数据量的实时处理建议采用Hive。√

l4、Hive与Impala使用相同的存储数据池，都支持把数据存储于HDFS和IBase中。√

l5、Hive与Impala使用相同的元数据。√

16 、请给出数据仓库的概念。