1、数据仓库的体系结构包含四个层次,分别是:
数据源
数据存储和管理
数据服务
数据应用
数据源
数据存储和管理
数据服务
数据应用
2、Hive提供了类似关系数据库SQL的查询语言:
HiveQL
3、Hive某种程度上可以看作 用户编程接口,本身不存储和处理数据,存储数据依赖 HDFS,
处理数据依赖 MapReduce或Tez或Spark
4、HBase一个
面向列的、分布式的、可压缩的数据库,它可以提供数据的
实时访问功能,而Hive只能处理
静态数据所以HBase.与Hive的功能是互补的,它实现了Hive不能提供功能。
5、Hive系统架构包括三个模块:
用户结构模块
驱动模块
元数据存储模块
用户结构模块
驱动模块
元数据存储模块
6、在实际应用中,Hive暴露出不稳定的问题, Hive HA的出现就是为了解决这类问题,它由多个Hive实例进行管理,这些实例被纳入一个资源池,由 HAProxy提供统一的对外接口
7、Hive采用
MapReduce完成批量化的数据处理,因此实时性不好,查询延迟较高,
Impala作为开源大数据分析引擎,支持
实时计算,提供了与Hive类似的功能,但性能更高。
8、Hive和Impara都提供了SQL语义,但由于Hive底层执行需要 MapReduce,不能满足实时交互查询。
9、Impara采用了与商用MPP并行关系数据库类似的分布式查询引擎,可以直接从
HDFS或Hbase中用SQL查询,不需要转换为MapReduce进行执行,大大降低了延迟。但Impara不能完全替代Hive,其运行仍然需要依赖:
Hive的元数据,Hive和Impara采用相同的:
SQL语法、ODBS驱动程序、用户接口
10、HiveQL语句延迟要比传统数据库SQL语句延迟高。√
11、Hive和Impara?功能类似,都可以用于实时交互式SQL查询。X
12、尽管mpara目前理查询时会受到一定限制,但仍适用于大数据量的批量处理。X
13、数据量较小的实时处理建议采用Impara,而大数据量的实时处理建议采用Hive。√
l4、Hive与Impala使用相同的存储数据池,都支持把数据存储于HDFS和IBase中。√
l5、Hive与Impala使用相同的元数据。√
16
、请给出数据仓库的概念。
答:数据
仓库(
Data Warehouse
)是一个面向主题的(
Subject Oriented
)、集成的(
Integrated
)、相对稳定的(
Non-Volatile
)、反映历史变化(
Time Variant
)的数据集合,用于支持管理决策。
答: