复习题目
-
yarn框架中不包含的进程为
Yarn包括两个主要进程:资源管理器Resource-Manager,节点管理器Node-Manager。
Scheduler -
zookeeper
-
spark SQL 前身 Shark
-
在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。
-
HiveContext继承自SQLContext
-
默认的输出格式是 TextOutputFormat-默认的输出格式是 TextOutputFormat
7.Spark Streaming能够和()无缝集成
A.
Hadoop
B.
Spark SQL
C.
Mllib
D. GraphX -
HBase属于列式非关系型娄据库(NoSQL),
-
Scala中变量的声明使用关键字val和var。val类似Java中的final变量,也就是常量,一旦初始化将不可修改;var类似Java中的非final变量,可以被多次赋值,多次修改。
Kafka是专门为分布式高吞吐量系统而设计开发的,它非常适合在海量数据应用程序中进行消息传递。Kafka的消息传递有两种模式&#