Hadoop 入门基础及HiveQL

news2026/2/13 3:46:26

一、hadoop 解决了什么问题？即hadoop 产生背景

一个能够轻松方便、经济实惠地存储和分析大量数据的非常流行的开源项目。

二、hadoop 是如何低成本地解决大数据的存储和分析的？即hadoop 原理，hadoop 的组成部分

Hadoop的创始人、Cloudera首席架构师Doug Cutting。结合 Google的三篇论文，《Google File System》、《Google Bigtable》和《Google MapReduce》（其实描述的就是Google的三种技术，GFS分布式文件系统，Bigtable分布式数据存储系统，MapReduce编程模型，都是基于分布式并行运行的，都是部署在大量普通机器组成的集群之上，其实相互之间都有相似之处，也能协调在一起运行和工作。这也是在2003到2006年之间Google陆续发表的论文，三篇文章的重要目的就是解决分布式并行计算的问题。为大数据技术的发展和应用提供了可能。）用java语言开发了hadoop。hadoop 一般指代 HDFS+MapReduce+YRN 及其生态，Hbase 对应《Google Bigtable》。
在这里插入图片描述

三、如何使用hadoop解决问题？即hadoop的使用

详细见文 hive 和 hbase 的应用场景、联系、区别
1.Hive：通俗的说是一个数据仓库，严格来说，不是数据库，仓库中的数据是被HDFS管理的数据文件，它支持类似sql语句的功能，你可以通过该语句完成分布式环境下的计算功能，Hive会把语句转换成MapReduce，然后交给Hadoop执行。这里的计算，仅限于查找和分析，而不是更新、增加和删除。它的优势是对历史数据进行处理，用时下流行的说法是离线计算，因为它的底层是MapReduce，MapReduce在实时计算上性能很差。它的做法是把数据文件加载进来作为一个Hive表（或者外部表），让你觉得你的sql操作的是传统的表。

Hive中的表为纯逻辑表，仅仅对表的元数据进行定义。Hive没有物理存储的功能，它完全依赖HDFS和MapReduce。

Hive全面支持SQL，一般可以用来进行基于历史数据的挖掘、分析。

Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统

2.HBase：Hadoop database 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。HBase以Google BigTable为蓝本，以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。

通俗的说，HBase的作用类似于数据库，传统数据库管理的是集中的本地数据文件，而HBase基于HDFS实现对分布式数据文件的管理，比如增删改查。也就是说，HBase只是利用Hadoop的HDFS帮助其管理数据的持久化文件（HFile），它跟MapReduce没任何关系。HBase的优势在于实时计算，所有实时数据都直接存入HBase中，客户端通过API直接访问HBase，实现实时计算。由于它使用的是nosql，或者说是列式结构，从而提高了查找性能，使其能运用于大数据场景，这是它跟MapReduce的区别。

HBase表则是物理表，适合存放非结构化的数据。

HBase为列模式，这样使得对海量数据的随机访问变得可行。

HBase是准实时系统，可以实现数据的实时查询。

基于HBase的查询，支持和row-level的更新。

HBase不适用于有join，多级索引，表关系复杂的应用场景。

HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。

3.两者使用场景的区别：

HBase的应用场景通常是采集网页数据的存储，因为它是key-value型数据库，从而可以到各种key-value应用场景，例如存储日志信息，对于内容信息不需要完全结构化出来的类CMS应用等。注意hbase针对的仍然是OLTP应用为主。

hive主要针对的是OLAP应用，其底层是hdfs分布式文件系统，重点是基于一个统一的查询分析层，支撑OLAP应用中的各种关联，分组，聚合类SQL语句。hive一般只用于查询分析统计，而不能是常见的CUD操作，要知道HIVE是需要从已有的数据库或日志进行同步最终入到hdfs文件系统中，当前要做到增量实时同步都相当困难。

最后补充一下：Hive可以直接操作HDFS中的文件作为它的表的数据，也可以使用HBase数据库作为它的表