Hbase简介和快速入门

一 Hbase简介

1 HBase定义

Apache HBase™ 是以hdfs为数据存储的，一种分布式、可扩展的NoSQL数据库。

2 HBase数据模型

HBase的设计理念依据Google的BigTable论文，论文中对于数据模型的首句介绍。Bigtable 是一个稀疏的、分布式的、持久的多维排序map。
之后对于映射的解释如下：该映射由行键、列键和时间戳索引；映射中的每个值都是一个未解释的字节数组。
最终HBase关于数据模型和BigTable的对应关系如下：HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。该表存储稀疏，因此如果用户喜欢，同一表中的行可以具有疯狂变化的列。
最终理解HBase数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射map指代非关系型数据库的key-Value结构。

3 HBase逻辑结构

HBase可以用于存储多种结构的数据，以JSON为例，存储的数据原貌为：


	"row_key1":{
		"personal_info":{
			"name":"zhangsan",
			"city":"北京",
			"phone":"131********"
		},
		"office_info":{
			"tel":"010-1111111",
			"address":"五环"
		}
	},
	"row_key11":{
		"personal_info":{
			"city":"上海",
			"phone":"132********"
		},
		"office_info":{
			"tel":"010-1111111"
		}
	},
	"row_key2":{
	......
}

在这里插入图片描述

4 HBase物理存储结构

物理存储结构即为数据映射关系，而在概念视图的空单元格，底层实际根本不存储
在这里插入图片描述

5 数据模型

1）Name Space

命名空间，类似于关系型数据库的database概念，每个命名空间下有多个表。HBase两个自带的命名空间，分别是hbase和default，hbase中存放的是HBase内置的表，default表是用户默认使用的命名空间。

2）Table

类似于关系型数据库的表概念。不同的是，HBase定义表时只需要声明列族即可，不需要声明具体的列。因为数据存储时稀疏的，所有往HBase写入数据时，字段可以动态、按需指定。因此，和关系型数据库相比，HBase能够轻松应对字段变更的场景。

3）Row

HBase表中的每行数据都由一个RowKey和多个Column（列）组成，数据是按照RowKey的字典顺序存储的，并且查询数据时只能根据RowKey进行检索，所以RowKey的设计十分重要。

4）Column

HBase中的每个列都由Column Family(列族)和Column Qualifier（列限定符）进行限定，例如info：name，info：age。建表时，只需指明列族，而列限定符无需预先定义。

5）Time Stamp

用于标识数据的不同版本（version），每条数据写入时，系统会自动为其加上该字段，其值为写入HBase的时间。

6）Cell

由{rowkey, column Family：column Qualifier, timestamp} 唯一确定的单元。cell中的数据全部是字节码形式存贮。

6 HBase基本架构

在这里插入图片描述
架构角色：

1）Master

实现类为HMaster，负责监控集群中所有的 RegionServer 实例。主要作用如下：

管理元数据表格hbase:meta，接收用户对表格创建修改删除的命令并执行
监控region是否需要进行负载均衡，故障转移和region的拆分。

通过启动多个后台线程监控实现上述功能：

LoadBalancer负载均衡器：周期性监控region分布在regionServer上面是否均衡，由参数hbase.balancer.period控制周期时间，默认5分钟。
CatalogJanitor元数据管理器：定期检查和清理hbase:meta中的数据。meta表内容在进阶中介绍。
MasterProcWAL master预写日志处理器：把master需要执行的任务记录到预写日志WAL中，如果master宕机，让backupMaster读取日志继续干。

2）Region Server

Region Server实现类为HRegionServer，主要作用如下:

负责数据cell的处理，例如写入数据put，查询数据get等
拆分合并region的实际执行者，有master监控，有regionServer执行。

3）Zookeeper

HBase通过Zookeeper来做master的高可用、记录RegionServer的部署信息、并且存储有meta表的位置信息。
HBase对于数据的读写操作是直接访问Zookeeper的，在2.3版本推出Master Registry模式，客户端可以直接访问master。使用此功能，会加大对master的压力，减轻对Zookeeper的压力。

4）HDFS

HDFS为Hbase提供最终的底层数据存储服务，同时为HBase提供高容错的支持。

二 Hbase安装

1 依赖环境

需要正常部署zookeeper和hadoop集群

2 HBase的解压

1）解压Hbase到指定目录

[mayx@hadoop201 module]$ tar -zxvf hbase-2.4.11-bin.tar.gz -C /opt/module/
[mayx@hadoop201 module]$ mv /opt/module/hbase-2.4.11 /opt/module/hbase

2）配置环境变量

[mayx@hadoop201 module]$ sudo vim /etc/profile.d/my_env.sh

#HBASE_HOME
export HBASE_HOME=/opt/module/hbase
export PATH=$PATH:$HBASE_HOME/bin

3）使用source让配置的环境变量生效

[mayx@hadoop201 module]$ source /etc/profile.d/my_env.sh

3 HBase的配置文件

1）hbase-env.sh修改内容，可以添加到最后：

export HBASE_MANAGES_ZK=false

2）hbase-site.xml修改内容：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>hadoop201,hadoop202,hadoop203</value>
    <description>The directory shared by RegionServers.
    </description>
  </property>

  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://hadoop201:8020/hbase</value>
    <description>The directory shared by RegionServers.
    </description>
  </property>


  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>

  <property>
	<name>hbase.wal.provider</name>
	<value>filesystem</value>
  </property>

</configuration>

3）regionservers

hadoop201
hadoop202
hadoop203

4）解决HBase和Hadoop的log4j兼容性问题

修改HBase的jar包，使用Hadoop的jar包

[mayx@hadoop201 module]$ mv /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar.bak

5） HBase远程发送到其他集群

[mayx@hadoop201 module]$ xsync hbase/

xsync命令如下

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
 exit;
fi

#2. 遍历集群所有机器
for host in hadoop201 hadoop202 hadoop203
do
 echo ==================== $host ====================
 #3. 遍历所有目录，挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
 if [ -e $file ]
 then
 #5. 获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6. 获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
done

4 HBase服务的启动和关闭

1）群启服务

[mayx@hadoop201 module]$ bin/start-hbase.sh

查看HBase页面：http://hadoop201:16010
在这里插入图片描述

2）停止服务

[mayx@hadoop201 module]$ bin/stop-hbase.sh

三 HBase Shell操作

1 基本操作

1）进入HBase客户端命令行

[mayx@hadoop201 hbase]$ bin/hbase shell

2）查看帮助命令

能够展示HBase中所有能使用的命令，主要使用的命令有namespace命令空间相关，DDL创建修改表格，DML写入读取数据

hbase:001:0> help

在这里插入图片描述

2 namespace

1）创建命名空间

使用特定的help语法能够查看命令如何使用

hbase:002:0> help 'create_namespace'

在这里插入图片描述

2）创建命名空间bigdata

hbase:003:0> create_namespace 'bigdata'

3）查看所有的命名空间

hbase:004:0> list_namespace

3 DDL

1）创建表

在bigdata命名空间中创建表格student，两个列族。info列族数据维护的版本数为5个，如果不写默认版本数为1

hbase:005:0> create 'bigdata:student', {NAME => 'info', VERSIONS => 5}, {NAME => 'msg'}

如果创建表格只有一个列族，没有列族属性，可以简写。
如果不写命名空间，使用默认的命名空间default。

hbase:009:0> create 'student1','info'

2）查看表

list：查看所有的表名

hbase:013:0> list

describe：查看一个表的详情

hbase:014:0> describe 'student1'

3）修改表

表名创建时写的所有和列族相关的信息，都可以后续通过alter修改，包括增加删除列族。
增加列族和修改信息都使用覆盖的方法

hbase:015:0> alter 'student1',  {NAME => 'f1', VERSIONS => 3}

删除信息使用特殊的语法

hbase:015:0> alter 'student1', NAME => 'f1', METHOD => 'delete'
hbase:016:0> alter 'student1', 'delete' => 'f1'

4）删除表

shell中删除表格,需要先将表格状态设置为不可用。

hbase:017:0> disable 'student1'
hbase:018:0> drop 'student1'

4 DML

1）写入数据

在HBase中如果想要写入数据，只能添加结构中最底层的cell。可以手动写入时间戳指定cell的版本，推荐不写默认使用当前的系统时间。如果重复写入相同rowKey，相同列的数据，会写入多个版本进行覆盖。

hbase:019:0> put 'bigdata:student','1001','info:name','zhangsan'
hbase:020:0> put 'bigdata:student','1001','info:name','lisi'
hbase:021:0> put 'bigdata:student','1001','info:age','18'

2）读取数据

读取数据的方法有两个：get和scan。
get最大范围是一行数据，也可以进行列的过滤，读取数据的结果为多行cell。

hbase:022:0> get 'bigdata:student','1001'
hbase:023:0> get 'bigdata:student','1001' , {COLUMN => 'info:name'}

也可以修改读取cell的版本数，默认读取一个。最多能够读取当前列族设置的维护版本数。

hbase:024:0>get 'bigdata:student','1001' , {COLUMN => 'info:name', VERSIONS => 6}

scan是扫描数据，能够读取多行数据，不建议扫描过多的数据，推荐使用startRow和stopRow来控制读取的数据，默认范围左闭右开。

hbase:025:0> scan 'bigdata:student',{STARTROW => '1001',STOPROW => '1002'}

3）删除数据

删除数据的方法有两个：delete和deleteall。
delete表示删除一个版本的数据，即为1个cell，不填写版本默认删除最新的一个版本。

hbase:026:0> delete 'bigdata:student','1001','info:name'

deleteall表示删除所有版本的数据，即为当前行当前列的多个cell。（执行命令会标记数据为要删除，不会直接将数据彻底删除，删除数据只在特定时期清理磁盘时进行）

hbase:027:0> deleteall 'bigdata:student','1001','info:name'