Hbase简介和快速入门

news2025/1/15 20:57:56

一 Hbase简介

1 HBase定义

Apache HBase™ 是以hdfs为数据存储的,一种分布式、可扩展的NoSQL数据库。

2 HBase数据模型

  HBase的设计理念依据Google的BigTable论文,论文中对于数据模型的首句介绍。Bigtable 是一个稀疏的、分布式的、持久的多维排序map。
  之后对于映射的解释如下:该映射由行键、列键和时间戳索引;映射中的每个值都是一个未解释的字节数组。
  最终HBase关于数据模型和BigTable的对应关系如下:HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。该表存储稀疏,因此如果用户喜欢,同一表中的行可以具有疯狂变化的列。
  最终理解HBase数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射map指代非关系型数据库的key-Value结构。

3 HBase逻辑结构

   HBase可以用于存储多种结构的数据,以JSON为例,存储的数据原貌为:


	"row_key1":{
		"personal_info":{
			"name":"zhangsan",
			"city":"北京",
			"phone":"131********"
		},
		"office_info":{
			"tel":"010-1111111",
			"address":"五环"
		}
	},
	"row_key11":{
		"personal_info":{
			"city":"上海",
			"phone":"132********"
		},
		"office_info":{
			"tel":"010-1111111"
		}
	},
	"row_key2":{
	......
}

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4 HBase物理存储结构

物理存储结构即为数据映射关系,而在概念视图的空单元格,底层实际根本不存储
在这里插入图片描述

5 数据模型

1)Name Space

命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空间。

2)Table

   类似于关系型数据库的表概念。不同的是,HBase定义表时只需要声明列族即可,不需要声明具体的列。因为数据存储时稀疏的,所有往HBase写入数据时,字段可以动态、按需指定。因此,和关系型数据库相比,HBase能够轻松应对字段变更的场景。

3)Row

   HBase表中的每行数据都由一个RowKey和多个Column(列)组成,数据是按照RowKey的字典顺序存储的,并且查询数据时只能根据RowKey进行检索,所以RowKey的设计十分重要。

4)Column

  HBase中的每个列都由Column Family(列族)和Column Qualifier(列限定符)进行限定,例如info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。

5)Time Stamp

  用于标识数据的不同版本(version),每条数据写入时,系统会自动为其加上该字段,其值为写入HBase的时间。

6)Cell

  由{rowkey, column Family:column Qualifier, timestamp} 唯一确定的单元。cell中的数据全部是字节码形式存贮。

6 HBase基本架构

在这里插入图片描述
架构角色:

1)Master

   实现类为HMaster,负责监控集群中所有的 RegionServer 实例。主要作用如下:

  1. 管理元数据表格hbase:meta,接收用户对表格创建修改删除的命令并执行
  2. 监控region是否需要进行负载均衡,故障转移和region的拆分。

   通过启动多个后台线程监控实现上述功能:

  1. LoadBalancer负载均衡器:周期性监控region分布在regionServer上面是否均衡,由参数hbase.balancer.period控制周期时间,默认5分钟。
  2. CatalogJanitor元数据管理器:定期检查和清理hbase:meta中的数据。meta表内容在进阶中介绍。
  3. MasterProcWAL master预写日志处理器:把master需要执行的任务记录到预写日志WAL中,如果master宕机,让backupMaster读取日志继续干。

2)Region Server

   Region Server实现类为HRegionServer,主要作用如下:

  1. 负责数据cell的处理,例如写入数据put,查询数据get等
  2. 拆分合并region的实际执行者,有master监控,有regionServer执行。

3)Zookeeper

   HBase通过Zookeeper来做master的高可用、记录RegionServer的部署信息、并且存储有meta表的位置信息。
   HBase对于数据的读写操作是直接访问Zookeeper的,在2.3版本推出Master Registry模式,客户端可以直接访问master。使用此功能,会加大对master的压力,减轻对Zookeeper的压力。

4)HDFS

   HDFS为Hbase提供最终的底层数据存储服务,同时为HBase提供高容错的支持。

二 Hbase安装

1 依赖环境

   需要正常部署zookeeper和hadoop集群

2 HBase的解压

1)解压Hbase到指定目录

[mayx@hadoop201 module]$ tar -zxvf hbase-2.4.11-bin.tar.gz -C /opt/module/
[mayx@hadoop201 module]$ mv /opt/module/hbase-2.4.11 /opt/module/hbase

2)配置环境变量

[mayx@hadoop201 module]$ sudo vim /etc/profile.d/my_env.sh

#HBASE_HOME
export HBASE_HOME=/opt/module/hbase
export PATH=$PATH:$HBASE_HOME/bin

3)使用source让配置的环境变量生效

[mayx@hadoop201 module]$ source /etc/profile.d/my_env.sh

3 HBase的配置文件

1)hbase-env.sh修改内容,可以添加到最后:

export HBASE_MANAGES_ZK=false

2)hbase-site.xml修改内容:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>hadoop201,hadoop202,hadoop203</value>
    <description>The directory shared by RegionServers.
    </description>
  </property>

  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://hadoop201:8020/hbase</value>
    <description>The directory shared by RegionServers.
    </description>
  </property>


  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>

  <property>
	<name>hbase.wal.provider</name>
	<value>filesystem</value>
  </property>

</configuration>

3)regionservers

hadoop201
hadoop202
hadoop203

4)解决HBase和Hadoop的log4j兼容性问题

   修改HBase的jar包,使用Hadoop的jar包

[mayx@hadoop201 module]$ mv /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar /opt/module/hbase/lib/client-facing-thirdparty/slf4j-reload4j-1.7.33.jar.bak

5) HBase远程发送到其他集群

[mayx@hadoop201 module]$ xsync hbase/

   xsync命令如下

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
 exit;
fi

#2. 遍历集群所有机器
for host in hadoop201 hadoop202 hadoop203
do
 echo ==================== $host ====================
 #3. 遍历所有目录,挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
 if [ -e $file ]
 then
 #5. 获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6. 获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
done

4 HBase服务的启动和关闭

1)群启服务

[mayx@hadoop201 module]$ bin/start-hbase.sh

查看HBase页面:http://hadoop201:16010
在这里插入图片描述

2)停止服务

[mayx@hadoop201 module]$ bin/stop-hbase.sh

三 HBase Shell操作

1 基本操作

1)进入HBase客户端命令行

[mayx@hadoop201 hbase]$ bin/hbase shell

2)查看帮助命令

   能够展示HBase中所有能使用的命令,主要使用的命令有namespace命令空间相关,DDL创建修改表格,DML写入读取数据

hbase:001:0> help

在这里插入图片描述

2 namespace

1)创建命名空间

   使用特定的help语法能够查看命令如何使用

hbase:002:0> help 'create_namespace'

在这里插入图片描述

2)创建命名空间bigdata

hbase:003:0> create_namespace 'bigdata'

3)查看所有的命名空间

hbase:004:0> list_namespace

3 DDL

1)创建表

   在bigdata命名空间中创建表格student,两个列族。info列族数据维护的版本数为5个,如果不写默认版本数为1

hbase:005:0> create 'bigdata:student', {NAME => 'info', VERSIONS => 5}, {NAME => 'msg'}

   如果创建表格只有一个列族,没有列族属性,可以简写。
   如果不写命名空间,使用默认的命名空间default。

hbase:009:0> create 'student1','info'

2)查看表

   list:查看所有的表名

hbase:013:0> list

   describe:查看一个表的详情

hbase:014:0> describe 'student1'

3)修改表

   表名创建时写的所有和列族相关的信息,都可以后续通过alter修改,包括增加删除列族。
   增加列族和修改信息都使用覆盖的方法

hbase:015:0> alter 'student1',  {NAME => 'f1', VERSIONS => 3}

   删除信息使用特殊的语法

hbase:015:0> alter 'student1', NAME => 'f1', METHOD => 'delete'
hbase:016:0> alter 'student1', 'delete' => 'f1'

4)删除表

   shell中删除表格,需要先将表格状态设置为不可用。

hbase:017:0> disable 'student1'
hbase:018:0> drop 'student1'

4 DML

1)写入数据

   在HBase中如果想要写入数据,只能添加结构中最底层的cell。可以手动写入时间戳指定cell的版本,推荐不写默认使用当前的系统时间。如果重复写入相同rowKey,相同列的数据,会写入多个版本进行覆盖。

hbase:019:0> put 'bigdata:student','1001','info:name','zhangsan'
hbase:020:0> put 'bigdata:student','1001','info:name','lisi'
hbase:021:0> put 'bigdata:student','1001','info:age','18'

2)读取数据

   读取数据的方法有两个:get和scan。
   get最大范围是一行数据,也可以进行列的过滤,读取数据的结果为多行cell。

hbase:022:0> get 'bigdata:student','1001'
hbase:023:0> get 'bigdata:student','1001' , {COLUMN => 'info:name'}

   也可以修改读取cell的版本数,默认读取一个。最多能够读取当前列族设置的维护版本数。

hbase:024:0>get 'bigdata:student','1001' , {COLUMN => 'info:name', VERSIONS => 6}

   scan是扫描数据,能够读取多行数据,不建议扫描过多的数据,推荐使用startRow和stopRow来控制读取的数据,默认范围左闭右开。

hbase:025:0> scan 'bigdata:student',{STARTROW => '1001',STOPROW => '1002'}

3)删除数据

   删除数据的方法有两个:delete和deleteall。
delete表示删除一个版本的数据,即为1个cell,不填写版本默认删除最新的一个版本。

hbase:026:0> delete 'bigdata:student','1001','info:name'

   deleteall表示删除所有版本的数据,即为当前行当前列的多个cell。(执行命令会标记数据为要删除,不会直接将数据彻底删除,删除数据只在特定时期清理磁盘时进行)

hbase:027:0> deleteall 'bigdata:student','1001','info:name'

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1956588.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

玩转usbserver之usbserver日志报警

一、graylog 介绍 graylog是一个简单易用、功能较全面的日志管理工具&#xff0c;graylog也采用Elasticsearch作为存储和索引以保障性能&#xff0c;MongoDB用来存储少量的自身配置信息&#xff0c;master-node模式具有很好的扩展性&#xff0c;UI上自带的基础查询与分析功能比…

maven项目如何将自定义的jar引入本地仓中,并编译通过

只需3步&#xff0c;轻松实现自定义jar包引入本地仓。 1、在pom.xml文件中加入坐标 <dependency><groupId>com.hicap.echannelservice.ncclib</groupId> //随便写<artifactId>ncclib-jar</artifactId> //随便写<version>1.0</version…

Qwen2模型Text2SQL微调​以及GGUF量化

Qwen2-1.5B微调 准备python环境 conda create --name llama_factory python3.11 conda activate llama_factory部署llama-factory git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip3 install -e ".[torch,metrics]" # 如果…

【全面讲解下Docker in Docker的原理与实践】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 👉目录 👉前言👉原理👉实践👉安全和最佳实践👉前言 🦛…

【保姆级教程】免费内网穿透,手把手搭建,三步搞定

在内网部署的一个应用&#xff0c;想分享给外网的小伙伴玩玩&#xff1f; 学校实验室有一台高性能服务器&#xff0c;在外网就无法使用&#xff1f; 来吧&#xff0c;内网穿透&#xff0c;了解一下&#xff1f; 1. 关于内网穿透 1.1 什么是内网穿透 且看百度百科的说法&am…

【AI人工智能】文心智能体,00后疯感工牌生成器,低代码工作流的简单应用以及图片快速响应解决方案,干货满满,不容错过哦

背景 文心智能体平台&#xff0c;开启新一轮活动&#xff0c;超级创造营持续百日活动。 在AI 浪潮席卷的今天&#xff0c;如雨后春笋般丛生的 AI 应用&#xff0c;昭告着时代风口显然已随之到来。 如何能把握住时代红利&#xff0c;占据风口&#xff0c;甚至打造新风向&#x…

深入探讨单元测试:概念、作用及应用实例

目录 前言1. 单元测试的概念1.1 单元测试的特点1.2 单元测试的组成部分 2. 单元测试的主要作用2.1 确保代码正确性2.2 提高代码质量2.3 促进重构2.4 支持持续集成 3. 单元测试在整个测试中的地位3.1 单元测试 vs 集成测试3.2 单元测试 vs 系统测试3.3 单元测试 vs 验收测试 4. …

VulnHub靶机入门篇--Kioptrix4

1.环境配置 下载地址&#xff1a; https://download.vulnhub.com/kioptrix/Kioptrix4_vmware.rar 下载完解压之后是一个vdmk文件&#xff0c;我们需要先创建一个新的虚拟机&#xff0c;将vdmk文件导入就行了 先移除原先硬盘&#xff0c;然后再进行添加&#xff0c;网络连接为…

Computer Software Copyright Registration Certificate

Computer Software Copyright Registration Certificate 计算机软件著作权登记证书

项目实战--JUC之CompletableFuture温故

CompletableFuture温故 一、前言二、Future三、CompletableFuture3.1 CompletableFuture定义3.2 CompletableFuture使用场景3.3 CompletableFuture 常见操作3.3.1 创建CompletableFuture3.3.2 使用CompletableFuture3.3.3 异常处理3.3.4 注意事项 四、CompletableFuture处理工具…

51单片机嵌入式开发:21、STC89C52R控制抢答器+数码管+后台显示+LCD1602x显示

配套程序 STC89C52R控制抢答器数码管后台显示LCD1602x显示 STC89C52R控制抢答器数码管后台显示LCD1602x显示1 概述1.1 项目概述1.2 项目组成部分1.3 功能描述 2 开发环境2.1 支持设备2.2 硬件电路 3 软件代码工程4 演示Proteus仿真5 总结 配套程序 STC89C52R控制抢答器数码管后…

oracle登录报“ORA-27101: shared memory realm does not exist”

oracle登录报“ORA-27101: shared memory realm does not exist” 问题&#xff1a; 1、使用ip:1521/服务名方式连库报错" ORA-27101: shared memory realm does not exist Linux-x86_64 Error: 2: No such file or directory" 2、sqlplus XX/密码 可以登录数据库 …

linux下使用yum安装mysql

本文使用常规方式手动安装mysql 第一步 下载mysql的repo源 wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm第二步 安装mysql-community-release-el7-5.noarch.rpm包 rpm -ivh mysql-community-release-el7-5.noarch.rpm第三步 安装mysql-server yum -y…

一文步让成功搭建AI数字人直播系统!

随着AI数字人直播技术的不断成熟&#xff0c;越来越多的企业都开始使用或计划引入AI数字人直播&#xff0c;来实现直播板块的降本增效。这也让不少创业者看到了AI数字人直播所蕴含着的巨大市场需求和广阔收益空间&#xff0c;从而有了搭建AI数字人直播系统源码的想法。 ​不过&…

flask学习小结

背景 通过官方文档学习 quickstart 第一个app 代码 文件命名为hello.py windows执行set FLASK_APPhello&#xff0c;linux执行export FLASK_APPhello&#xff0c;然后执行flask run即可运行app 默认运行的app是127.0.0.1:5000&#xff0c;可通过-h -p参数改ip地址和端口。…

windows下定时执行bat脚本删除无用文件和文件夹

文章目录 1. 删除脚本编写2. 配置任务计划程序1.搜索任务计划程序2. 创建任务3. 触发器配置4. 创建任务–>操作5. 创建任务–>条件6. 创建任务–>设置7. 确定保存设置 1. 删除脚本编写 echo off REM 设置源目录和要删除的文件的天数阈值 SrcDirE:\xxx DaysAgo30REM 从…

二阶段测试

二阶段测试 1、部署框架前准备工作 服务器类型部署组件ip地址DR1调度服务器 主&#xff08;ha01&#xff09;KeepalivedLVS-DR192.168.168.21DR2调度服务器 备 (ha02)KeepalivedLVS-DR192.168.168.22web1节点服务器 (slave01)NginxTomcatMySQL 备MHA managerMHA node192.168.1…

【OpenCV C++20 学习笔记】图片融合

图片融合 原理实现结果展示完整代码 原理 关于OpenCV的配置和基础用法&#xff0c;请参阅本专栏的其他文章&#xff1a;垚武田的OpenCV合集 这里采用的图片熔合的算法来自Richard Szeliski的书《Computer Vision: Algorithms and Applications》&#xff08;《计算机视觉&#…

【C++】循环结构-for循环

for 循环语法格式&#xff1a; for(起始表达式;条件表达式;末尾循环体) {循环语句} 注意&#xff1a;括号内的三者也可以写出来写在循环语句里&#xff0c;但使用for循环就是为了使循环更加简洁明了&#xff0c;因此不仅以这么做 下面是一个实例 #include<iostream> …

ROS安装key NO_PUBKEY F42ED6FBAB17C654

解决方案 可以手工添加。 ROS1云课→18一键配置_linux ros1配置-CSDN博客 下载ros.key&#xff0c;然后手工添加到对应位置。 ros2407.key master zhangrelay / ros_book GitCode 问题描述 ros2ros2-20l1a001cd:~$ sudo apt update Hit:1 http://ftp.sjtu.edu.cn/ubunt…