Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第四次作业 (第4章 HBase分布式DB)

news2024/11/17 10:01:38

 

  • 1.简述Hbase的特点及与传统关系数据库的区别

    • HBase与传统关系数据库的区别

      • (1)数据类型

        • 关系数据库具有丰富的数据类型,如字符串型、数值型、日期型、二进制型等。HBase只有字符串数据类型,数据的实际类型都是交由用户自己编写程序对字符串进行解析的。

      • (2)数据操作

        • 关系数据库中包含了丰富的操作,其中会涉及复杂的多表连接。HBase 操作则不存在复杂的表与表之间的关系,只有简单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂的表和表之间的关系

      • (3)存储模式

        • 关系数据库是基于行存储的,在关系数据库中读取数据时,需要顺序扫描每个元组,然后从中筛选出所需要查询的属性。HBase是基于列存储的,HBase将列划分为若干个列族,每个列族都由几个文件保存,不同列族的文件时分离的,它的优点是:可以降低IO开销,支持大量并发用户查询,仅需要处理所要查询的列,不需要处理与查询无关的大量数据列。

      • (4)数据索引

        • 关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。HBase只有一个索引一—行键,通过巧妙的设计,HBase 中的所有访问方法,或者箍过行键访简,或著通过行键扫描,从而使得整个系统不会慢下来

      • (5)数据维护

        • 在关系数据库中,更新操作会用最新的当前值去替换元组中原来的旧值。而HBase执行的更新操作不会删除数据旧的版本,而是添加一个新的版本,旧的版本仍然保留。

      • (6)可伸缩性

        • 关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。相反,HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的,能够轻易施通过在集群中增加或著减少硬件数量来实现性能的伸缩

    • HBase的技术特点

      • 容量大。

        • 当关系数据库的单个表的记录在亿级时,则查询和写入的性能都会呈现指数级下降,而HBase对于单表存储百亿或更多的数据都没有性能问题。

      • 表结构不固定。

        • 可以根据需要动态的增加列,同一张表中不同的行可以有截然不同的列。

      • 列式存储。

        • 数据在表中是按列存储,可动态增加列,单独对列进行各种操作。

      • 稀疏性。

        • 空列不占用存储空间,表可以非常稀疏。

      • 数据类型单一。

        • HBase中的数据都是字符串。

    • 2.画出图4-1,简述Hbase与Hadoop中其他组件的关系。

      • HBase作为Hadoop生态系统的一部分,一方面它的运行依赖于Hadoop生态系统中的其他组件;另一方面,HBase又为Hadoop生态系统的其他组件提供了强大的数据存储和处理能力。

    • 3.通过表4-3和图4-4,简述Hbase在4个维度上的多维映射关系。

      • 行键

        • 每个HBase 表都由若干行组成,每个行由行键(row key)来标识。

      • 列族

        • 一个HBase 表被分组成许多“列族”(Column Family)的集合,它是基本的访问控制单元

      • 列限定符

        • 列族里的数据通过列限定符(或列)来定位

      • 单元格

        • 在HBase 表中,通过行·列成健和列限定符确定一个 “单元格”(cell),单元格中存储的数据没有数据类型,总被视为字节数组byte[]

      • 时间戳

        • 每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引

      • HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格 因此,可以视为一个“四维坐标”,即[行键,列族,列限定符,时间戳]

    • 4.简述HBase Shell命令的分类和作用。

      • 基本命令

        • 1.获取帮助help

        • 2.查看服务器状态status

        • 3.查看当前用户whoami

        • 4.命名空间相关命令

          • (1)列出所有命名空间命令list_namespace

          • (2)创建命名空间命令create namespace

          • (3)查看命名空间命令describe_namespace

          • (4)创建表命令create

          • (5)列出指定命名空间下的所有表命令list_namespace_tables

          • (6)使表无效命令disable

          • (7)删除表命令drop

          • (8)删除命名空间命令drop namespace

      • 创建表

        • create<表名称>,<列族名称1>[,'列族名称2'...]

        • HBase中的表至少要有一个列族,列族直接影响HBasc数据存储的物理特性。

      • 插入与更新表中的数据

        • put<表名>,<行键>,<列族名:列名>,<值>[,时间戳]

      • 查看表中的数据

        • 1.查询某行数据get

        • 2.浏览表中全部数据scan

      • 删除表中的数据

        • delete命令用于删除一个单元格数据

        • deleteall命令用于删除一行数据

        • truncate命令用于删除表中的所有数据

      • 表的启用/禁用

        • enable和disable可以启用/禁用表

        • is_enabled和is_disabled来检查表是否被禁用。

      • 修改表结构

        • 修改表结构必须先禁用表。

          • disable 'student'#禁用student表

        • 1.添加列族alter '表名',列族名'

        • 2删除列族 alter '表名',{NAME=>'列族名',METHOD => 'delete'}

          • alter 'student',{NAME=> 'teacherInfo',METHOD => 'delete"}

      • 删除HBase表

        • 第一步禁用表,第二步删除表。

        • disable 'student’#禁用student表

        • drop 'student'#删除student表

    • 5.分析教材中P89-91中Java程序的功能,试改写程序为一个类实现。

教材P89-91内容如下:

//1.创建建表类 CreateHTable
import org.apache.hadoop.conf.configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import java.io.IOException;
public class CreateHTable{
	public static void create (String tableName, String[] columnFamily) throws IOException {
        Configuration cfg = HBaseConfiguration.create();//生成Configuration对象
        //生成HBaseAdmin对象,用于管理 HBase数据库的表
        HBaseAdmin admin = new HBaseAdmin(cfg);
        //创建表,先判断表是否存在,若存在,先删除旧表再建表
        if(admin.tableExists(tableName))(
            admin.disableTable(tableName);//禁用表
            admin.deleteTable(tableName);//删除表
        )
        //利用HBaseAdmin对象的createTable (HTableDescriptor desc)方法创建表
        //通过tableName建立HTableDescriptor对象(包含HBase表的详细信息)
        //通过HTableDescriptor对象的addFamily (HColumnDescriptor hcd)方法添加列族
        //HColumnDescriptor对象是以列族名作为参数创建的
        HTableDescriptor htd = new HTableDescriptor(tableName);
        for(String column : columnFamily){
            htd.addFamily(new HColumnDescriptor(column));
        }
        admin.createTable(htd);//创建表
    }
}
//2.创建插入数据类InsertHData
//利用前面在HBaseExample项目中创建CreateHTable类的方法创建插入数据类InsertHData,在InsertHData.java的源代码文件中输入以下代码:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import java.io.IOException;
public class InsertHData {
    public static void insertData (string tableName, String row, String columnFamily,String column , String data) throws IOException {
        Configuration cfg = HBaseConfiguration.create();
        // HTable对象用于与HBase进行通信
        HTable table = new HTable (cfg, tableName);
        //通过Put对象为已存在的表添加数据
        Put put = new Put (row.getBytes());
        if(column==null) //判断列限定符是否为空,如果为空,则直接添加列数据
            put.add (columnFamily.getBytes(),null, data.getBytes());
        else
            put.add (columnFamily.getBytes (), column. getBytes () , data.getBytes());
            //table对象的put()方法的输入参数 Put对象表示单元格数据
        table.put (put);
    }
}
//3.创建建表测试类TestCreateHTable
//利用前面在HBascExample项目中创建CreateHTable类的方法创建建表测试类TestCreateHTable,在TestCreatcHTable的源代码文件中输入以下代码:
import java.io.IOException;
public class TestCreateHTable{
    public static void main(String[] args)throws IOException{
        //先创建一个名为student的表,列族有baseinfo、scoreInfo
        String[] columnFamily = {"baseInfo" , "scoreInfo"};
        String tableName = "Student";
        CreateHTable.create(tableName, columnFamily);
        //插入数据
        //插入Ding的信息和成绩
        InsertHData.insertData ("student ", "Ding", "baseInfo", "Ssex" , "female");
        InsertHData.insertData ("student", "Ding", "baseInfo", "Sno","10106");
        InsertHData.insertData ( "student", "Ding" , "scoreInfo", "c","86");
        InsertHData.insertData ("student" ,"Ding" , "scoreInfo", "Java" , "82");
        InsertHData.insertData ( "Student" , "Ding", "scoreInfo" , "Python" , "87");
        //插入Yan的信息和成绩
        InsertHData.insertData ("student" , "Yan", "baseInfo" , "Ssex" , "female");
        InsertHData.insertData ("student", "Yan", "baseInfo" , "Sno", "10108");
        InsertHData.insertData ( "student" , "Yan", "scoreInfo", "c", "90");
        InsertHData.insertData ("Student", "Yan", "scoreInfo" , "Java", "91");
        InsertHData.insertData("student", "Yan" , "scoreInfo" , "python", "93");
        //插入Feng的信息和成绩
        InsertHData.insertData ("Student", "Feng" , "baseInfo" , "Ssex" ,"female");
        InsertHData.insertData ("Student" , "Feng" , "baseInfo" , "Sno","10107");
        InsertHData.insertData ("Student", "Feng", "scoreInfo", "c","89");
        InsertHData.insertData ("student", "Feng", "scoreInfo" , "Java", "83");
        InsertHData.insertData("Student", "Feng" , "scoreInfo" , "Python", "85");
    }
}
  • (1)CreateHTable 类

    • 创建一个 HBase 表。

    • 首先检查表是否已经存在,如果存在则先删除旧表,然后创建一个新表。

    • 通过 HTableDescriptor 对象定义表的名称和列族,然后使用 HBaseAdmin 对象创建表。

  • (2)InsertHData 类

    • 向 HBase 表中插入数据。

    • 使用 HTable 对象与 HBase 进行通信,并创建 Put 对象来表示要插入的单元格数据。

    • 根据是否指定列限定符,使用不同的方法向表中添加数据。

  • (3)TestCreateHTable 类

    • 测试类,用于测试前面两个类的功能。

    • 首先创建了一个名为 "Student" 的表,列族为 "baseInfo" 和 "scoreInfo"。

    • 然后使用 InsertHData 类向表中插入了三个学生的信息和成绩。

改写为一个类实现:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.client.HBaseAdmin;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;

import java.io.IOException;

/**
 * HBaseManager 类提供了创建 HBase 表和向表中插入数据的功能。
 */
public class HBaseManager {
    private Configuration configuration;
    private HBaseAdmin admin;

    /**
     * 构造函数,初始化 HBase 配置和管理员对象。
     *
     * @throws IOException 如果初始化过程中出现 I/O 异常
     */
    public HBaseManager() throws IOException {
        this.configuration = HBaseConfiguration.create();
        this.admin = new HBaseAdmin(configuration);
    }

    /**
     * 创建 HBase 表。
     *
     * @param tableName       表名
     * @param columnFamilies  列族名数组
     * @throws IOException 如果创建表过程中出现 I/O 异常
     */
    public void createTable(String tableName, String[] columnFamilies) throws IOException {
        // 检查表是否已存在
        if (admin.tableExists(tableName)) {
            // 如果表存在,先禁用并删除旧表
            admin.disableTable(tableName);
            admin.deleteTable(tableName);
        }

        // 创建新表
        HTableDescriptor tableDescriptor = new HTableDescriptor(tableName);
        for (String columnFamily : columnFamilies) {
            // 为表添加列族
            tableDescriptor.addFamily(new HColumnDescriptor(columnFamily));
        }
        admin.createTable(tableDescriptor);
    }

    /**
     * 向 HBase 表中插入数据。
     *
     * @param tableName     表名
     * @param row           行键
     * @param columnFamily  列族名
     * @param column        列限定符(可为null)
     * @param data          要插入的数据
     * @throws IOException 如果插入数据过程中出现 I/O 异常
     */
    public void insertData(String tableName, String row, String columnFamily, String column, String data) throws IOException {
        // 获取表对象
        HTable table = new HTable(configuration, tableName);
        // 创建 Put 对象表示要插入的单元格数据
        Put put = new Put(row.getBytes());
        // 判断是否指定了列限定符
        if (column == null) {
            // 如果没有指定列限定符,直接添加列数据
            put.add(columnFamily.getBytes(), null, data.getBytes());
        } else {
            // 如果指定了列限定符,使用列限定符添加列数据
            put.add(columnFamily.getBytes(), column.getBytes(), data.getBytes());
        }
        // 将 Put 对象写入表
        table.put(put);
    }
}

public class HBaseManagerTest {
    public static void main(String[] args) throws IOException {
        HBaseManager manager = new HBaseManager();

        // 创建表
        String[] columnFamilies = {"baseInfo", "scoreInfo"};
        String tableName = "Student";
        manager.createTable(tableName, columnFamilies);

        // 插入数据
        // 插入 Ding 的信息和成绩
        manager.insertData("Student", "Ding", "baseInfo", "Ssex", "female");
        manager.insertData("Student", "Ding", "baseInfo", "Sno", "10106");
        manager.insertData("Student", "Ding", "scoreInfo", "C", "86");
        manager.insertData("Student", "Ding", "scoreInfo", "Java", "82");
        manager.insertData("Student", "Ding", "scoreInfo", "Python", "87");

        // 插入 Yan 的信息和成绩
        manager.insertData("Student", "Yan", "baseInfo", "Ssex", "female");
        manager.insertData("Student", "Yan", "baseInfo", "Sno", "10108");
        manager.insertData("Student", "Yan", "scoreInfo", "C", "90");
        manager.insertData("Student", "Yan", "scoreInfo", "Java", "91");
        manager.insertData("Student", "Yan", "scoreInfo", "Python", "93");

        // 插入 Feng 的信息和成绩
        manager.insertData("Student", "Feng", "baseInfo", "Ssex", "female");
        manager.insertData("Student", "Feng", "baseInfo", "Sno", "10107");
        manager.insertData("Student", "Feng", "scoreInfo", "C", "89");
        manager.insertData("Student", "Feng", "scoreInfo", "Java", "83");
        manager.insertData("Student", "Feng", "scoreInfo", "Python", "85");
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1595038.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring+SpringMVC的知识总结

一:技术体系架构二:SpringFramework介绍三:Spring loC容器和核心概念3.1 组件和组件管理的概念3.1.1什么是组件:3.1.2:我们的期待3.1.3Spring充当组件管理角色(IOC)3.1.4 Spring优势3.2 Spring Ioc容器和容器实现3.2.1普通和复杂容器3.2.2 SpringIOC的容器介绍3.2.3 Spring IOC…

开源版中文和越南语贷款源码贷款平台下载 小额贷款系统 贷款源码运营版

后台 代理 前端均为vue源码&#xff0c;前端有中文和越南语 前端ui黄色大气&#xff0c;逻辑操作简单&#xff0c;注册可对接国际短信&#xff0c;可不对接 用户注册进去填写资料&#xff0c;后台审批&#xff0c;审批状态可自定义修改文字显示 源码免费下载地址抄笔记 (chaob…

【Vue】新手一步一步安装 vue 语言开发环境

文章目录 1、下载node.js安装包 1、下载node.js安装包 1.打开node.js的官网下载地址&#xff1a;http://nodejs.cn/download/ 选择适合自己系统的安装包&#xff1a;winds、mac 2. 配置node.js和npm环境变量 安装好之后&#xff0c;对npm安装的全局模块所在路径以及缓存所在路…

Linux网络基础 (二) ——(IP、MAC、端口号、TCPUDP协议、网络字节序)

文章目录 IP 地址基本概念源IP地址 & 目的IP地址 MAC 地址基本概念源MAC地址 & 目的MAC地址 端口号基本概念源端口号 & 目的端口号 TCP & UDP 协议基本概念TCP 与 UDP 的抉择 网络字节序大端、小端字节序 &#x1f396; 博主的CSDN主页&#xff1a;Ryan.Alask…

五、Jenkins、Docker、SpringClound持续集成

Jenkins、Docker、SpringClound持续集成 一、部署介绍1.部署图2.微服务项目结构3.项目启动顺序 二、微服务项目在Windows运行1.配置java、maven环境2.初始化数据库表/数据2.1 tensquare_gathering服务表2.2 tensquare_gathering服务表 3.启动微服务4.微服务接口测试4.1 获取用户…

Tomcat源码解析——Tomcat的启动流程

一、启动脚本 当我们在服务启动Tomcat时&#xff0c;都是通过执行startup.sh脚本启动。 在Tomcat的启动脚本startup.sh中&#xff0c;最终会去执行catalina.sh脚本&#xff0c;传递的参数是start。 在catalina.sh脚本中&#xff0c;前面是环境判断和初始化参数&#xff0c;最终…

架构师系列-搜索引擎ElasticSearch(六)- 映射

映射配置 在创建索引时&#xff0c;可以预先定义字段的类型&#xff08;映射类型&#xff09;及相关属性。 数据库建表的时候&#xff0c;我们DDL依据一般都会指定每个字段的存储类型&#xff0c;例如&#xff1a;varchar、int、datetime等&#xff0c;目的很明确&#xff0c;就…

45.HarmonyOS鸿蒙系统 App(ArkUI)创建列表(List)

列表是一种复杂的容器&#xff0c;当列表项达到一定数量&#xff0c;内容超过屏幕大小时&#xff0c;可以自动提供滚动功能。它适合用于呈现同类数据类型或数据类型集&#xff0c;例如图片和文本。在列表中显示数据集合是许多应用程序中的常见要求&#xff08;如通讯录、音乐列…

Qt快速入门(MV架构之TableView + QStandardItemModel + 自定义代理小案例)

Qt快速入门&#xff08;MV架构之TableView QStandardItemModel 自定义代理小案例&#xff09; 关于MV架构的简单介绍 在Qt框架中&#xff0c;代理&#xff08;Delegate&#xff09;、模型&#xff08;Model&#xff09;和视图&#xff08;View&#xff09;之间的关系构成了…

14_SpringMVC

文章目录 MVCSpringMVC与JavaEE对比SpringMVCSpringMVC的核心流程SpringMVC入门案例RequestMapping注解的使用Handler方法的返回值Handler方法的形参keyvalue形式的请求参数Json请求参数 RESTful风格接口静态资源处理FilterHandlerInterceptor异常处理SpringMVC核心流程流程图 …

自动化收集Unity版本更新日志

自动化收集Unity版本更新日志 &#x1f365;功能介绍&#x1f96a;食用手册填写配置开始搜集 &#x1f368;数据展示 &#x1f365;功能介绍 &#x1f4a1;获取指定年份中所有的Unity版本更新日志。 &#x1f4a1;根据指定字符串过滤。 &#x1f4a1;.收集后自动保存成markdow…

架构师系列-搜索引擎ElasticSearch(四)- 高级查询

ES查询 matchAll 脚本方式 该方式可以通过kabana、curl、elasticsearch-head&#xff08;纯前端&#xff09;去操作 # 默认情况下&#xff0c;es一次展示10条数据,通过from和size来控制分页 # 查询结果详解 GET goods/_search {"query": {"match_all":…

如何在MacOS上使用OpenHarmony SDK交叉编译?

本文以cJSON三方库为例介绍如何通过OpenHarmony的SDK在Mac平台进行交叉编译。 环境准备 SDK准备 我们可以通过 openHarmony SDK 官方发布渠道下载对应mac版本的SDK&#xff0c;当前OpenHarmony MAC版本的SDK有2种&#xff0c;一种是x86架构&#xff0c;另一种是arm64&#x…

二叉树例题分享

文章目录 二叉树例题分享[235. 二叉搜索树的最近公共祖先](https://leetcode.cn/problems/lowest-common-ancestor-of-a-binary-search-tree/)[701. 二叉搜索树中的插入操作](https://leetcode.cn/problems/insert-into-a-binary-search-tree/)[108. 将有序数组转换为二叉搜索树…

分享一些有趣的 Linux 命令

1、sl 会显示一辆火车穿过你的终端屏幕 2、cmatrix 在终端中显示类似于《黑客帝国》电影中的绿色数字雨效果 3、fortune 显示一个随机的名人名言或者笑话 4、cowsay 让一头牛说出你输入的话 5、toilet 在终端中将输入的文本以艺术字体的形式呈现 6、figlet 类似于 toile…

Python数据分析案例41——基于CNN-BiLSTM的沪深300收盘价预测

案例背景 虽然我自己基于各种循环神经网络做时间序列的预测已经做烂了.....但是还是会有很多刚读研究生或者是别的领域过来的小白来问这些神经网络怎么写&#xff0c;怎么搭建&#xff0c;给我一篇论文看看感觉很厉害的样子。我一看&#xff1a;普刊、单变量时间序列预测、一个…

软考中级工程师网络技术第二节网络体系结构

OSPF将路由器连接的物理网络划分为以下4种类型&#xff0c;以太网属于&#xff08;25&#xff09;&#xff0c;X.25分组交换网属于&#xff08;非广播多址网络NBMA&#xff09;。 A 点对点网络 B 广播多址网络 C 点到多点网络 D 非广播多址网络 试题答案 正确答案&#xff1a; …

VS2019调试

最近开始了解单步调试 开始我按下F11键是没用的。 Visual Studio 调试快捷键失效_visual studio code用不了快捷键-CSDN博客 我的F11对应的系统功能是调小音量。 所以有两种模式&#xff1a; (1)按下F11,调小音量 (2)按下F11,单步调试 通过Fnesc键进行模式的切换。 还有一…

数据结构初阶:二叉树(二)

二叉树链式结构的实现 前置说明 在学习二叉树的基本操作前&#xff0c;需先要创建一棵二叉树&#xff0c;然后才能学习其相关的基本操作。由于现在对二叉树结构掌握还不够深入&#xff0c;为了降低学习成本&#xff0c;此处手动快速创建一棵简单的二叉树&#xff0c;快速进入二…

网络篇10 | 网络层 IP

网络篇10 | 网络层 IP 01 简介02 名称解释03 IP报文格式(IPv4)1&#xff09;4位版本协议(version)2&#xff09;4位首部长度(header length)3&#xff09;8位服务类型(Type Of Service, TOS)4&#xff09;16位总长度5&#xff09;16位(分片)标识6&#xff09;3位(分片)标志7&am…