海量数据存储组件Hbase

news2025/1/20 22:58:30

hdfs

hbase

NoSQL数据库 支持海量数据的增删改查 基于Rowkey查询效率特别高

kudu

介于hdfs和hbase之间

hbase依赖hadoop+zookeeper,同时整合框架phoenix(擅长读写),hive(分析数据)

k,v 储存结构

稀疏的(为空的不存储)、分布式的、持久地、多维排序map-》映射:行键、列键、时间戳,未解释的(序列化的,存储效率高)

数据存储整体有序  列 、 列族 、 rowkey按字典序排序,然后将一个“表格”切分出一个Region,对应有rowkey的范围,每个Region的rowkey范围都不重叠。竖行切分store,按列族为单位进行。

 

 

 使用timestamp实现数据修改,version确认版本,操作类型type

namespace=database

cell唯一确定的单元

架构

master通过zookeeper管理region server,region server向zookeeper注册自己的信息

操作表格的命令是有master进行的,修改和删除

loadBalancer均衡负载器

预写日志处理器:容错机制

master backup server 高可用信息

hbase shell 常用命令: list_namespace

DDL:

create_namespace 'bigdata'

create 't1',  {NAME=>'F1',VERSION=>5}

           表名   列族 名             指定维护的时间戳版本数,例子中的版本数为5        

describe 't1'

alter 't1' ,'delete'=>'info1'  删除列族

删除表: disable 't1'       drop 't1'

DML:

插入数据: put 'bigdata:t1'         ,'r1'         ,'c1'                   ,'value'    ts1

                          '库名 :表名'   rowkey    列族:列名           列值   时间戳

读取数据:

get 一行数据  和scan 多行数据

scan 'bigdata:t1' {startrow=>'',stoprow=>''}

                            前开后闭

删除数据:

delete 删除一行数据,一个cell。 默认是删除给定时间戳之前的第一个遇到的时间戳的数据。实际是在插入一条delete记录。

delete all 删除所有版本的数据,即多个cell。

API

涉及java建造者 Builder模式: 命名空间建造者=》设计师

集成phoenix  针对hbase上面还没有数据,需要写入数据  不适合复杂SQL查询

开源hbase的sql皮肤  标准jdbc API 自带sql优化器 如谓词下推

phoenix的primarykey对应hbase的rowkey    官网查询语法,与sql类似

!table

 

已经存在于hbase的表,phoenix需要进行视图映射或表映射才能使用。

create view  drop view 只能看,无法操作数据

表映射可以修改删除数据

phoenix二级索引-将 全表扫描优化为范围扫描

默认 全局索引:专门创建一张索引表,给非rowkey列去做rowkey排序(如字典序)。写的时候需要写两张表,故适合多读少写的场景。

explain 查看执行计划

 

全局索引的局限,不能包含非索引字段

全局索引的补充:包含索引

 

 

本地索引

hbase参数优化:

zookeeper timeout优化 

rpc监听数量 :put、get

 

多个写缓存加起来大小大于40%

JVM调优

 并发垃圾回收:一边读写一边垃圾回收

 

 

 

 

集成hive 针对hbase上面已经存好数据,需要分析数据

hbase的数据其实也是存储在hdfs上面的

 HQL创建hbase表

 

load data 只是将数据上传到文件系统指定目录中,而insert into 才能把格式对应上,因为它要跑商计算程序(如mr);

 rowkey设计原则

TSDB 将时间戳加入rowkey中,增量抽取数据变化的部分

目的是让数据均匀地分布在region中,3中方法:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/813046.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt实现思维导图锦集

序号简述文章导航1思维导图树形结构、不重叠且均匀分布、支持折叠和展开核心树2菜单按钮风格、菜单提示风格、侧滑菜单、侧滑功能窗口UI设计3支持JPEG、PNG、XML、JSON、PDF、SVG格式文件数据导入导出4支持撤销回撤功能、显示节点操作流程、点击可跳转历史撤销回撤5思维导图横向…

哈工大计算机网络课程网络安全基本原理详解之:消息完整性与数字签名

哈工大计算机网络课程网络安全基本原理详解之:消息完整性与数字签名 这一小节,我们继续介绍网络完全中的另一个重要内容,就是消息完整性,也为后面的数字签名打下基础。 报文完整性 首先来看一下什么是报文完整性。 报文完整性…

C++模拟实现反向迭代器

1.代码实现 1.有了解正向迭代器的应该知道,比如list的正向迭代器其实本质是一个类,而有些人想模拟实现反向迭代器,依旧想再创建一个类,但是库里面想要的是,你给我一个迭代器,我就能给你反馈一个反向迭代器…

信号槽中的函数重载

信号槽中的函数重载 QT4的方式QT5的方式函数指针重载函数QT5信号函数重载解决方案 总结 QT4的方式 Qt4中声明槽函数必须要使用 slots 关键字, 不能省略。 信号函数: 槽函数: mainwondow: cpp文件: #include "mainwindow.h"…

C/C++多线程操作

文章目录 多线程C创建线程join 和detachthis_thread线程操作锁lock_guardunique_lock 条件变量 condition_variablewaitwaitfor C语言线程创建线程同步 参考 多线程 传统的C(C11标准之前)中并没有引入线程这个概念,在C11出来之前&#xff0c…

C语言:反转一个单链表

Lei宝啊:个人主页 题目: 描述: 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 接口: struct ListNode* reverseList(struct ListNode* head){} 示例: 输入: head [1…

一起学算法(冒泡排序篇)

1.概念 冒泡排序(Bubble Sort)又称泡式排序,是一种简单的排序算法 核心思想:它重复地走访过要排列的次数,一次比较两个元素,如果它们的顺序错误就把它们交换过来,走访数列的工作是重复地进行交…

【Datawhale夏令营】任务三学习笔记

任务一笔记回顾 任务二笔记回顾 目录 一:竞赛上分流程 1.1问题建模1.2数据分析 1.3数据清洗1.4特征工程 1.5模型训练与验证 二:任务总结与心得 一:竞赛上分流程 问题建模——>数据分析 ——>数据清洗——>特征工程——>模型…

ERROR: AddressSanitizer: heap-buffer-overflow on address 0x602000000

leetcode上的一道题,当 s “a” 这样的单字符的时候,使用memset会出错,ERROR: AddressSanitizer: heap-buffer-overflow on address 0x602000000。 有些奇怪, 记录一下,双字符以及以上的时候不会报错,

Spring注解开发,bean的作用范围及生命周期、Spring注解开发依赖注入

🐌个人主页: 🐌 叶落闲庭 💨我的专栏:💨 c语言 数据结构 javaweb 石可破也,而不可夺坚;丹可磨也,而不可夺赤。 Spring注解开发 一、注解开发定义Bean二、纯注解开发Bean三…

MacOS Sonoma 14.0 (23A5301g) Beta4 带 OC 0.9.3 and FirPE 双分区原版黑苹果镜像

7月26日苹果发布macOS Sonoma Beta 4预览版更新,但部分用户在升级后遇到了各种问题。这一测试版目前还处于开发阶段,因此出现各种问题并不意外。 一、镜像下载: 1.微信公众号:MacOS Sonoma 14.0 (23A5301g) Beta4 带 OC 引导双分…

视频爬虫:解析m3u8文件 python m3u8库,m3u8文件中.ts视频流的解密下载

一、引用的库 这里需要引用的库是:from Crypto.Cipher import AES 有坑哈,python3.0之后直接安装crypto你会发现不管怎么着都会报错。 经过查找资料找到了原因,原来是20年之后crypto已经被pycryptohome替换掉啦, 如果之前安装过…

暴力破解(DVWA和pikachu)

目录 前言暴力破解模式一.pikachu靶场1.基于表单的暴力破解2. 验证码绕过2. token防爆破 二. DVWA1.low,Medium2.High3. Impossible 前言 渗透测试中暴力破解方法解释:通过尝试所有可能的字符组合来猜测密码的方法。 这种攻击方法需要大量计算资源和时间&#xff0…

人类文明进入下个纪元奇点:UFO听证会-恒温超导发现-GPT大模型

今年以来,科技领域出圈的事件频繁发生,每一个事件都意味着一个领域的重大突破的可能。这些事件是UFO听证会、恒温超导LK99的论文、GPT类大模型的广泛应用,我常将这些事件串在一起思考,细思极恐,一种”火鸡与农场主“的…

Vue(待续)

概念 一套用于构建用户界面的渐进式JavaScript框架 Vue可以自底向上逐层的应用: 简单应用:只需一个轻量小巧的核心库。 复杂应用:可以引入各式各样的Vue插件。 1.采用组件化模式,提高代码复用率、且让代码更好维护。 2.声明式编码,让编码人员…

使用Appuploader工具将IPA上传到App Store的最新流程和步骤

​ 苹果官方提供的工具xcode上架ipa非常复杂麻烦。用appuploader 可以在 mac 和windows 上制作管理 证书 ,无需钥匙串工具 条件:1.以Windows为例,创建app打包ios需要的证书和描述文件 2.准备好一个苹果开发者账号(如果没有到苹果…

C++ | unordered_map与unordered_set的用法指南

目录 前言 一、unordered_set 1、简介 2、构造相关函数 3、容量相关函数 4、修改与查找相关接口 5、迭代器 二、unordered_map 1、简介 2、构造相关函数 3、容量相关接口 4、迭代器、查找与修改相关接口 5、方括号接口 三、红黑树系列与哈希系列对比 前言 unorde…

SpringCloud(待续)

单体架构特点? 简单方便,高度耦合,扩展性差,适合小型项目。例如:学生管理系统 分布式架构特点? 松耦合,扩展性好,但架构复杂,难度大。适合大型互联网项目,例如:京东、淘宝 微服务:一种良好的分…

vue项目环境 搭建

1、安装nodejs 2、安装vue-cli, npm i -g vue/cli-init 3、初始化项目 vue init webpack test 4、运行 cd test npm run dev

【机器学习】西瓜书习题3.5Python编程实现线性判别分析,并给出西瓜数据集 3.0α上的结果

参考代码 结合自己的理解,添加注释。 代码 导入相关的库 import numpy as np import pandas as pd import matplotlib from matplotlib import pyplot as plt导入数据,进行数据处理和特征工程 得到数据集 D { ( x i , y i ) } i 1 m , y i ∈ { 0 ,…