生产环境使用HBase,你必须知道的最佳实践

news2025/1/24 22:54:40

需要关注的一些最佳实践经验。

图片

**Schema设计七大原则 **

1)每个region的大小应该控制在10G到50G之间;

2)一个表最好保持在 50到100个 region的规模;

3)每个cell最大不应该超过10MB,如果超过,应该有些考虑业务拆分,如果实在无法拆分,那就只能使用mob;

4)跟传统的关系型数据库不同,一个HBase的表中列族最多不超过3个,列族中的列可以动态添加的,不要设计过多列族;

5)列族名必须尽量短,因为我们知道在存储的时候,每个keyvalue都会包含列族名;

6)如果一个表存在一个以上的列族,那么必须要注意,不同列族之间行数相差不要太大。例如列族A有10万行,而列族B有1亿行,那么rowkey就有1亿行,而region是按照行键进行切分的,因此列族A可能会被打散为很多很多小region,这会导致在扫描列族A时会引发较多IO,效率低下。

7)列族可以设置TTL时间,HBase在超过设定时间后,会自动删除数据。

设置方法有两种:

# 建表时设置,TTL单位为秒,此例中列簇’f1’的数据保留1天(86400秒)

hbase(main):002:0>create ‘table’, {NAME => ‘f1’, TTL => 86400}

# 通过修改表设置

hbase(main):002:0>alter ‘table’, {NAME => ‘f1’, TTL => 86400}

这里需要注意,一旦超过设定时间后,该数据就无法读取了,但是,真正的过期数据删除,是发生在major compaction时。

.

图片

**RowKey设计三大策略 **

HBase作为一个分布式存储数据库,虽然扩容非常容易,但是,对于“热点”问题,还是非常头疼的。

所谓“热点”问题(HotSpotting),就是请求(读或者写)短时间内落在了集中的个别region上,导致了该region所在机器的负载急剧上升,超过了单点实例的承受能力,从而引起性能下降或者不可用。

要解决这个问题,就需要设计RowKey时,使得数据尽量往多个region上去写。

举个例子:

假如region按照26个字母分成26个,那么同时写入m开头的rowkey的记录都会同时写入同一个region

比如m001,m002,m003,m004,m005。

因此,RowKey的设计非常关键。常见的设计策略有这么几种。

1)salting

salting策略就是将生成随机数放在行键的开头作为前缀,使得每个行键有随机的字典序。

对上面的案例进行优化,我们采用了salting策略,插入前给每个rowkey生成一个随机的字母,变成了

am001,zm002,nm003,qm004,lm005

这样就能同时往5个region里面写入了,成功打散。

副作用:由于前缀生成是随机的,因此如果想要按照字典序查询这些行,则需要做更多的事情。从这个角度上看,salting增加了写操作的吞吐量,却也增大了读操作的开销。

2)Hashing

Hashing策略也是一种特殊的salting,是用一个单向的 hash 来取代随机指派前缀。

这样能使一个给定rowkey的行在“salted”时有相同的前缀,因此,这样既可以分散RegionServer间的负载的,同时也允许在读操作时能够预测这个前缀值是什么。确定性hash( deterministic hash )可以让客户端重建完整的行键,然后就可以像正常一样用Get方法查询确定的行。

3)reverse key

第三种预防hotspotting的方法是反转一段固定长度或者可数的键,让变化最多的某个位置放在rowkey的第一位,

副作用:对于Get操作没有影响,但是不利于Scan操作进行范围查询,因为数据在原RowKey上的顺序已经被打乱。

图片

**预分区 **

在 HBase核心特性—region split 中,我们知道已经提到过关于预分区。

主要原因是当一张表被首次创建时,只会分配一个region给这个表。因此,在刚刚开始时,所有读写请求都会落在这个region所在的region server上,而不管你整个集群有多少个region server。不能充分地利用集群的分布式特性。

因此,预分区主要也是解决“热点”问题。

最为常见的建表语句为:

create ‘tb’,{NAME => ‘f1’,COMPRESSION => ‘snappy’ }, { NUMREGIONS => 50, SPLITALGO => ‘HexStringSplit’ }

  • NUMREGIONS 为 region的个数,一般按照每个region 8-10GB左右来计算region数量,如果集群规模非常大,那么region数量可以适当取大一些
  • SPLITALGO 为 rowkey分割的算法,Hbase自带了三种pre-split的算法,分别是 HexStringSplit、DecimalStringSplit 和 UniformSplit。

各种Split算法适用场景:

  • HexStringSplit: rowkey是十六进制的字符串作为前缀的,8个十六进制数前缀
  • DecimalStringSplit: rowkey是10进制数字字符串作为前缀的
  • UniformSplit: rowkey前缀完全随机, 使用一个长度为8的byte数组进行split。

图片

**读性能优化 **

前面主要讲一些设计方面的优化点。

那如果在HBase的使用过程中,发现查询较慢,那么就需要根据具体情况,分析查询慢的原因,并采取相应的策略。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/703071.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一次性供应商是否可以创建采购信息记录?

近期有读者提出这个问题。我的第一反应就是,为什么自己不试一下呢?如果不能,系统应该会有提示。不过反正我也好久没写了,找篇素材测试下,写写也好。 自行测试一下,在事务ME11中创建信息记录,选择…

基于java的助农在线商城的设计与实现(源码+展示视频+文档+报告)

电商助农受到了广泛的关注,已成为新时期农产品销售的主要发展路径。推进“互联网农业”的深入发展,是促进农业现代化发展的关键。助农在线商城基于Springboot框架Mysql数据库实现,以Jdk1.8Tomcat8为开发环境,实现一个基于Java开发…

【离群点检测算法】离群点|异常值 检测算法——局部离群因子LOF算法

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 离群点检测,理解起来也比较容易。 同学都考70分,你也考70分,可以。 同学都考90分,你考70分,不…

算法笔记——排序算法

👌,begin: 排序算法很重要,它可以使数据按照一定的规律进行排序,各个语言的代码都有自己的排序函数,那么排序到底有哪几种方法,✌,如下: 按照效率分类如上图&#xff1a…

为什么要提前报考CSPM项目管理专业人员能力评价

2021年10月,中共中央、国务院发布的《国家标准化发展纲要》明确提出构建多层次从业人员培养培训体系,开展专业人才培养培训和国家质量基础设施综合教育。建立健全人才的职业能力评价和激励机制。由中国标准化协会(CAS)组织开展的项…

《移动互联网技术》第八章 消息与服务:掌握不同类型广播监听方式,以及创建通知的方法

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1f33…

k8s中kubectl陈述式资源管理

陈述式管理资源的方法 1,陈述时资源管理集群资源的唯一入口是通过相应的方法调用的apiserver的接口 2,kubectl 是官方的ctl命令,用于与 apiserver 进行通信,将用户在命令行输入的命令,组织并转化为 apiserver 能识别…

基于Python+MySQL所写的智慧校园考试系统设计

点击以下链接获取源码资源: https://download.csdn.net/download/qq_64505944/87971718?spm1001.2014.3001.5503 《智慧校园考试系统》程序使用说明 在虚拟环境下输入命令“python manage.py runserver”启动项目,然后,访问“http://127.0.…

java之static关键字

本文是根据沉默王二前辈所发的一篇博客中所学到的 教妹学Java(二十六):static 关键字解析_java中static_沉默王二的博客-CSDN博客 1:static关键字比较难以理解,借用沉默王二前辈的一句话就是:方便在没有创建对象的情况下进行调用…

SpirngBoot测试

一、依赖 <spring-boot.version>2.4.2</spring-boot.version> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>…

给家里装监控将录像存储到nas中

文章目录 前言一、挑选合适的摄像头1.1、了解一下摄像头1.1.1、类别1.1.2、供电 1.2、配置摄像头 二、设置nas2.1、安装surveillance station2.2、配置群晖存储摄像数据2.3、使用体验 三、其他 前言 之前的房间太小&#xff0c;端午节换到对面小区去住了&#xff0c;每月贵了2…

AirServer手机投屏电脑工具好不好用?有哪些功能优势

在日常生活和工作中&#xff0c;我们常常需要将手机屏幕投屏到电脑上&#xff0c;一般都是通过连接数据线或是电脑与手机上同时下载某款软件来实现。这样操作起来非常麻烦&#xff0c;而且无法实现多画面投屏以及跨设备投屏的需求。 AirServer是适用于Mac和PC的先进的屏幕投屏…

conda、python与人工智能学习过程中的一些基础性问题

一个不知名大学生&#xff0c;江湖人称菜狗original author: Jacky LiEmail : 3435673055qq.com Time of completion&#xff1a;2023.6.30 Last edited: 2023.6.30 目录 pip install XXX与conda install XXX的区别 conda install xxx pip install xxx 为什么要建立虚拟环境…

TinyViT: 一种高效的蒸馏方法

目录 背景方法大意快速预训练蒸馏(Fast Pretraining Distillation, FPD)如何实现快速三个细节深入理解FPD 模型架构训练trick预训练参数配置&#xff08;Imagenet21k-pretraining&#xff09;finetuning 参数配置&#xff08;Imagenet-1k&#xff09; 消融实验**Q: 数据是否越多…

mysql ——基本约束以及语法 以及 Dbeaver基本使用

1. 规约 说到约束&#xff0c;就不得不想到命名规范&#xff0c;跟java一样&#xff0c;mysql也有一套自己的命名要求 库名尽量与业务名称一致&#xff0c;比如这是一个办公系统&#xff0c;你可以命名 将数据库命名为office, 多个单词组成全小写 例如&#xff1a;officeoa 表…

《Linux操作系统编程》第一章 操作系统引论:了解操作系统的发展、特征、功能以及操作系统结构

&#x1f337;&#x1f341; 博主 libin9iOak带您 Go to New World.✨&#x1f341; &#x1f984; 个人主页——libin9iOak的博客&#x1f390; &#x1f433; 《面试题大全》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33…

如何查看Navicat已保存数据库连接的密码?

此教程的背景&#xff1a;数据库密码忘记了&#xff0c;但是在Navicat连接过且目前能连接上的状态&#xff01; 1.导出数据库连接 connections.ncx 文件 选择你要导出密码的数据库连接&#xff0c;切记要勾上导出密码 2.使用文本编辑工具打开导出的connections.ncx 文件 找到…

Android SDK安全加固问题与分析

作者 | 百度APP技术平台 导读 在移动互联网快速发展的背景下&#xff0c;保护Android应用程序的安全性和知识产权变得尤为重要。为了防止恶意攻击和未授权访问&#xff0c;通常采用对dex文件进行代码加固来保护应用程序。随着Android加固技术经过动态加载、不落地加载、指令抽取…

SSM整合 配置文件

<?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://ma…

宇宙是一位高位截瘫的病人

【一点小爱好&#xff0c;喜欢了解一些天文和物理】 宇宙中最快的速度——光速。 在真空中可以达到每秒30万千米&#xff0c;这个速度是什么概念呢&#xff1f;光一秒钟就可以绕地球7.5圈&#xff0c;一秒钟就可以从地球到月球。 但这个速度还是太慢了。太阳发出的光要整整走…