分库分表理论总结

news2024/12/26 0:09:45

一、概述

分库分表是在面对高并发、海量数量时常见的数据库层面的解决方案。通过把数据分散到不同的数据库中,使得单一数据库的数据量变小来缓解单一数据库的性能问题,从而达到提升数据库性能的目的。比如:将电商数据库拆分为若干独立的数据库,并且对于大表来说也拆分为若干小表,通过这种数据库拆分的方法来解决数据库的性能问题。

数据库分布式核心内容无非就是数据切分(Sharding),以及切分后对数据的定位、整合。数据切分就是将数据分散存储到多个数据库中,使得单一数据库中的数据量变小,通过扩充主机的数量缓解单一数据库的性能问题,从而达到提升数据库操作性能的目的。

分库分表,顾名思义可以从两个角度来实现,一个是对数据库进行拆分,另一个是对表进行拆分。

二、分库

分库主要是解决高并发的瓶颈问题,由于和数据库实例建立连接会消耗资源,所以不可能无限的分配连接资源,当对数据库的访问的QPS比较高时,就会对数据库实例造成很大的压力,并同时降低数据查询效率 。MySQL 中,可以使用 max_connections 查看默认的最大连接数,当访问连接数过多时,就会导致连接失败,此时将对一个数据库实例的操作拆分成对多个数据库实例的操作能有效降低这种压力。

那如何进行分库呢?在微服务架构中,通常会按照业务对数据库进行拆分,将业务关联度低的表划分到不同的数据库中,关联度高的表划分到相同的数据库中,这一般和微服务实践的服务拆分同时进行。

三、分表

分表操作主要是为了解决数据量大的问题,但一张表中数据量过大,对该表的读写操作都会效率低下,这种情况可以对单表进行拆分操作。

通常意义上,单表行数超过 500 万行或者单表容量超过 2GB之后,才需要考虑做分库分表了。常见的拆分模式分为水平拆分和垂直拆分。

1.水平拆分

水平拆分是将原始表按照一定的规则或策略分为多张子表,每张子表的字段数量没有变化,但是总记录数降低了,这样能够提高读写的效率。

img

优点:

  • 不存在单库数据量过大、高并发的性能瓶颈,提升系统稳定性和负载能力
  • 应用端改造较小,不需要拆分业务模块

缺点:

  • 跨分片的事务一致性难以保证
  • 跨库的join关联查询性能较差
  • 数据多次扩展难度和维护量极大

一般水平拆分的策略包括:Hash取模拆分、按时间范围拆分、按空间范围拆分等。

2.垂直拆分

垂直拆分是将原始表的字段拆分成几组,分别用不同的子表来保存,适合单表中字段已经非常多的情况,相较于水平拆分,垂直拆分的记录数量不会变,但单表的字段减少。在对字段进行垂直拆分的时候,需要区分哪些字段是热点字段?哪些字段是不常访问字段?对于热点字段可以单独拆分成一张表单独访问。

img优点:

  • 解决业务系统层面的耦合,业务清晰
  • 与微服务的治理类似,也能对不同业务的数据进行分级管理、维护、监控、扩展等
  • 高并发场景下,垂直切分一定程度的提升IO、数据库连接数、单机硬件资源的瓶颈
  • 提升读写的效率,并能够降低死锁的概率。

缺点:

  • 部分表无法join,只能通过接口聚合方式解决,提升了开发的复杂度
  • 分布式事务处理复杂
  • 依然存在单表数据量过大的问题(需要水平切分)

在实际运用中,一般先考虑垂直拆分再考虑水平拆分,原因是水平拆分是将完整的记录被拆分到多表,需要解决多表关联查询等问题,而垂直拆分由于单表记录保存完整,只需要通过外键就能关联到子表,相对而言引入的问题更少。

Mysql本身也实现了分片存储的方案,将一张表分成N多个小表,分片是把一张表的数据分成N多个区块,这些区块可以在同一个磁盘上,也可以在不同的磁盘上。mysql的分表是真正的分表,一张表分成很多表后,每一个小表都是完整的一张表,都对应三个文件,一个.MYD数据文件,.MYI索引文件,.frm表结构文件。

四、常见问题

1.数据倾斜

通过Hash取模的方法解决数据倾斜的问题,对分片键进行Hash取模操作后再入库操作。

在使用Hash取模的方式对数据进行分片,当子表数量扩容后,所有老的数据再通过Hash取模可能都无法命中存储的子表,这种情况可以通过一致性Hash算法来解决。

一致性哈希可以按照常用的hash算法来将对应的key哈希到一个具有2^32次方个节点的空间中,形成成一个顺时针首尾相接的闭合的环形。所以当添加一台新的数据库服务器时,只有增加服务器的位置和逆时针方向第一台服务器之间的键会受影响。

img

2.跨节点多表关联查询

切分之前,系统中很多列表和详情页所需的数据可以通过sql join来完成。而切分之后,数据可能分布在不同的节点上,此时join带来的问题就比较麻烦了,考虑到性能,尽量避免使用join查询。

全局关联表

常见的思路是在每个节点上都维护一个单独的全局关联表,保存需要查询的多表关联关系。

冗余字段

另一种思路是维护冗余字段,用来关联其他表的主键信息。这是一种用空间换时间的思路。

3.跨节点分组和排序

对于跨节点的分组和排序操作,由于数据记录可能分散在不同的节点,一般是先读到内存中,再进行分组和排序操作。

4.分布式事务

参考《分布式事务》一文

5.分布式ID

参考《分布式ID》一文

五、总结

  1. 优先考虑对表中索引和SQL进行优化,再考虑通过分库分表来进行优化,原因是分库分表对架构变更过大,并且对业务的侵入性过高,并且会引入很多的衍生问题。

  2. 一般的分库分表实践步骤:根据容量(当前容量和增长量)评估分库或分表个数 -> 选key(均匀)-> 分表规则(hash或range等)-> 执行(一般双写)-> 扩容问题(尽量减少数据的移动)。


参考资料

  1. 再有人问你什么是分库分表,直接把这篇文章发给他:https://www.51cto.com/article/709614.html

  2. 大众点评订单系统分库分表实践:https://tech.meituan.com/2016/11/18/dianping-order-db-sharding.html

  3. MySQL分库分表方案:https://zhuanlan.zhihu.com/p/84224499

  4. 互联网公司常用MySQL分库分表方案汇总:https://cloud.tencent.com/developer/article/1713512

  5. 好好的系统,为什么要分库分表?:https://www.cnblogs.com/chengxy-nds/p/16924305.html

  6. 实战彻底搞清分库分表(垂直分库,垂直分表,水平分库,水平分表):https://cloud.tencent.com/developer/article/1819045

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1063841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机考研 | 2019年 | 计算机组成原理真题

文章目录 【计算机组成原理2019年真题45题-16分】【第一步:信息提取】【第二步:具体解答】 【计算机组成原理2019年真题46题-7分】【第一步:信息提取】【第二步:具体解答】 【计算机组成原理2019年真题45题-16分】 【第一步&#…

FreeTAKServer安装教程

项目地址 https://github.com/FreeTAKTeam/FreeTakServer 环境说明 FreeTakServer使用python开发,所以需要安装python,本教程安装的python版本为python3.11,系统为ubuntu 20.04 安装 安装FreeTakServer 安装FreeTAKServer pip install FreeTakServer启动Free…

Canvas--》使用Canvas完成基本绘图

&#x1f31f;Canvas介绍 <canvas>是一个可以使用脚本 (通常为javaScript) 来绘制图形的HTML元素。例如&#xff0c;它可以用于绘制图表、制作图片构图或者制作简单的动画。如上面效果示例就是使用 <canvas> 来实现示例&#xff0c;后续将一步步实现上面效果。 C…

HDLbits: ece241 2014 q4

module top_module (input clk,input x,output z ); reg [2:0] Q;always(posedge clk)beginQ[0] < Q[0] ^ x;Q[1] < (~Q[1]) & x;Q[2] < (~Q[2]) | x;z < ~(| Q[2:0]); //错误&#xff01;&#xff01;&#xff01;&#xff01;endendmodule 正确答案&#xf…

Python python-docx 使用教程

openpyxl是Python下的Word库&#xff0c;它能够很容易的对Word文档进行读取 安装方法&#xff1a;pip install python-docx国内镜像安装&#xff1a;pip install -i https://mirrors.aliyun.com/pypi/simple/ python-docx&#xff08;推荐&#xff0c;安装更快&#xff09;中文…

【算法】关于排序你应该知道的一切(下)

和光同尘_我的个人主页 单程孤舟&#xff0c;出云入霞&#xff0c;如歌如吟。 --门孔 八大排序 &#x1f56f;️前言1. 常见排序算法2. 常见排序算法实现2.1. 冒泡排序2.1.1. 基本思想2.1.2. 代码实现2.1.3. 特性 2.2. 快速排序2.2.1. hoare法基本思想代码实现 2.2.2. 快速排…

静图表情包怎么做成动态图?动图表情包制作教程

静态的图片不如动态的图片吸引人&#xff0c;动态的图片内容丰富、生动&#xff0c;体积小还易于传播保存。Gif格式动图其实就是由一帧一帧的图片合成的带有动态效果的图片。下面&#xff0c;给大家介绍一下动图gif制作&#xff08;https://www.gif.cn/&#xff09;的方法&…

asp.net班级管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net班级管理系统 是一套完善的web设计管理系统&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为vs2010&#xff0c;数据库为sqlserver2008&#xff0c;使用c#语言开发 asp.net班级管理系统 二、功能介绍 1…

操作系统和进程相关的认识

目录 冯诺依曼体系结构 冯诺依曼体系结构五大组成部分 为什么数据只能通过存储器进行输入和输出 操作系统 概念一&#xff1a;访问操作系统的请求都是通过系统调用完成的 操作系统如何管理用户信息 概念二&#xff1a;先描述&#xff0c;再组织。 进程的概念 在认识进行相关的知…

Java基础--泛型详解

一、背景 java推出泛型之前&#xff0c;集合元素类型可以是object类型&#xff0c;能够存储任意的数据类型对象&#xff0c;但是在使用过程中&#xff0c;如果不知道集合里面的各个元素的类型&#xff0c;在进行类型转换的时候就很容易引发ClassCastException异常。 二、概念 …

POJ 2104 K-th Number 平方分割(分桶法)

一、题目大意 长度为n&#xff08;n<100000&#xff09;的数组&#xff0c;进行m次查询&#xff08;m<5000&#xff09;&#xff0c;每次查询时&#xff0c;输入为 i j k&#xff0c;返回为数组 [i,j] 的分片里第k大数字&#xff08;1<i<j<n,k<j-i1) 二、解…

基于Java的校园自助洗衣系统设计与实现(源码+lw+ppt+部署文档+视频讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序&#xff08;小蔡coding&#xff09;有保障的售后福利 代码参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

python机器学习之梯度下降法

系列文章目录 第一章 Python 机器学习入门之线性回归 第一章 Python 机器学习入门之梯度下降法 梯度下降法 系列文章目录前言一、梯度下降法1.梯度下降法简介2.基本原理 梯度下降函数效果展示 前言 上一篇文章里面说到了用梯度下降法来对最小化代价函数和模型参数进行求解&am…

计算机网络八股

1、请你说说TCP和UDP的区别 TCP提供面向连接的可靠传输&#xff0c;UDP提供面向无连接的不可靠传输。UDP在很多实时性要求高的场景有很好的表现&#xff0c;而TCP在要求数据准确、对速度没有硬件要求的场景有很好的表现。TCP和UDP都是传输层协议&#xff0c;都是为应用层程序服…

八、【快速选择工具组】

文章目录 对象选择工具快速选择工具魔棒工具 对象选择工具 当我们选择对象选择工具时&#xff0c;需要先注意上边有一个循环的圆&#xff0c;它会进行内容识别&#xff0c;当识别完成会停止旋转。这个时候我们按住n键&#xff0c;或者将鼠标放上对应的图形时会出现选中的颜色。…

多实例学习MIL(easy / hard)

多示例学习&#xff08;Multiple Instance Learning&#xff09; - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/377220948 多示例学习 和弱监督&#xff08;weakly supervised&#xff09;有一定的关系&#xff0c;弱监督weakly supervised有三个含义&#xff08;或者说三…

ethercat EOE arp

1 网口设置 电脑地址位169.254.254.3 2 从站地址 3 PING 正常 异常 4 抓包

【方法】如何取消ZIP压缩包的密码?

我们知道&#xff0c;在压缩ZIP文件的时候&#xff0c;可以设置“打开密码”来保护压缩包&#xff0c;那后续不需要保护了&#xff0c;不想每次打开压缩包都输一次密码&#xff0c;要如何取消密码呢&#xff1f; 比较常用的方法是先把ZIP压缩包解压后&#xff0c;再压缩成没有…

铝合金分类及相关总结

1 铝合金常识 铝合金是工业中应用最广泛的一类有色金属结构材料&#xff0c;在航空、航天、汽车、机械制造、船舶及化学工业中已大量应用。对于常用的铝合金&#xff0c;我们通常根据其铝及其他元素的含量&#xff0c;将其分为两大类&#xff0c;分别是纯铝和铝合金。对这两大类…

网络安全行业真的内卷了吗?网络安全就业就业必看

前言 有一个特别流行的词语叫做“内卷”&#xff1a; 城市内卷太严重了&#xff0c;年轻人不好找工作&#xff1b;教育内卷&#xff1b;考研内卷&#xff1b;当然还有计算机行业内卷…… 这里的内卷当然不是这个词原本的意思&#xff0c;而是“过剩”“饱和”的替代词。 按照…