mysql索引与优化问题

news2025/1/22 17:00:59

作为一个java程序员,mysql数据库面试应该是比较多的了;而关于数据库的面试,最多的就是性能问题,而以性能为起点,延伸出很多具体的问题。

我们使用第一性原理的方法来分析,为什么面试中一定会问数据库的索引问题。

数据的管理主要涉及到几个问题,数据的存储,使用以及安全等问题;那么为什么要使用数据库呢,文本文件通用可以实现数据等管理功能。

原因就是使用数据库管理数据,更加高效,简单,方便。

而随着现在互联网时代的发展,每天都会产生大量的数据,各大企业内部都存储了大量的用户,产品等相关的数据;

而怎么处理这些数据,怎么快速处理这些数据就成为了一个问题;所以,数据库技术就是其中比较重要的一个方面,而数据库的优化等问题,也理所当然的成为一个重要的问题。

数据库等性能优化主要涉及到以下几个方面:

1. sql语句的优化,主要是sql语句能命中索引,也就是索引的优化

2. 数据表结构的设计

3. 读写分离

3. 分库分表

从成本与效率来说,sql语句的优化 > 数据表结构的优化 > 读写分离 > 分库分表

从市场的实际情况来说,市面上大部分公司都是小型企业,并没有大型企业那种几十亿,甚至几百亿,千亿级别的数据量;所以对这些公司来说,主要使用的还是前两种方式,也就是数据表的设计,以及sql语句方面的优化;

1. sql语句优化

        sql语句的问题,本质上是索引的问题。

那索引到底是什么,为什么会有索引,索引解决了什么问题?

首先,索引的本质是一种数据结构,以常用的mysql为例,现在的mysql索引使用的是b+树,其本质是一种平衡二叉树,关于b+树的问题可以找一些数据结构的文章看一下。

至于为什么会有索引,以及索引解决了什么问题;

mysql数据库是一种关系型数据库,其数据库是由一张张数据表构成的;而数据表中会有一个一个的字段,也就是数据列;而每一行数据就是一条数据记录。

我们设想一下,如果没有索引会出现什么情况?

如下表所示,这就是一个典型的关系型数据库结构,里面存储了用户信息,包括编号,姓名和年龄。

编号姓名年龄
001张三30

而我们使用数据最常用的一个操作就是查询,比如查询张三的信息;而我们常规的查询方式是遍历,也就是查询这张表中所有的数据,然后进行匹配,匹配姓名叫张三的人。

而如果这个数据表中的数据很多怎么办,假如有几百万,几千万,甚至上亿的数据量;那么匹配起来要多长时间,而这在实际应用中是不被允许的;

所以,就有了索引的出现;所谓的索引就类似于字典和书籍的目录,我们可以根据目录更加快速的找到我们需要的内容。

而为什么说索引是一种数据结构呢?

就类似于书籍的目录,目录中有书本章节的标题,然后每个章节中还有小的节点,然后还有这些节点所在的页码。

同样,索引同样需要有数据的信息,以及数据所在的位置;比如,主键索引就会保存数据记录的主键id,以及当前数据所在的数据页。而保存这些索引的结构,就是b+树。

就像书本一样,内容是写在一页一页的纸上面;而数据库的数据保存在计算机的磁盘上面,而且也是通过页的方式进行保存的,这就是数据页。

而磁盘上的数据,需要加载到内存中才能使用;所以,如果没有索引的情况下,数据库查询数据时,就要每次加载一页数据到内存中进行匹配,如果没匹配到就继续从磁盘加载一页数据到内存,往复循环。

而我们知道,磁盘的io性能是很慢的, 而数据库性能瓶颈主要也在io上;所以,我们就要尽量减少数据库查询时io的次数。

而索引就解决了这个问题;就像我们看书一样,我们翻看书籍的目录,这样就可以直接找到内容所在的页数,直接翻到那一页,这样就不用频繁的io,提升了数据的查询效率。

为什么选择b+树作为索引的结构,那是因为b+树比较矮,比较胖,也就是说其节点层级比较少,这样最多三到四次的io就可以查到结果。具体的内容可以看一下为什么使用b+树作为索引的存储结构的文章。

而根据不同的索引类型,查询效率又不尽相同;比如,根据主键索引就可以快速定位的数据所在的位置;而普通索引,也叫二级索引可能会导致出现 回表 查询;

什么是 回表 查询?

回表查询就是,比如你使用姓名作为二级索引,这时b+树的非叶子结点上就保存的是用户的id和姓名;并不能直接查询到用户的信息。其具体流程是,根据姓名张三查找索引,在索引中查找到了一个或多个名字叫张三的人的信息,然后从这个信息中获取到了张三这个人的id,然后需要根据这个id 再次查询才能获取到用户的全部信息,比如性别,年龄,家庭住址等;

这个需要根据id再次查询用户信息的方式,就叫做回表,也就是要查询两次,第一次查询索引,第二次查询表数据。

也就是说二级索引并不能直接查询全部信息,需要通过id这个中间人,才能获取到用户的真实信息。而如果根据姓名查询到名叫张三的人有多个,这个可能需要多次回表查询才能得到真实的结果。

正常情况下,数据库会把我们写入的数据安装主键id进行排序,如果没有主键,那么就会把具有唯一索引的字段作为排序字段,如果这个字段也没有,那么mysql会自动给增加一个主键。

所以,如果使用主键排序的情况下,数据库会默认把我们写入的数据安装顺序排列在磁盘上,而且是连续的;这样根据局部数据原理,就能更快到找到所需要的数据;而如果我们使用uuid等随机数据作为主键,那么数据的存储就会东一个,西一个,导致数据读取的时候,出现随机读取,而在磁盘上,磁头就需要不断的“摇头”,也就是不断的去找磁盘上数据所在的位置。导致效率低下。

在mysql的索引实现中,数据库会把数据进行组队,比如1到5是一队,6到10是一队,这样在索引中就可以把每队最大值和最小值保存下来,这样查询的时候就可以使用二分法,判断当前数据是在那一队,这样更加快速的查询数据。而这些每队的节点就叫做——槽。

根据不同的实现方式,索引又分为主键索引,普通索引,联合索引,聚集索引,非聚集索引等。

而怎么分析sql语句是否命中索引,explain计划关键字,就可以查看当前sql语句的执行过程,以及是否命中索引,命中了那个索引。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1592097.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vox2vec论文速读

vox2vec: A Framework for Self-supervised Contrastive Learning of Voxel-Level Representations in Medical Images 摘要 本文介绍了 vox2vec——一种体素级表示的自监督学习 (SSL) 对比方法 vox2vec 表示由特征金字塔网络 (FPN&#xf…

每日OJ题_01背包③_力扣494. 目标和(dp+滚动数组优化)

目录 力扣494. 目标和 问题解析 解析代码 滚动数组优化代码 力扣494. 目标和 494. 目标和 难度 中等 给你一个非负整数数组 nums 和一个整数 target 。 向数组中的每个整数前添加 或 - ,然后串联起所有整数,可以构造一个 表达式 : …

LeetCode题练习与总结:最小路径和--64

一、题目描述 给定一个包含非负整数的 m x n 网格 grid ,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。 说明:每次只能向下或者向右移动一步。 示例 1: 输入:grid [[1,3,1],[1,5,1],[4,2,1]] 输出…

Zotero插件ZotCard中AI-NNDL文献笔记卡分享及卡片使用方法

一、卡片社区分享 github:ZotCard插件AI-NNDL论文卡片模板 Issue #67 018/zotcard (github.com) 二、卡片效果预览 ZotCard插件AI-NNDL论文卡片模板是关于人工智能神经网络与深度学习论文的笔记卡片,效果预览如下图: 三、卡片代码 经过了…

[CSS]使用方式+样式属性

层叠样式表(Cascading Style Sheets),与HTML一样,也是一种标记语言,其作用就是给HTML页面标签添加各种样式,定义网页的显示效果,将网页内容和显示样式进行分离,提高了显示功能。简单…

(Oracle)SQL优化案例:隐式转换优化

项目场景 项目现场的某个kettle模型执行非常缓慢,原因在于某个SQL执行效率非常的低。甲方得知此事要求公司赶紧优化,负责该模块的同事对SQL优化并不熟悉。所以作为一个立志成为优秀DBA的ETL工程师,我自告奋勇:不是DBA,…

4.2 面向对象程序设计-类的继承实验

本文仅供学习交流,严禁用于商业用途,如本文涉及侵权请及时联系将于24小时内删除 目录 1.实验内容 2.实验原理 2.1类的继承 2.2 继承的优点和缺点 2.3 继承的方式 3.实验代码 1.实验内容 创建一个父类CalcTime,在父类中依次定义用于保存…

Java基础(二)-- 面向对象

文章目录 第二章、面向对象一、类和对象1、基本概念1)什么是对象2)什么是面向对象3)什么是类4)什么是对象的属性和方法5)类和对象的关系 2、单一职责原则3、对象实例化1)Java内存管理之堆和栈 4、构造方法5…

js可视化爬取数据生成当前热点词汇图

功能 可以爬取到很多数据,并且生成当前的热点词汇图,词越大越热门(词云图) 这里以b站某个评论区的数据为例,爬取63448条数据生成这样的图片 让我们能够更加直观的看到当前的热点 git地址 可以直接使用,中文…

C++进阶03 模板与群体数据

听课笔记简单整理,供小伙伴们参考~🥝🥝 第1版:听课的记录代码~🧩🧩 编辑:梅头脑🌸 审核:文心一言 目录 🐳课程来源 🐋模板 🐋8.…

【刷题篇】回溯算法(三)

文章目录 1、全排列2、子集3、找出所有子集的异或总和再求和4、全排列 II5、电话号码的字母组合6、括号生成 1、全排列 给定一个不含重复数字的数组 nums &#xff0c;返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 class Solution { public:vector<vector<i…

太阳光光照试验耐久性老化试验使用太阳光模拟器系统

上海科迎法电气科技有限公司生产的太阳光模拟器系统主要应用于太阳能研究、材料研究、光伏组件测试、空间环境模拟器、植物生长研究、光热模拟等领域&#xff0c;主要表现特征为&#xff1a; 1. 太阳能研究&#xff1a;可用于模拟不同光照条件下太阳能电池的性能测试和研究&am…

Element ui 动态展示表格列,动态格式化表格列的值

需求 后台配置前端展示的表格列&#xff0c;遇到比如 文件大小这样的值&#xff0c;如果后台存的是纯数字&#xff0c;需要进行格式化展示&#xff0c;并且能控制显示的小数位数&#xff0c;再比如&#xff0c;部分列值需要加单位等信息&#xff0c;此外还有状态类&#xff0…

JavaEE初阶Day 7:多线程(5)

目录 Day 7&#xff1a;多线程&#xff08;5&#xff09;1. 死锁2. 死锁场景3. 场景二&#xff1a;两个线程&#xff0c;两把锁4. 场景三&#xff1a;N个线程&#xff0c;M把锁5. 避免死锁问题6. 内存可见性问题 Day 7&#xff1a;多线程&#xff08;5&#xff09; 回顾synchr…

每日一题---OJ题: 环形链表 II

片头 嗨! 小伙伴们,大家好! 我们又见面啦,在上一篇中,我们学习了环形链表I, 今天我们继续来打boss,准备好了吗? Ready Go ! ! ! emmm,同样都是环形链表,有什么不一样的地方呢? 肯定有, 要不然也不会一个标记为"简单" ,一个标记为"中等"了,哈哈哈哈哈 …

2024年MathorCup数学建模A题移动通信网络中PCI规划问题解题文档与程序

2024年第十四届MathorCup高校数学建模挑战赛 A题 移动通信网络中PCI规划问题 原题再现&#xff1a; 物理小区识别码(PCI)规划是移动通信网络中下行链路层上&#xff0c;对各覆盖小区编号进行合理配置&#xff0c;以避免 PCI 冲突、PCI 混淆以及 PCI 模3 千扰等现象。PCI 规划…

基于SpringBoot+Vue的毕业生学历证明系统(源码+文档+部署+讲解)

一.系统概述 快速发展的社会中&#xff0c;人们的生活水平都在提高&#xff0c;生活节奏也在逐渐加快。为了节省时间和提高工作效率&#xff0c;越来越多的人选择利用互联网进行线上打理各种事务&#xff0c;然后线上管理系统也就相继涌现。与此同时&#xff0c;人们开始接受方…

git submodule---同步最新的内容

0 Preface/Foreword 1 同步最新submodule内容到repo中 项目的repo包含了一个子模块&#xff0c;在开发过程中&#xff0c;经常需要同步子模块最新的commit到repo中。该如何操作呢&#xff1f; 本地在克隆时候&#xff0c;已经同步把子模块中的内容克隆下来了&#xff0c;但是…

Rust跨平台编译

❝ 如果你感觉自己被困住了&#xff0c;焦虑并充满消极情绪&#xff0c;生命出现了停滞&#xff0c;那么治疗方法很简单&#xff1a;「做点什么」。 ❞ 大家好&#xff0c;我是「柒八九」。一个「专注于前端开发技术/Rust及AI应用知识分享」的Coder 前言 之前我们不是写了一篇R…

潍微科技-水务信息管理平台 ChangePwd SQL注入漏洞复现(CNVD-2024-14945)

0x01 产品简介 水务信息管理平台主要帮助水务企业实现水质状态监测、管网运行监控、水厂安全保障、用水实时监控以及排放有效监管,确保居民安全稳定用水、环境有效保护,全面提升水务管理效率。由山东潍微科技股份有限公司研发,近年来,公司全力拓展提升水务、水利信息化业务…