MySQL单表千万级数据查询优化大家怎么说(评论有亮点)

news2024/11/25 13:24:09

在这里插入图片描述

题图来自APOD

上次写了一篇MySQL优化实战的文章“MySQL千万级数据从190秒优化到1秒全过程”。

这篇文章主要还是在实战MySQL优化,所以从造数据到查询SQL优化SQL都没有业务或者其它依赖,优化的技巧也不涉及软件架构就是纯SQL优化。

由于笔者经验有限和篇幅限制没有展开讲很多细节,其中有很多争议的地方也在原帖进行了回复。

通过大家的讨论学习到很多东西。有句话在技术学习这块说的挺好,“一个人走的慢,一群人走的快”。通过讨论可以发现MySQL千万数据的全貌大概是怎样的。

以下enjoy~

千万数据的信息

原帖中实际产生的数据量有1500W行数据,以下基于此说明。

名称说明
行数1500W
磁盘大小字段少,接近2GB
单表查询时间查询快
关联查询时间查询很慢

《阿里巴巴Java开发手册》有这么一条规约:

【推荐】单表行数超过 500 万行或者单表容量超过 2GB,才推荐进行分库分表。
说明:如果预计三年后的数据量根本达不到这个级别,请不要在创建表时就分库分表。

千万级数据在互联网公司是推荐分表的。笔者从事的传统行业千万级的大表还是很常见的~

笔者由此得出“千万级数据对于MySQL来说就是不太合理的一个存在”,至于是否合理也是仁者见仁智者见智了~

怎么优化的

  • 怼索引
  • 怼覆盖索引
  • 小表驱动大表
  • 强制索引
  • 减少数据量

优化技巧中,其中有的有效、有的没效果。

尤其是很多优化技巧涉及到千万级才会出现,也就是隐藏技巧,比如强制索引。最实用的还是覆盖索引。

有些技巧只是提及没有实际操作。以后会按照这种方式展展开写,欢迎关注。

大家怎么说

反向逻辑的

方向操作主要就是反PUA了,虽然写的文章水平一般,但是这波方向操作我是佩服的~
虽然技术确实能实现需求,但常在职场主打的一个就是身心愉悦~

  • 软件层面优化不了,那就交给硬件,硬件层面优化不了,那就交给人力

  • 你记住代码和人有一个能跑就行

  • 老板说,优化不了代码我们就优化需求,优化不了需求我们就优化客户

  • 千辛万苦优化到1秒,领导来了一句:“谁让你这么改的?给我改回去!”

  • 哈哈哈,甲方还没提需求,你就给我优化了,谁给钱啊

  • 迟早都是Oracle收割的韭菜

  • 我有5亿钱包数据,怎么优化都打不到秒出!

反对的

这个意见没毛病,千万数据在MySQL也很常见。
但是笔者在阿里云做过验证,配置是8核心16G内存,同样的脚本在阿里云MYSQL中验证最少还是需要3s+
单机MYSQL千万数据看来确实是很多业务无法允许的瓶颈了~

  • 哈哈,需求从“统计每个用户的订单总额”,变成“统计某几个用户的订单总额”,你小子是懂优化的

  • 优化不了就改需求是吧?优化思路是不对的,最后输出结果都不一样了

  • 抛开需求谈设计就是耍流氓…

  • 最后一部分,真 到了一秒

  • 单表千万数据量没什么不合理的,一次group by出所有的用户不分页才不合理。

  • 那是你们家的mysql支持不了单表1000w。我们家的可以,而且速度还很好。

支持的

主打的就是实战优化技巧,希望多多输出学习输出实战才能闭环增长呢

  • 本身这种全量查询大量数据的需求就不合理,当然是要优化业务了

  • 虽然但是哈哈哈哈 但是你这个文章给出的SQL和存储过程都可以直接使用并且调试步骤都有,拿来试试玩玩涨涨操作知识也挺好的呀~ 支持~

技术类的

这部分讨论主要停留在技术层面,软件硬件优化还是有很多的,可以看出平台里面还是很多潜水大牛的~

  • 我记得mysql的join缓冲区,有个设置,调大点,join效率会有明显提升

  • 是的 但是一般都有自适应

  • 数据库级别优化本来就是有极限的,最终都得靠应用级别优化

  • 个人习惯先用小表驱动大表, 添加索引和减少数据量进行优化。因为覆盖索引添加了查询的列很多时候只优化了当下的查询,但如果有很多相类似的sql要查询就很容易创建越来越多列,查询时间又没有减少

  • 千万级的数据量得用分库分表,还要用缓存,光索引是没有用的,在想啥呢

  • mysql适合互联网科技服务的业务场景,就是用户只看自己的数据,联表业务场景不多的情况。要是来一个传统企业级数据场景就难搞了,比如银行流水数据,企业内部财务订单数据,几个千万级的大表级联就很慢很慢了,这时候还是推荐上oracle和sqlserver商业数据库了,再不济也得来个pg。免费mysql存储海量数据的代价是人员成本高,硬件授权虽贵,但现在开发人员工资也不低。

  • 之前测试过阿里云的mysql,8c16g ssd 配置,1.2亿条数据 查询 23 毫秒,感觉阿里云有点厉害

  • 同样的脚本在阿里云MYSQL中验证最少还是需要3s+~配置是8核心16G内存,单机MYSQL千万数据看来确实是很多业务无法允许的瓶颈了~

  • 首先,MySQL千万数据,在MySQL8.0以上的版本默认配置下轻松驾驭。除非你是7年以上的老服务器,或者是虚拟机,或者你本地点测试。分区优化后,2000万性能损失也不大。隔壁部门单表5000万了,还在叠加。另外,文章整体不错,点赞!还有,分表慎用,切勿只为数据分流而分表。

  • 还有物理配置也算一个

  • MySQL没碰到,二十多年前,在Oracle上遇到,新系统,全系统初始化库存的时候,同事写的脚本,要执行六个小时,调整了下,大概不到二十分钟。

他山之石

文章确实还有很多完善的地方,比如硬件配置是性能测试的基准没有体现出来。

MySQL千万数据究竟大吗?结论是大但不是天花板。

不是关系型数据库的天花板也不是软件优化的天花板。

但是怎么说,MySQL作为被Oracle收购的一个开源软件,更像是一个弃子一样,所以各大云服务厂商都优化和迭代了MySQL,性能好很多~

软件的分层设计很重要,缓存、软件、代理、持久化每个环节的综合设计可以让软件很能打,平摊各个环节的取舍也就降低了风险~

关于作者

来自一线全栈程序员nine的探索与实践,持续迭代中。

欢迎评论、点赞、收藏、关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1892986.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AGI 之 【Hugging Face】 的【Transformer】的 [ Transformer 架构 ] / [ 编码器 ]的简单整理

AGI 之 【Hugging Face】 的【Transformer】的 [ Transformer 架构 ] / [ 编码器 ]的简单整理 目录 AGI 之 【Hugging Face】 的【Transformer】的 [ Transformer 架构 ] / [ 编码器 ]的简单整理 一、简单介绍 二、Transformer 三、Transformer架构 四、编码器 1、自注意…

【flutter问题记录】 无效的源发行版:17

问题描述 在看开源项目的时候,clone下来后一直编译失败,提示:无效的源发行版:17,看描述大概是jdk的版本问题,但是在Android studio各种指定都无用,网上资料也没有flutter项目的解决方案,最后在…

智源十大行业高质量数据集开放申请,经验证可显著提升模型行业能力!

近日,智源研究院非开源、高质量行业预训练数据集开放申请。该数据集覆盖医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻、农业十大行业,总量达597GB。 智源研究院对较难获取的非开源高质量数据、合作伙伴贡献的数据、有行业特征的开源数据进行了…

深度分析和对比本地大语言模型Ollama和LocalAI

前言 在充满活力的人工智能(AI)世界中,开源工具已成为开发人员和组织利用LLM(大型语言模型)力量的重要资源。这些工具通过提供对高级LLM模型的访问权限,使各种用户能够构建创新和前沿的解决方案。在众多可…

【Python】变量与基本数据类型

个人主页:【😊个人主页】 系列专栏:【❤️Python】 文章目录 前言变量声明变量变量的命名规则 变量赋值多个变量赋值 标准数据类型变量的使用方式存储和访问数据:参与逻辑运算和数学运算在函数间传递数据构建复杂的数据结构 NameE…

【博客21】缤果Qt5仿小米耳机APP布局_PC端软件(高级篇)

小米耳机 提示:此软件只是实现简单的布局和界面跳转逻辑,并未加入小米协议相关内容 因需要鉴权方式等也无法进行通讯处理开发工具::qt-opensource-windows-x86-5.14.2 (编程语言C) 反编译工具: apktool 小米小爱开放平台 - 语音服务平台 - 文档中心 …

聚焦大模型应用落地,2024全球数字经济大会人工智能专题论坛在京举办

7月1日下午,2024全球数字经济大会人工智能专题论坛在中关村国家自主创新示范区会议中心举办。论坛紧扣大模型应用落地这一热点,以“应用即未来——大模型赋能千行百业,新生态拥抱产业未来”为主题,备受社会各界关注。 一、北京已…

Docker镜像加速配置

由于当前运营商网络问题,可能会导致您拉取 Docker Hub 镜像变慢,索引可以配置阿里云镜像加速器。阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台 每个人镜像地址都不一样,需要登陆阿里云自行查看,地址在上面&a…

底层软件 | Linux设备驱动模型和sysfs文件系统

Linux设备驱动模型和sysfs文件系统 Linux内核在2.6版本中引入设备驱动模型,简化了驱动程序的编写。Linux设备驱动模型包含设备(device)、总线(bus)、类(class)和驱动(driver),它们之间相互关联。其中**设备(device)和驱动(driver)通过总线(bus)**绑定在…

检测水管缺水的好帮手-管道光电液位传感器

管道光电液位传感器是现代清水管道管理中的重要技术创新,不仅提高了检测液位的精确度,还解决了传统机械式和电容式传感器存在的诸多问题,成为检测管道缺水的可靠利器。 该传感器采用先进的光学感应原理,利用红外光学组件通过精密…

2024源代码加密软件评测丨保护企业源代码防泄密

为什么需要对源代码进行加密?因为源代码泄密可能会带来一系列严重的后果: 源代码泄密会导致企业的知识产权被盗窃,竞争对手可能会利用这些代码开发类似的产品,从而削弱公司的市场竞争力。 由于知识产权被盗,公司可能会…

【机器学习】机器学习与医疗健康在疾病预测中的融合应用与性能优化新探索

文章目录 引言第一章:机器学习在医疗健康中的应用1.1 数据预处理1.1.1 数据清洗1.1.2 数据归一化1.1.3 特征工程 1.2 模型选择1.2.1 逻辑回归1.2.2 决策树1.2.3 随机森林1.2.4 支持向量机1.2.5 神经网络 1.3 模型训练1.3.1 梯度下降1.3.2 随机梯度下降1.3.3 Adam优化…

【c++】C++ IO流

本专栏内容为:C学习专栏,分为初阶和进阶两部分。 通过本专栏的深入学习,你可以了解并掌握C。 💓博主csdn个人主页:小小unicorn ⏩专栏分类:C 🚚代码仓库:小小unicorn的代码仓库&…

使用Vue CLI方式创建Vue3.0应用程序

Vue CLI 是一个基于 Vue.js 进行快速开发的完整系统。新版本的 Vue CLI 的包名由原来的 vue-cli 改成了 vue/cli。 在开发大型项目时,需要考虑项目的组织结构、项目构建和部署等问题。如果手动完成这些配置工作,工作效率会非常低。为此,Vue.…

嵌入式Linux系统编程 — 6.5 获取信号的描述信息

目录 1 strsignal()函数 2 psignal()函数 在 Linux 下,每个信号都有一串与之相对应的字符串描述信息,用于对该信号进行相应的描述。这些字符串位于 sys_siglist 数组中, sys_siglist 数组是一个 char *类型的数组,数组中的每一个…

《软件需求》读书笔记

商业的本质是供需和交换。软件行业也一样,生产别人所需要的软件并获得相应回报,就是成功。《软件需求》这本书是一本软件需求领域的工具书,很全面且具体,可以跳读。 在我所工作或了解的软件公司中,发现不论是初创企业…

一个R包完成单细胞基因集富集分析 (全代码)

singleseqgset是用于单细胞RNA-seq数据的基因集富集分析的软件包。它使用简单的基础统计量(variance inflated Wilcoxon秩和检验)来确定不同cluster中感兴趣的基因集的富集。 Installation library(devtools) install_github("arc85/singleseqgse…

heic文件怎么转换成jpg?苹果手机照片格式heic怎么改jpg?2024新软件!

HEIC作为一种苹果设备的特殊独有图片格式,以其高效节省存储空间的特性,迅速成为苹果手机用户的首选。然而,对于非苹果用户或需要在Windows系统上查看这些照片的用户来说,HEIC格式却带来了诸多不便。因此,本文将详细介绍…

MySQL的安装和环境配置

1.下载MySQL安装MySQL 选Custom选项为高级自定义模式 2.配置MySQL环境 安装好之后,在桌面右键点击我的电脑(有些是此电脑),然后点击属性,进入系统信息设置,接着点击高级,进入环境变量界面,进入环境变量界面…

MySQL 如何实现将数据实时同步到 ES ?

引言:在现代应用程序开发中,通常会将数据存储在 MySQL 中,用于事务性处理和数据持久化。而 Elasticsearch(ES)则是一种专门用于全文搜索和分析的强大工具。将这两者结合使用的一个常见需求是实时将 MySQL 中的数据同步…