顶级大厂Quora如何优化数据库性能?

news2025/1/22 12:28:41

Quora 的流量涉及大量阅读而非写入,一直致力于优化读和数据量而非写。

0 数据库负载的主要部分

  • 读取
  • 数据量
  • 写入

1 优化读取

1.1 不同类型的读需要不同优化

① 复杂查询,如连接、聚合等

在查询计数已成为问题的情况下,它们在另一个表中构建了计数,以便它们可以直接读取计数值而非计算计数。

② 大型扫描

他们使用 LIMIT 改变它或使用分页

③ 模式与查询之间不匹配

若:

  • 无很好的索引
  • 或索引没有足够的列
  • 或索引中的列顺序对查询来说不是最佳

则查询可能很慢,可能对数据库造成很大负载。

这种情况下,通常会修改索引以对查询进行优化。 有时查询也可修改以对索引进行优化。如:

  • 删除 select 子句中不必要的列(特别是索引中不存在的列)
  • 删除 order by 子句,改为在客户端上排序(MySQL CPU 一般比客户端 CPU 更宝贵)
  • 若该查询提供的功能不再重要,可完全删除查询

1.2 高 QPS 查询

即使使用了优化的 SQL 和良好的模式,高 QPS查询也给数据库带来很大负载。有时可能表示缓存效率低下(甚至没缓存)。

① 低效的缓存是否导致了高 QPS 查询?

缓存通常用于减少数据库 QPS。缓存键的选择可以极大地影响缓存的效率:

  • 若缓存键过于具体或狭窄,可能导致数据库出现高 QPS
  • 若缓存键太宽泛,每次查询都会从数据库中拉取大量数据
② 对用户语言表的查询

我们有一个表跟踪用户使用的语言信息。通常会查询数据库以查看用户 U 是否使用语言 L。使用(uid,language_id)作为缓存键看起来合理。如缓存未命中,将为该 uid 和 language_id 查询数据库表。

因此,将缓存键更改为仅使用 uid 确实有意义,缓存值将是有关用户使用的所有语言的信息。

以上述方式更改缓存键,会增加从库表中每次查询获取的数据量,但它将 QPS 减少超过 90%。大多数用户只使用一或几种语言。 因此,大多数情况,新的查询并没有拉取比以前更多的数据,这是一个显然的优化!

③ 查询 A2A(ask to answer)表

这里我们处理 3 个实体间的关系,即用户(谁提问或关注问题)、问题和回答者,这比 2 个实体之间的关系更不常见。

通常产品逻辑是查询:

  • 用户已请求过的所有回答者,使用缓存键 (question_id, user_id)
  • 请求过相同回答者回答一个问题的所有用户,使用缓存键 (question_id, answerer_id)

综上,A2A 表的 QPS 非常高,这意味着上述缓存效果并不明显。上述两个缓存都在使用 2 个实体作为缓存键question_id 和 user_id(可以是提问者或回答者)。

潜在缓存键数量巨大,因为它是问题数和用户数的乘积,其中只有很少的组合实际上在表中有数据。所以它可看作一个稀疏的数据集,有2维。

大多数问题的 A2A 请求数量相对较少,但有少数问题的 A2A 数量要多得多。因此,添加额外缓存,该缓存包含问题的 A2A,最多限制为 N 个,以便我们捕获大多数问题。 该缓存的键只是 question_id。 如缓存列表大小小于N,我们知道缓存是完整的。 否则,缓存不完整,我们不会使用缓存。

这额外缓存帮助显著减少 A2A 表上的 QPS(在 50% 到 66% 的范围内)。 还对产品逻辑进行了其他更改,以提高效率,但 QPS 的减少大部分来自额外缓存。

1.3 一维数据集中的稀疏数据

Quora 在缓存方面经常遇到的另一个问题是:稀疏一维数据集。如可能需要查询数据库,看某问题是否需重定向到另一问题(如同一个问题被重新发布,就可能发生这种情况)。

绝大多问题不需要重定向,所以 Quora 只会获取几个“重定向”,而大量“不重定向”。

当他们只是缓存了 question_id ,缓存中就会填满不用,只有几个重定向。 这在缓存中占用大量空间,且由于“重定向”数量如此稀疏,也会导致大量缓存未命中。

相反,他们开始缓存范围。 如 question id 123–127的任一问题都没重定向,那么他们会将该范围缓存为所有问题均为 No,而不是缓存每个单独的 question id。

这大大降低此类查询的数据库负载,QPS 下降 90%。

2 优化表占用空间

由于以下几个原因,表大小很重要:

  • 存储更多数据的成本更高
  • 随表增长,适应数据库缓冲池的数据百分比会变小,即IO会逐渐增加,性能会逐渐下降
  • 备份和恢复时间会随表大小线性增长。虽然备份是从 MySQL 副本完成的,但我们也会从副本读数据。在备份期间,MySQL副本性能略有下降
  • 随表增长,备份大小也在增长,导致备份存储成本随时间增长

显然,对不需要永久存储的数据,制定最佳保留策略有助减少表大小 —— 使用 MyRocks 减少表大小

  • 有一些表对于表所有者来说无法接受任何数据的删除。为此研究使用 MyRocks 来减小空间使用
  • MySQL 中的表可能使用更复杂的模式和查询。 所以他们希望谨慎使用 MyRocks。 作为分片项目的一部分,已对 MySQL 中最大的表进行分片,这是在 MySQL 在 Quora 的分片中记录
  • 此表是基于自增列范围进行分片的,与基于时间的分片接近,因为自增列值随时间增加
  • 大多数查询访问最近的分片。 包含 18 个月以上旧数据的较旧分片对日常业务相对不太关键

因此,他们决定按如下方式将较旧的分片移至 MyRocks。 有个工具可将 MySQL 表从一个 MySQL 主服务器移动到另一个主服务器。 每个分片实际上是一个 MySQL 表。 他们能够使用该工具按如下方式将包含旧数据的 MySQL 分片转换为 MyRocks 分片:

  • 在 MyRocks 主服务器上使用相同的模式创建一个新的空表,但使用 RocksDB 存储引擎
  • 使用该工具复制数据并从 MySQL 主服务器重放binlog(二进制日志)到 MyRocks 主服务器。 (该工具已被修改为跳过在目标主机上创建表,因为它已经在前一步中创建过。)
  • 执行阴影读取测试以验证 MyRocks 分片返回的结果与 MySQL 分片的结果相同。
  • 将流量切换到 MyRocks 分片。 (这类似于我们在将 MySQL 表从一个 MySQL 主服务器移动到另一个 MySQL 主服务器时执行的切换。 源主机上的表被重命名以停止新写入,然后在重放赶上后,该表的流量会切换到目标主机。)
  • 对于非键值存储表使用 MyRocks 是我们的一个重大举措。 根据表的不同,空间使用量的减少也有差异。 对于上面提到的第一个表,我们看到每个已移动的分片使用的空间减少了 80% 以上! 对于第二个表,我们看到每个已移动的分片使用的空间只减少了约 50-60%

3 优化写入

有时复制延迟警报,因为 MySQL复制默认情况下会在副本上串行重放主服务器上的并发写。在主服务器上并行写入而在副本上串行重放写入并不适合扩展写入,特别是如果他们使用带多核 CPU 的机器。

MySQL 提供两种方法实现这点,如下所述。两种方法中都需使用 slave_parallel_workers 配置并行度。

  1. slave_parallel_type=LOGICAL_CLOCK(从 MySQL 8.0.26 开始为 replica_parallel_type)
  • MySQL 5.7开始可用。即使所有表都在同一逻辑数据库中,它也可以在副本上并行执行写。
  1. slave_parallel_type=DATABASE(从 MySQL 8.0.26 开始为 replica_parallel_type)
  • 这需要表位于多个逻辑数据库中才能并行执行写
  • 增强存储在 zk 中的数据库配置,以跟踪表所在的逻辑数据库。将此信息保存在 zk 而非代码库或静态配置中,允许动态更改现有表的逻辑数据库。大多数表都位于默认逻辑数据库,因此只需要为不在默认逻辑数据库中的表保留此信息
  • MySQL alter table 语句可用于更改表的逻辑数据库,如 alter table <logical_db1>.table rename <logical_db2>.mytable。 它不复制数据,只是将底层 ibd 文件从一个目录移动到另一个目录,速度很快。移动表后,我们还会在 zk 更新数据库配置,以便应用程序可找到该表
  • 他们将一个表移动到其自己的逻辑数据库并启用并行复制。有助减少包含该表的 MySQL 副本上的复制延迟。

4 结论

学习了世界级大厂如何使用各种技术的组合来优化数据库中的读取、写入和空间使用。你们公司如何优化的呢?欢迎和我一起交流。

参考:

  • https://www.percona.com/blog/scaling-mysql-a-good-problem-to-have

    本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1268659.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代理模式,dk动态代理,cglib动态代理

目录 一、代理模式1、生活中代理案例2、为什么要使用代理3、代理模式在Java中的应用4、什么是代理模式 二、代理的实现方式1、java中代理图示2、静态代理 三、动态代理1、概述2、JDK动态代理jdk动态代理原理分析 3、Cglib动态代理3.1 基本使用3.2 cglib基本原理 一、代理模式 …

【长文干货】Python可视化教程

文章目录 数据介绍Matplotlib散点图折线图柱形图直方图 Seaborn散点图折线图柱形图直方图 Bokeh散点图折线条形图交互式 Plotly基本组合优化&#xff1a;定制化下拉菜单 总结 数据介绍 在这个小费数据集中&#xff0c;我们记录了20世纪90年代初期餐厅顾客在两个半月内给出的小…

基于SSM框架的图书馆管理系统设计与实现

基于SSM框架的图书馆管理系统 摘要&#xff1a;在21信息时代中&#xff0c;编程技术的日益成熟&#xff0c;计算机已经是普通使用的。编程技术的实现是基于计算机硬件上&#xff0c;计算机科学与技术的进步&#xff0c;让时代发展的更快&#xff0c;更加信息化。人们都是学习如…

Http协议(Hyper Text Transfer Protocol)

Http协议(Hyper Text Transfer Protocol) 这是一种超文本传输协议&#xff0c;规定了浏览器与服务器中间数据传输的规则 特点&#xff1a; 基于TCP协议&#xff1a;面向连接&#xff0c;安全基于请求-响应模型&#xff1a;一次请求对应一次响应http协议是无状态的协议&#…

【MYSQL】表的基本查询

目录 前言 一、Create&#xff08;增&#xff09; 1.单行数据 全列插入 2.多行数据 指定列插入 3.插入否则更新 4.替换 二、Retrieve&#xff08;查&#xff09; 1.select列 1.1全列查询 1.2指定列查询 1.3查询字段为表达式 1.4为查询结果指定别名 1.5结果去重 …

班主任每日工作流程

以下是班主任的每日工作流程&#xff0c;虽然每天的工作都很繁琐&#xff0c;但是为了学生的成长和发展&#xff0c;班主任们必须认真履行职责&#xff0c;用自己的爱心和责任心去呵护每一个学生。 早晨7&#xff1a;30到校&#xff0c;组织学生打扫卫生&#xff0c;检查学生作…

python基础练习题库实验7

文章目录 题目1代码实验结果题目2代码实验结果题目3代码实验结果题目总结题目1 编写代码创建一个名为Staff的类和方法__init__,以按顺序初始化以下实例属性: -staff_number -first_name -last_name -email 代码 class Staff:def __init__(self, staff_number, first_name,…

【java】图书管理系统

完整代码链接&#xff1a;https://gitee.com/zeng-xuehui/Java_repository/tree/master/test_11_27_1/src我们在写这个系统时&#xff0c;首先需要搭建框架&#xff0c;再实现业务逻辑&#xff1b;图书管理系统是用户通过各种功能对图书进行操作的一个系统&#xff1b;我们需要…

配电网重构单时段+多时段(附带matlab代码)

配电网重构单时段多时段 对于《主动配电网最优潮流研究及其应用实例》的基本复现 简介&#xff1a;最优潮流研究在配电网规划运行中不可或缺&#xff0c;且在大量分布式能源接入的主动配电网环境下尤为重要。传统的启发式算法在全局最优解和求解速度上均无法满足主动配电网运行…

基于字面的文本相似度计算和匹配搜索

搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术…

处理跨域问题

这里只讨论后端对跨域支持,前端的跨域支持一般都是在测试阶段用用的,跨域还是要后端解决 跨域问题的产生:浏览器的一种安全机制-->同源策略限制 同源策略:URL中包括协议&#xff0c;域名&#xff0c;IP&#xff0c;端口都要完全相同&#xff0c;如果有一项不同&#xff0c;浏…

【Vulnhub靶机】lampiao--DirtyCow

文章目录 漏洞介绍简介原因类型版本危害 信息收集主机扫描端口扫描 漏洞探测漏洞利用权限提升nc文件传输编译 参考 靶机地址&#xff1a;lampiao 下载地址&#xff1a;Lampio: 1 漏洞介绍 简介 脏牛&#xff08;Dirty Cow&#xff09;是Linux内核的一个提权漏洞&#xff0c;…

【Python】SqlmapAPI调用实现自动化SQL注入安全检测

文章目录 简单使用优化 应用案例&#xff1a;前期通过信息收集拿到大量的URL地址&#xff0c;这个时候可以配置sqlmapAP接口进行批量的SQL注入检测 &#xff08;SRC挖掘&#xff09; 查看sqlmapapi使用方法 python sqlmapapi.py -h启动sqlmapapi 的web服务&#xff1a; 任务流…

Linux常用命令——rm 命令

文章目录 Linux系统中的rm命令是一个非常强大且危险的工具&#xff0c;用于删除文件和目录。由于其具有不可逆的特性&#xff0c;了解其参数和正确使用非常重要。 1. 基本用法 rm命令的基本格式是rm [选项] 文件或目录。不带任何选项时&#xff0c;rm命令仅删除文件。 示例&a…

计算机图形学:直线的扫描转换算法解析与实现

直线的扫描转换&#xff1a; DDA算法&#xff1a; 推理&#xff1a; 在计算机显示图形时&#xff0c;由于显示计算机的分辨率是有限的所以我们在绘制图形时需要将图形从连续量转换成离散量才能完成图形的绘制&#xff0c;直线的扫描转换就是将连续量转换为离散量的过程。 对…

【计算机网络】虚拟路由冗余(VRRP)协议原理与配置

目录 1、VRRP虚拟路由器冗余协议 1.1、协议作用 1.2、名词解释 1.3、简介 1.4、工作原理 1.5、应用实例 2、 VRRP配置 2.1、配置命令 1、VRRP虚拟路由器冗余协议 1.1、协议作用 虚拟路由冗余协议(Virtual Router Redundancy Protocol&#xff0c;简称VRRP)是由IETF…

iMazing是什么软件?2024最新版本如何下载

iMazing是一款功能强大的iOS设备管理软件&#xff0c;它可以帮助用户备份和管理他们的iPhone、iPad或iPod Touch上的数据。除此之外&#xff0c;它还可以将备份数据转移到新的设备中、管理应用程序、导入和导出媒体文件等。本文将详细介绍iMazing的功能和安全性&#xff0c;并教…

【上海大学数字逻辑实验报告】二、组合电路(一)

一、 实验目的 熟悉TTL异或门构成逻辑电路的基本方式&#xff1b;熟悉组合电路的分析方法&#xff0c;测试组合逻辑电路的功能&#xff1b;掌握构造半加器和全加器的逻辑测试&#xff1b;学习使用可编程逻辑器件的开发工具 Quartus II设计电路。 二、 实验原理 异或门是数字…

Python-pip配置国内镜像源,快速下载包

文章目录 国内镜像源临时使用永久配置添加环境变量Path测试关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道 国内…

Java数据结构之《栈实现括号匹配的检验》问题

一、前言&#xff1a; 这是怀化学院的&#xff1a;Java数据结构中的一道难度中等的一道编程题(此方法为博主自己研究&#xff0c;问题基本解决&#xff0c;若有bug欢迎下方评论提出意见&#xff0c;我会第一时间改进代码&#xff0c;谢谢&#xff01;) 后面其他编程题只要我写完…