调优四剑客的实战演练,福尔摩斯•K带你轻松优化性能

news2025/1/9 15:22:54

6c7b2a645baead86995fc671e8fba43f.gif

 前言

天下武功,唯快不破。在侦探的世界中,破案效率永远是衡量一名侦探能力的不二法门。作为推理界冉冉升起的新星,大侦探福尔摩斯·K凭借着冷静的头脑、严谨的思维,为我们展现了一场场华丽而热血的推理盛宴。

接下来,我们不仅仅是看客,还将追随福尔摩斯·K的脚步,体验一场身临其境的冒险。一起寻访产生数据库性能问题的根源,深度探索和解析数据库性能问题:

妙用调优“四剑客”,轻松完成金仓数据库KingbaseES的性能调优!

案情接入,问题初露端倪

  • 案发时间

    2022.10.26 晴

  • 案发地点

    X客户项目现场

  • 案件描述

    业务系统上线前出现性能问题,导致业务卡顿情况严重。

  • 案情接入

    由于生产环境不可随意改动,在现场支援的华生医生配置了与生产环境一致的测试环境,来进行初步的诊断。后续的性能优化方案也会先于测试环境验证,待性能达标之后,方可在生产环境上线。

_

生产环境

测试环境

环境

Kylin Linux Advanced Server V10

128个CPU核心

754 GB内存

64 TB磁盘

Kylin Linux Advanced Server V10

128个CPU核心

754 GB内存

64 TB磁盘

根据华生医生跟X客户的沟通,多个应用场景使用连接池连接到KingbaseES服务器,300并发,其中一个业务场景慢,吞吐量上不来,平均一个业务请求超过85秒。华生医生要在当日内完成对该业务场景的性能优化,使X客户的平均业务响应时间进入10秒,以保证业务系统按时上线。但在有限的时间内快速优化业务场景的性能,实非华生医生所长。于是,大侦探福尔摩斯·K便被召唤闪亮登场。

抽丝剥茧,探索服务器环境

魅影重重的故事已被华生医生初步解开谜底,然而,如何让“犯罪分子”——不正确的配置参数或低性能的SQL语句伏诛,依旧是一场酣畅淋漓的侦探冒险。

就这样,福尔摩斯·K携金仓数据库KingbaseES性能优化四剑客KWR、KSH、KDDM和KWR Diff踏上了性能调优之旅。

KWR:KES自动负载信息库(Automatic Workload Repertories),每小时自动采集性能指标生成快照,建立数据库时间模型、IO模型、等待事件、TOP SQL和操作系统统计等性能指标,为数据库性能调优提供指导。

KSH:KES活跃会话历史库(Active Session History),每秒自动采样活跃会话的等待事件、SQL语句、阻塞等会话信息,提供针对某个历史时间点的性能问题分析。

KDDM:KES自动诊断和建议(Automatic Database Diagnostic Monitor),基于KWR快照和数据库时间模型,给出内存、网络、IO和SQL性能优化建议。

KWR Diff:KWR差异报告,通过比较2段时间内KWR性能指标的差异,发现性能变化的趋势。

在和现场的华生简单对接后,福尔摩斯·K首先要排查一下服务器主机环境,并了解KES在该业务场景下的整体性能表现,确定性能优化目标。这通过KWR十分容易就能获得。

Step.1

产生KWR报告分析主机环境

配置KWR开关并让配置参数全局生效,迅速开启压测模拟约20分钟,生成KWR快照及报告:

9b8e27ed7f7641b30d1785b6f807477f.png

KES版本信息,主机CPU能力、内存容量、OS基本信息,客户端连接数跟华生描述的基本一致。

福尔摩斯·K通过KWR的主机统计报告,可排查主机环境的CPU、IO、内存、网络性能等性能指标是否存在问题:

45c0f9bc7bfdb4252c8ddd8de810bb91.png

主机CPU报告显示,用户态CPU占用92.50%,空闲仅6.67%,属于业务非常繁忙的情况。当然,如果CPU繁忙全部由KES服务器所造成,那就没有大的影响,并且说明X客户之前应该进行过一定程度的性能调优。

这一点通过负载分析报告里面的DB Time和DB CPU值很容易来判断:

c71863bfcd96ed535f350535e450ba70.png

每秒DB CPU为190.01,超过了主机的CPU核心数,对于300个并发客户端连接的负载来说正常。也说明绝大部分CPU负载都在KES服务器上,跟主机上的其他进程无关。

继续查看主机IO报告:

f6d6e8772d3fcb6c1aa28c7a051ae1a0.png

KWR报告显示,sdb磁盘每秒有59 MB的写操作,福尔摩斯·K熟练地在KSQL里输入了几条SQL查询,确认了KES数据目录正位于该磁盘上。再看其他磁盘均没有明显的IO操作。第一个线索隐隐约约出现了。但是这59 MB的磁盘IO到底来自哪里呢?

福尔摩斯·K暂时压下心头的疑云,留待后续进一步分析。

继续查看主机内存报告和主机网络报告,报告显示剩余内存充足(449 GB),网络也未发现异常指标。

dc460c71250d502508eb7f9cbd69d136.png

条分缕析,拆解数据库实例

探索主机环境后,福尔摩斯·K暂时搁置了对磁盘IO问题的疑问,开始分析数据库实例。数据库实例重点关注负载分析报告、实例效率百分比报告、Top 10前台等待事件报告、时间模型统计报告等,并需要同时关注IO方面部分指标。

Step.2

分析前台等待事件

根据以往的经验,数据库产生性能问题时,往往会伴随着某几个等待事件较高的现象。因此,福尔摩斯·K在分析完操作系统环境后,优先查看了前台等待事件分类报告:

2003c4fdfb13bfa317ea22cb22c516da.png

前台等待几乎都是IO等待,占数据库时间8.36 %,它们主要包括哪些等待事件,通过Top 10前台等待事件报告很容易查到:

2de4ed77f24f8ca7822c4c7af09603c8.png

报告显示这8.36%的IO等待事件,主要来自BufFileWrite(5.84%)和BufFileRead(2.52%),其他等待事件可以忽略。

福尔摩斯·K现在得到了第二条线索:2个跟IO相关的等待事件。

但是这2个等待事件的存在是否合理呢?目前还不能断然下结论,需要继续分析时间模型和数据库实例IO组成。

Step.3

分析KES时间模型

KES时间模型是性能分析不可或缺的关键指标,通过对数据库时间模型的拆解,能够知道数据的时间花费到哪里去了,也容易定位像软解析、硬解析等问题。

KES的数据库时间模型公式:DB Time = DB CPU + Foreground Wait Time,即:

  • 数据库时间 = 数据库CPU时间 + 前台(客户端会话)等待时间,

  • 前台等待时间 = 前台IO时间 + 前台网络读写时间 + 锁等待时间 + ...

94aad2815f20eb484eba02677e6421d8.png

时间模型统计报告显示花费时间最多的是DB CPU,为91.64%,其次是前台等待时间,为8.36 %,没有发现SQL解析、执行计划缓存、网络读写等问题,因此,福尔摩斯·K只能按照常规从负载报告开始分析,从数据库实例全局了解一下可能的瓶颈点。

Step.4

分析KES负载

负载分析报告里提供了大量经过提炼的指标,包括数据库时间、前台等待事件、实例IO、解析计划执行次数、事务、元组、死锁、登录登出等。其中每秒那列的统计值很直观。

比如:每秒Transactions,等价于TPS,每秒Execute Calls,等价于QPS。

2b82b807750985771b080a847ac5a062.png

报告显示,数据库时间正常、前台等待事件较高,每秒17.34。

WAL日志(WAL Size)读写很低,难道是没有开WAL日志吗?福尔摩斯·K和华生带着疑惑跟客户确认了该业务场景的数据不生产WAL日志。

数据页(Block Read/Write Size)的读写较高,每秒读233.24 MB,每秒写242.90 MB,似乎存在点问题。这令福尔摩斯·K想起主机磁盘IO每秒59 MB的写操作,两个指标的异常让他渐渐摸到了问题的脉络。接下来需要分析一下该指标的合理性。

Step.5

多维度分析数据块读写的合理性

查看SQL类型统计报告,能够知道SQL负载特征:SELECT语句占了100%。没有增删改查SQL语句。

7235a42ccae0e051dac8ee59f0242477.png

这不合情理!虽然查询语句也可能会读写磁盘,但是每秒50M+的读和写,引起了福尔摩斯·K深深的怀疑。报告显示读和写的数量相当,难道是数据页缓冲区不够?

检查实例效率百分比报告中的Buffer Hit(缓冲命中率)为100%。说明Shared buffer设置是足够的,几乎全部的数据页都能在数据缓冲区读到。

935f03f6d7af77b26e0f36853d3d562e.png

那么另一种可能就是临时表的读写了。但业务系统开发人员却反馈,该业务场景里几乎没有使用大的临时表。福尔摩斯·K第一次陷入了苦思:这50 MB的IO读写到底来自数据库哪里呢?

华生端来了2杯浓浓的咖啡,福尔摩斯喝了一口。突然间,灵光一闪,IO分析报告还没有看,虽然它并非一棵IO分解树,但是它也提供了共享块、本地块、临时块的IO统计等信息:

8ecc800418b9a347637ae219eca62b77.png

找到了!数据库中存在233.24 MB/s的读临时块,242.88 MB/s的写临时块。与负载分析报告里的IO读写一致,但是高于主机IO里的59 MB/s读写,这也是合理的,说明操作系统缓存了一部分KES发出的写盘请求。进一步分析,临时块不是临时表的读写,而是SQL语句在排序、Hash连接的时候使用的临时使用的磁盘空间。

检查快照期间参数配置报告,果然,搜索到work_mem为10240 kB,这是KES的默认配置。对于普通的查询是足够的,但对于存在大量复杂Hash join或者排序的SQL就会有所不足。

ed06a593cccab335565b47541603e026.png

现在再回顾一下Step2里的两个前台等待事件:

  • BufFileWrite:等待3751万次,数据库时间占比:5.85 %。

  • BufFileRead:等待3534万次,数据库时间占比:2.52 %。

这两个等待事件一般意味着KES的work_mem不够,导致写临时磁盘了,并发越高性能影响越大。

内心的疑虑终于解开了!福尔摩斯·K也得到了第三条线索:客户端会话配置的work_mem不够。后面需要找到跟work_mem性能问题关联的SQL。

拨云见日,快速定位问题

在云山雾罩的迷案中抽丝剥茧,以严密推理拆解分析;在千丝万缕的疑难中拨云见日,以逻辑思维快速定位问题。

Step.6

定位问题SQL

福尔摩斯·K主要从TOP SQL报告中查看问题SQL,确认其中是否有Hash和排序方面的操作。TOP SQL报告由一系列按照执行时间、IO时间、返回元组数等排序的子报告组成,能按照多个维度检查资源消耗高的SQL语句的执行情况。

通过TOP SQL统计的按数据库时间排序的SQL语句报告,即可找出消耗数据库时间最多的SQL:

0c1158199b99243b699b1a151f74a3cb.png

排在前两位的SQL分别占了76.36 %和24.64 %的数据时间,平均执行时间63.62秒和23.44秒,等待时间占比为8.67 %和7.52 %,应该就是BufFileRead和BufFileWrite两个等待事件。

为了验证这一点,福尔摩斯·K基于刚才的KWR快照生成了一份KDDM报告。不仅看到了等待事件,还看到了跟他们关联的SQL语句,确实是那两个执行时间长的SQL:

b9756d18cabfc459493577d0bfeff645.png

经过与X客户的研发人员沟通,这两条复杂SQL语句(主要是第一条SQL,第二条SQL为非关键SQL可以不关注)之前仅需要不到30秒左右就能执行完成,最近感觉越来越慢,有时候执行会超过2到3分钟。看来它就是问题SQL了,优化它是重中之重。

福尔摩斯·K从完整SQL列表报告里,很快找到了对应的SQL,生成的执行计划十分复杂,果然发现了里面存在不少Hash Join以及外部排序(external merge Disk),平均使用磁盘空间在32 MB左右,远远大于当前设置的10 MB。

22ebb610a75a58cd8a014703d36394ba.png

此时,性能瓶颈已经非常明确,即客户端会话进程的work_mem太小,导致了大量的磁盘排序操作。

Step.7

应用work_mem优化

将当前会话进程的work_mem设置为32 MB后,再观察问题SQL语句的执行计划,外部磁盘排序已经看不到了。然而,work_mem的修改会对每一个客户端会话进程都生效,不能设置过大,否则容易引起主机内存不够。这个问题却难不倒福尔摩斯·K,他伸了一个懒腰,大脑里飞快的计算着:300个会话,每个会话32 MB,一共需要9.375 GB内存,以极限情况1200个会话计算,最多需要37.5 GB内存。在可以接受范围之内。

204105e23a4c3653dbcf538e6417a25a.png

福尔摩斯·K将数据库实例的work_mem参数配置成32 MB,重启服务器,跑性能负载,创建KWR快照并生成报告,KES实例IO中的临时文件读写降低到0.5 MB/s降低到0.02 %,DB CPU提升到 99.97%,时间模型等其他性能指标也无明显瓶颈。虽然没有完全消灭磁盘排序操作,但是现在的影响几乎可以不关注了。

04867e2726ab2c815a5842ac8a7b0aa6.png

两个执行时间最长的SQL语句的平均执行时间降到43.94秒和7.71秒:

9567c3fa4d541f492e4a5cf891eaba5e.png

站在一旁的华生对福尔摩斯·K佩服不已,心里想:待项目结束后,一定好好请教福尔摩斯·K,学个一招半招,再把KWR工具好好实践一下!

措置裕如,轻松调优SQL

福尔摩斯·K通过分析问题SQL的执行计划时发现了一个连接顺序的问题,还有一个优化器估算返回行数不准的问题,通过Hint轻松搞定,毕竟SQL优化是他最擅长的。

慢SQL的平均执行时间进一步优化到35.27秒。

Step.8

使用索引建议

剩下的优化空间在哪里呢?福尔摩斯·K又一次陷入了思考,刚才看KDDM报告并没有给出其他重要的建议,甚至连索引建议也没有,要是通过手工一个一个地分析表和索引估计一天分析不完......等等,刚才好像没有开索引建议开关!

打开索引建议开关后,重新压测,生成KDDM报告。果然,索引建议赫然在目:

7ab6052b710f1fd6700b1eb8f9267a4d.png

按照KDDM的索引建议提示,和X客户的开发人员做了一个简单沟通,该索引原来是存在的,后来他们批量更新数据的时候,临时把索引删除后忘记加回来了。给目标表创建索引后,性能进一步提升到7.23秒。经过几次验证,客户应用场景平均响应降低到8.51秒,优化任务完成。

探本溯源,再会调优"四剑客"

在和客户确认系统性能指标达到预期,交付任务之后,华生拿来了小本本,热情地请教起福尔摩斯·K来:

华生:我之前也听说过KES的KWR、KSH、KDDM和KWR Diff调优组件,但平时用得少只会用KSH来看等待事件和它们关联的SQL语句,没想到KWR居然提供了那么多的性能指标和模型,而且使用它们调优确实和简单和直接。尤其是KDDM,能够直接定位问题并给出建议,太酷了!

福尔摩斯·K:是的,华生。有了高度集成化的KWR、KSH、KDDM、KWR Diff之后,在开始SQL优化之前几乎都可以用他们来先做数据库实例调优。这会节省DBA大量查询各种统计表和数据库日志的时间,你看我这次调优,基本没有查询它们。

华生:是的,那这些调优组件之间有啥区别和联系呢?

福尔摩斯·K:我这有一个总结表,你可以参考。

调优组件

使用场景

重点关注内容

KWR

某一时间段持续性能问题分析

数据库负载、时间模型、等待事件等

KSH

某一时刻突发性能问题分析

活跃会话的等待事件等

KDDM

无需人工分析,直接给出调优建议

给出的各种建议

KWR Diff

性能基准比较,或随时间变化的性能问题分析

同KWR

这次调优没有使用到KSH,是因为不适合这次X客户的这种长周期性能问题场景。还有就是KWR Diff报告也很有用,调优前后产生一份KWR Diff报告,观察前后性能指标的差异,这对提升调优水平有很大帮助。

华生:总结得太好了!我要向我们组的小伙伴推广调优“四剑客”。

9105cd49ee3ce2b744b18ba7c2349bcb.png

供稿:产品研发中心

编辑:四喜

校对:日尧

78bb9257cd4331620e7541494a4477ef.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/65217.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【运维面试题】访问www.baidu.com背后发生了什么·dns解析过程·ping过程

文章目录 一、访问www.baidu.com背后发生了什么二、dns解析过程答法1(推荐)答法2三、ping过程一、访问www.baidu.com背后发生了什么 1.浏览器解析url是否合法 2.浏览器向DNS服务器请求解析ip地址 3.dns将解析出来的ip地址返回给浏览器 4.三次握手,浏览器与服务器进行tcp连接…

TVM 从入门到精通 | 安装 TVM (Part 2)

By 超神经内容一览:TVM 共有三种安装方法:从源码安装、使用 Docker 镜像安装和 NNPACK Contrib 安装。本文讲解如何通过 Docker 镜像 和 NNPACK Contrib 安装。关键词:TVM Docker 基础教程 欢迎回到 TVM 文档讲解 101,这个系…

【Python+Appium】开展自动化测试(十二)通过坐标定位元素

目录 前言 1,通过绝对坐标定位(不推荐) 2,通过相对坐标定位(推荐) 写在最后 前言 在使用appium做app自动化测试的过程中,可能会遇到元素的属性值不是唯一的情况,导致不能通过fin…

Linux上docker部署Mysql备份与恢复

Linux上Mysql备份与恢复 1.完全备份 完整备份是将所选的全部数据都备份起来,将备份文件生成一个镜像,再保存到其他的硬盘分区中。 1.1 完全备份一个或多个完整的库 ps: 博主mysql是用docker部署的,这时候需要进入docker容器进行操作。 d…

太极限了,JDK的这个BUG都能被我踩到!

之前遇到个文件监听变更的问题,刚好这周末有空研究了一番,整理出来分享给大家。 从一次故障说起 我们还是从故障说起,这样更加贴近实际,也能让大家更快速理解背景。 有一个下发配置的服务,这个配置服务的实现有点特…

详解设计模式:访问者模式

访问者模式(Visitor Pattern),是在 GoF 23 种设计模式中定义了的行为型模式。据《大话设计模式》中说算是最复杂也是最难以理解的一种模式了。 访问者模式 是一种将数据操作与数据结构分离的设计模式,它可以算是 23 中设计模式中最…

NewStar CTF Week3Misc 4-5Web

目录 <1> Week-3 Misc (1) Whats HTTP (2) qsdzs girlfriend 3 (3) WebShell&#xff01; (4) 混沌的图像 <1> Week-4 Web (1) So Baby RCE(%0A进行rce rev|sort读取flag) (2) UnserializeThree(%0d换行rce) <2> week5-web (1) Give me your photo…

step-by-step 配置 gtest 在 vscode 测试 c/c++(Ubuntu 环境下示范)

1. 去把 gtest 装好 详见&#xff1a;CSND-PangCoder-[Ubuntu]GTest安装和测试-https://blog.csdn.net/qq_36251561/article/details/85319547 2. 在 VS Code 打上这几个插件 印象里打上 C TestMate 下面的就会自动装了…如果没有就手动装一下 3. 编写测试脚本 第一步那…

【Pytorch】第 1 章 :强化学习和 PyTorch 入门

&#x1f50e;大家好&#xff0c;我是Sonhhxg_柒&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f4dd;个人主页&#xff0d;Sonhhxg_柒的博客_CSDN博客 &#x1f4c3; &#x1f381;欢迎各位→点赞…

Java并发常见面试题(三)

并发编程三大特性 原子性 一次操作或者多次操作&#xff0c;要么所有的操作都得到执行并且不受任何因素的干扰而中断&#xff0c;要么都不会执行。 在 Java 中&#xff0c;可以借助synchronized 、各种 Lock 以及各种原子类实现原子性。synchronized 和各种 Lock 可以保证任…

【吴恩达机器学习笔记】十三、异常检测

✍个人博客&#xff1a;https://blog.csdn.net/Newin2020?spm1011.2415.3001.5343 &#x1f4e3;专栏定位&#xff1a;为学习吴恩达机器学习视频的同学提供的随堂笔记。 &#x1f4da;专栏简介&#xff1a;在这个专栏&#xff0c;我将整理吴恩达机器学习视频的所有内容的笔记&…

[附源码]计算机毕业设计人事系统Springboot程序

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

Contest2850 - 【在线编程平台】2022年计算机类数据结构作业12.20221201-1206

问题 A: 二叉排序树 - 文本输出 题目描述 给定一个序列&#xff0c;使用该序列生成二叉排序树&#xff08;也叫二叉搜索树&#xff0c;BST&#xff09;&#xff0c;然后以本题规定方法输出该二叉排序树。 例&#xff1a; 给定一个序列&#xff1a;43 25 29 67 17 88 54 47 35…

用R语言制作交互式图表和地图

可以直接从R / RStudio制作在线交互式图表和地图。 去年&#xff0c;我们为一位客户进行了短暂的咨询工作&#xff0c;他正在构建一个主要基于在线交互式图表的分析应用程序。 配置 启动RStudio&#xff0c;创建一个新的RScript&#xff0c;然后将工作目录设置为下载的数据文…

git merge origin master和git merge master的区别(个人理解)

先说结论 git merge origin master 意思是当前的分支,进行合并,合并二个分支分别是远程分支master在本地的副本和本地分支的master git merge master 当前分支于本地所处的master分支进行合并 还有就是 git merge origin master是把origin merge 到 master 上的说法是错误的…

小侃设计模式(十五)-命令模式

1.概述 命令模式&#xff08;Command Pattern&#xff09;是将一个请求封装为一个对象&#xff0c;从而让你使用不同的请求把客户端参数化&#xff0c;对请求排队或者记录请求日志&#xff0c;可以提供命令的撤销和恢复功能。它是行为型模式的一种&#xff0c;能够有效降低系统…

【华为上机真题 2022】流水线

&#x1f388; 作者&#xff1a;Linux猿 &#x1f388; 简介&#xff1a;CSDN博客专家&#x1f3c6;&#xff0c;华为云享专家&#x1f3c6;&#xff0c;Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我&#xff0c;关注我&#xff0c;有问题私聊&#xff01; &…

ES6:ES6 的内置对象扩展

Array 的扩展方法 扩展运算符&#xff08;展开语法&#xff09; 扩展运算符可以将数组或者对象转为用逗号分隔的参数序列。 let ary [1, 2, 3];...ary // 1, 2, 3console.log(...ary); // 1 2 3console.log(1, 2, 3)为什么没有逗号&#xff0c;这个是因为被当做console…

毕业设计-机器视觉的疲劳驾驶检测系统-python-opencv

目录 前言 课题背景和意义 实现技术思路 实现效果图样例 前言 &#x1f4c5;大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科…

买家的诉求决定你的产品卖点

产品卖点的核心是消费者的诉求&#xff0c;也就是消费者为什么对某个产品有需求。 为什么要用广角镜头&#xff1f;可能要拍比较大、比较宏伟的环境。 为什么要用微距&#xff1f;可能要去拍一些细节场景。 …… 很多时候跟客户对不上&#xff0c;是因为不知道客户具体要做…