性能剖析利器-Conan|得物技术

news2024/10/8 14:09:42

作者 / 得物技术 - 仁慈的狮子

目录

一、背景

    1. 局限性

    2. 向前一步

二、原理剖析

    1. 系统架构

    2. 工作模式

    3. reporter

三、稳定性验证

四、案例分析

五、写在最后

一、背景

线上问题的定位与优化是程序员进阶的必经之路,常见的问题定位手段有日志排查、分布式链路追踪和性能分析等,其中日志排查主要用来定位业务逻辑问题,分布式链路主要用来定位请求链路中具体是哪个环节出了问题,而如果服务本身的性能出了问题,如一段时间复杂度高的代码引发了CPU占比飙升、内存泄漏等,则需要依赖性能分析工具来帮我们定位此类问题。

在Golang技术栈中,pprof则是性能分析的一大杀器,它可以帮助我们获取到程序的运行时现场(profile data),并以可视化的形式展示出来,火焰图是其中最为常见的一种展现形式:

图片

我们如果想要借助pprof的能力进行性能分析,通常的步骤是:

  • 程序中导入net/http/pprof包,并开放端口用于获取profile数据;

  • 使用go tool中集成的pprof工具,访问端口下载profile数据,然后在本地对profile数据进行解析并可视化展示。

1.1 局限性

在微服务盛行的当下,很多系统根据业务发展需要,都被拆分成了几十甚至上百个微服务,就拿得物社区业务来讲,整体业务被拆分成了推荐服务、内容服务、引力服务、标签服务等数十个微服务,并且为了提高服务的可用性,每个服务又是以多实例的形式部署。如此多服务的如此多实例,在人力有限的情况下,很难做到一切都在掌控中,一旦线上某个服务的某个实例出现了异常,即便我们可以通过告警快速感知,但是也很难保证可以及时捕获到服务运行时的现场信息。下图所示的是实际生产环境发生过的一次异常,可以看出发生的时间是在凌晨,试问如果遇到这种情况,我们该如何应对?

图片

因此可以说,仅仅凭借pprof提供的基础能力,我们很难应对在复杂的业务系统中突发的性能问题。

1.2 向前一步

工欲善其事,必先利其器!

既然人为手动采集profile数据的方式不再适用,那就朝自动化的方向演进,于是,便诞生了Conan!Conan的核心功能包括profile数据自动化采集、存储和展示,旨在为Golang系统提供一套用于性能分析的自动化解决方案。

二、原理剖析

2.1 系统架构

Conan为常见的C/S架构,client端是集成了Conan SDK的应用,应用运行期间,SDK会负责在恰当的时机采集应用的profile数据,并上报到server端;server端我们使用Pyroscope进行搭建,Pyroscope是一个开源平台,算得上是持续化profiling中的代表之作,在Conan中,Pyroscope负责将client上报的profile数据进行高效存储,并提供可视化界面,支持以火焰图等多种形式展示这些profile数据。Conan整体架构如下图所示:

图片

2.2 工作模式

前面提到,SDK会在“恰当”的时机采集应用的profile数据,那么这个时机该如何确定?其实,时机的确定也就是对应着不同的使用诉求,我们搜集了多位资深研发的宝贵建议,总结提炼得出了如下两种最常见的使用场景:

  • 在应用真正发生性能问题的时候进行profile数据的采集,精准的捕捉问题现场;

  • 持续化的采集,定期分析采集下来的profile数据从而发现可优化的点,将此作为日常巡检的工作;

为了满足这两种最核心的诉求,我们对应推出了Conan的两种工作模式:自适应模式和持续化模式。

自适应模式

所谓“自适应”,就是你告诉Conan具体在什么情况下应用可以被认定为发生了性能问题,一旦这种情况发生,Conan就会采集profile数据。在Conan中,认定的条件被分为了两大类:

  • 环比涨幅:Conan会定时搜集某项资源的使用情况,以最近N次的搜集为一个时间窗口,对比最近一次采集的结果与前N-1次采集结果的均值,从而计算环比,如果环比涨幅达到设置的阈值,则认为应用出现了性能问题;

  • 具体阈值:应用某种资源的使用情况达到了某个具体的值,如:CPU使用率达80%,则会被认为发生了性能问题;

接下来我们进一步看看,在自适应模式下,Conan究竟是怎么工作的:

图片

预热

考虑到进程在启动的过程中,各种资源的使用率存在较大的波动,为了避免被误判为异常,Conan会先根据设定的间隔采集对各项指标进行预采样,这个过程是个预热阶段,不会对采集到的指标数据进行任何规则判断。

图片

周期性采样

预热阶段结束后,Conan进入正式的周期性采样阶段,默认每隔5s采样一次,我们可以通过相应的配置修改采样周期。Conan使用固定大小的循环链表缓存近N次采样的数据。

Conan在每一次采样周期里,将对进程的CPU使用率、RSS使用率和goroutine数这三项指标进行采集。

  • CPU指标

Conan使用gopsutil采集进程CPU的使用率,但是gopsutil给到的CPU使用率是乘以了CPU核数的结果,看起来不太直观,因此我们还需要转换一道,即除以CPU核数,将使用率变成百分制(0%~100%)。此时思考一个问题,如何准确地获取到进程可以使用的CPU核数?这需要分以下几种情况分别探究:

  • 进程使用了runtime.GOMAXPROCS限制其能够使用的最大CPU核数。这需要显示地告诉Conan,然后Conan在采集CPU指标时同样会使用runtime.GOMAXPROCS获取进程能够使用的最大CPU核数;

  • 进程在容器环境运行。我们知道在Linux系统中,容器使用Cgroup实现资源的限制,所以当Conan发现进程是在容器中运行后,会从/sys/fs/cgroup/cpu/cpu.cfs_quota_us /sys/fs/cgroup/cpu/cpu.cfs_period_us文件中获取到信息,然后计算出CPU核数:cores=quota / period;

  • 进程在裸机上运行。如果上述两种情况都不是,Conan则判断进程直接运行在裸机上,会通过调用runtime.NumCPU获取CPU核数。

  • RSS指标

Resident Set Size is the amount of physical memory currently allocated and used by a process (without swapped out pages). It includes code, data and shared libraries (which are counted in every process which uses them)

一般来讲,RSS是衡量一个进程使用了多少物理内存的合理指标,因此Conan只将注意力放到它的身上。

同样的,Conan也是使用gopsutil来获取进程正在使用的物理内存大小。但是要计算使用率,还需要知道进程可以使用的物理内存上限,这将分为两种情况进行探究:

  • 进程运行在容器中。Conan会从/sys/fs/cgroup/memory/memory.limit_in_bytes文件中获知进程可以使用的最大物理内存。

  • 进程运行在逻辑上。Conan借助gopsutil库获知进程可使用的物理内存上限。

  • goroutine指标

采集goroutine数就相对简单了,Conan使用golang标准库runtime提供的NumGoroutine方法获取进程中活跃的goroutine数。

规则判定

当采集到各项指标后,Conan将这些指标数据与事先设定好的规则进行匹配,进而判断进程的资源使用是否出现了异常。

资源使用率异常主要分为两种情况:

  • 突刺。短时间内资源使用率达到一个比较高的水位,然后很快又降了下去;

  • 资源使用率缓慢的上涨,逐渐涨到一个较高水位;

对于第一种异常,我们可以使用环比的规则来判定,比如:CPU环比上涨了30%,这里的环比是当前值与近N次采样的均值进行对比。但是如果资源使用率本来就很低(如5%),即便环比上涨了100%我们也认为属于正常情况,这时候还需要一个下限规则,比如:CPU使用率达到了40%;而对于第二种异常,环比的规则就不太适用了,我们应该使用绝对值的规则来进行判断,比如:CPU使用率达到了50%。这三种规则均适用于前述的各项指标。另外,Conan还考虑到了以下两种情况:

  • 任何形式的profiling,都有一定的性能损耗,所以Conan对CPU使用率做了上限的限制,即当CPU使用率达到了我们预先设定的上限,Conan不再进行任何profiling;

  • 在go1.19之前,goroutine dump会Stop the world,goroutine数越多,STW时间越长。因此,Conan允许对goroutine profiling设置上限规则,即当goroutine数达到上限后后,不再进行goroutine profiling。

持续化模式

持续化模式顾名思义就是指定时地持续化采集profile数据,比如每5秒采集一次,在这种模式下,不管应用处于什么状况,都会在固定的时间间隔后进行profile数据的采集。

持续化模式的实现相比于自适应模式简单了很多,核心逻辑便是定时的采集profile数据,此处不再赘述。

保存现场(profiling)

不管是自适应模式,还是持续化模式,最终都会在各自认为合适的时机采集profile数据(profiling)。在Conan中,我们使用标准库pprof提供的能力进行profiling,profile数据有两种格式:binary和text,其中binary是经过压缩过后得到的,这种形式的数据需要我们借助go tool pprof之类的工具才能打开;text使用的是传统文本格式,可以用常用的文本编辑器打开,我们平常通过浏览器访问http端口进行profiling时传输的数据就是这种格式,text没有经过压缩,profiling时比较吃内存,这也是为什么我们每次在浏览器进行profiling时服务的内存会有较大的波动。Conan选择了前者。

另外,在自适应模式中,考虑到很多异常是持续性的,且profiling有一定开销,所以为了尽量降低profiling对应用的影响,Conan提供了冷静期的机制,允许前后两次profiling存在一定空窗期,而且支持针对每种指标单独设定冷静期。

2.3 reporter

接下来需要思考的问题是:采集下来的profile如何处理?考虑到多样化的需求,以及结合Conan自身两种工作模式的特性,我们设计出reporter这样一种组件,它的作用就是专门负责将采集下来的profile数据上报到某个地方。我们将reporter设计成了接口,大家可以通过实现接口来扩展自己的reporter,然后将其注入即可:

type ProfileReporter interface {    Report(...) error    Name() string}func WithProfileReporter(r ...ProfileReporter) Option {    //...}

根据得物自身业务的需要,Conan内置了两种reporter:飞书 reporter和pyroscope reporter。

飞书 reporter

飞书reporter是专门为自适应模式而设计。以自适应模式运行的应用,在采集到profile数据之后,会先将数据落盘(默认存储目录为/tmp,也可以指定落盘的路径),然后通过给定的飞书机器人webhook链接发送飞书消息,消息里面带有下载链接,我们可以通过点击链接将profile数据从远端运行的应用那里下载到本地,然后用go pprof工具进行分析。飞书消息样式如下:

图片

pyroscope reporter

大家不免发现,飞书reporter有个局限性,就是采集下来的profile数据存储在应用运行环境的磁盘上,如果我们的应用是运行在如k8s这种虚拟化的环境中,大多数情况下我们保存下来的profile数据会随着容器的重建而被清理掉。因此,为了应对这个问题,我们需要有个中心化的地方专门来存储采集的profile数据。为了避免重复造轮子,经过长时间的调研,我们最终选择了开源平台Pyroscope,它不仅能够满足我们中心化存储的诉求,还能够提供精美的可视化界面来展示profile数据,大大降低了使用门槛。对应地,我们也提供了pyroscope reporter来专门对接Pyroscope,只需要提供Pyroscope的访问地址,便可以将采集下来的profile数据上报给Pyroscope,然后通过访问它的web页面来进行浏览:

图片

三、稳定性验证

看到这里,或许有些读者心中不免对Conan多了几分认可。但是又因为不知道这玩意儿自己的稳定性和开销如何,担心放到生产上会有问题。

目前为止,得物社区业务的数十个核心服务已经接入了Conan,且稳定运行了一年多。另外,我们还对Conan进行了混沌演练,量化了其在两种不同模式下带来的开销。以自适应模式为例,结果如下表所示:

图片

我们通过注入故障代码让服务的CPU使用率、memory使用率以及goroutine数上涨到一个比较高的水位,然后对比Conan启用前后各资源使用率来了解Conan在极端异常下的表现。从结果来看,Conan在极端异常情况下的开销能够控制在5%以内。

四、案例分析

前面花了大量的篇幅来讲解Conan的实现原理,现在各位看官不免心生疑虑:这玩意儿到底行不行?能不能如它所宣导的那样帮我们及时捕获线上问题的现场?接下来,我们借助一个实际的案例来体会下Conan给我们带来的便利之处。

在某一次的迭代需求中,产品给出了一个公式,让研发根据公式计算出一个分数。在实现的时候,我们用一个t+1的脚本来计算这个分数,该脚本中用了一个第三方库来解析公式,并获取最终计算结果。上线前我们只验证了这个库功能的正确性,并未探究它的性能,这也为后来线上异常的发生埋了雷。

脚本上线后第一天的凌晨4点(脚本在这个时间点运行),就发生了线上告警:

图片

对应监控如下:

图片

发生告警的时候我相信大多数同仁都正做着美梦吧。没关系,Conan已经帮我们把问题现场保存了下来,我们只需要在上班后打开飞书,进入告警群,找到相关的告警信息然后将profile数据下载到本地,最后借助go tool pprof工具打开profile文件,定位问题:

图片

通过火焰图可知,原来是上述第三方库在计算排序分时消耗了大量的CPU。找到问题的根因之后,我们便可有针对性地解决。解决方案此处不赘述。

如果没有接入Conan,异常本身是否被感知到就是个未知数,因为CPU使用率虽说有飙升,但是没有达到一般告警的水位;即便被感知到,排查的思路大致也是这个过程:抓住凌晨4点这个关键线索,排查在这个时间点运行的脚本有哪些,然后分析每个脚本的代码,推测出比较耗CPU的逻辑,接着benchmark进行验证,最后试着修复代码,观察效果,如果CPU使用率降下去了就说明问题解决了。对比接入了Conan之后的排查过程,效率实属提升了不少。

五、写在最后

得物技术发展至今,为了给得物日益庞大的业务规模和日趋复杂的业务形态充当稳定可靠的支柱,我们始终将稳定性放在最为重要的位置,“稳定”二字可以说已经深深烙印在了我们每个得物技术er的内心。Conan作为得物技术助力得物业务稳定发展的一个非常小的案例,它以性能分析作为切入点,为我们提供了从应用异常感知、到profile数据下载、存储,最后到profile数据可视化展示的一整套解决方案。

往期回顾

1. 浅析Java类隔离规避依赖冲突的实现原理|得物技术

2. 包材推荐中的算法应用|得物技术

3. 得物自建 Redis 无人值守资源均衡调度设计与实现

4. 暗水印显隐术助力生产排障提效|得物技术

5. 深入理解 Babel - 微内核架构与 ECMAScript 标准化|得物技术

文 / 仁慈的狮子

欢迎关注得物技术,获取技术干货~

要是觉得文章对你有帮助的话,欢迎评论转发点赞~

未经得物技术许可严禁转载,否则依法追究法律责任。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2196523.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

脑机接口技术的未来与现状:Neuralink、机械手臂与视觉假体的突破

近年来,脑机接口(BCI)技术发展迅速,不仅限于科幻小说和电影,已经逐步进入现实应用。特别是马斯克的Neuralink公司推出的“盲视(Blindsight)”设备,最近获得了FDA的突破性设备认定&am…

IEC104规约的秘密之八----应用任务优先级

所谓应用任务优先级,就是同时出现不同的应用任务时,优先发哪个报文。这里有一个表格,可以做为参考,一般是在子站来实现,子站是数据提供方,需要对各种任务的优先级进行排序,以满足应用的实际需要…

为什么Linux系统下的程序无法在Windows下运行

两个系统的格式不同,格式就是协议,是在固定位置有意义的数据。Linux下可执行文件格式是elf,可使用readelf查看elf文件头 而Windows下的可执行程序是PE格式,是一种可执行文件。 还有一点是Linux下和Win下系统API不同,这…

【CSS】houdini自定义CSS属性实现渐变色旋转动画

现有一段代码&#xff0c;在不旋转整个元素的前提下&#xff0c;渐变背景无法应用动画 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initia…

基于 TOSHIBA eFuse 应用电路(带热关断功能)设计方案

近年来各类消费产品&#xff0c;存储设备&#xff0c;服务器等电路变得越来越密集&#xff0c;越来越灵敏&#xff0c;因此保护功能变得越来越重要&#xff0c;我们开发了是用于过流保护和过温保护的参考设计解决方案。 将介绍参考设计中的两种电路&#xff0c;合在一起2CM*2CM…

jetlinks物联网平台学习5:dtu设备接入及温度报警场景联动

dtu设备接入及温度报警场景联动 1、平台端配置1、新建协议2、新建网络组件3、设备接入网关配置4、新增产品5、导入产品物模型6、新增设备7、场景联动配置7.1、触发规则7.2、触发条件7.3、执行动作 2、平台端验证场景联动 1、平台端配置 下载三个文件 https://hanta.yuque.com…

详解 SPI 机制

SPI(Service Provider Interface) 是 JDK 内置的一种服务提供发现机制&#xff1a;可以用来启用框架扩展和替换组件&#xff0c;主要用于框架中开发。例如&#xff1a;Dubbo、Spring、Common-Logging&#xff0c;JDBC 等都是采用 SPI 机制&#xff0c;针对同一接口采用不同的实…

RTOS系统移植

一、完成系统移植 系统移植上官网寻找合适的系统包&#xff0c;下载后将文件移植入工程文件 二、创建任务句柄、内核对象句柄&#xff08;信号量&#xff0c;消息队列&#xff0c;事件标志组&#xff0c;软件定时器&#xff09;、声明全局变量、声明函数 三、创建主函数&#…

Stable Diffusion绘画 |,IP角色多视图生成技巧(附插件模型)

在游戏设计、小说推文、角色设计里面&#xff0c;很多场景都运用到IP角色的多视图。 人物角色多视图 第1步&#xff0c;输入提示词&#xff1a; 第2步&#xff0c;由于要在同一张图片中生成多角度的并排展示&#xff0c;需要修改图片的分辨率&#xff08;尤其是宽度&#xff…

开源问答类知识付费网站源码系统 带完整的安装代码包以及搭建部署教程

系统概述 近年来&#xff0c;随着互联网的飞速发展&#xff0c;知识付费市场呈现出爆炸式增长。各大知识付费平台如雨后春笋般涌现&#xff0c;涵盖了从教育、科技到生活娱乐等各个领域。用户通过付费获取高质量的知识内容&#xff0c;而内容创作者则通过分享知识获得经济回报…

大模型应用探讨,免费AI写作、一键PPT、免费PDF百种应用、与AI对话

大模型应用平台知识普及, 应用可见评论区 我们生活在一个充满无限可能的数字时代&#xff0c;人工智能技术正在推动着各种创新的边界。大模型应用平台一般包含以下功能。 ## 1. 一键生成论文 写作是学生、研究人员和职场人士都无法避免的任务。大模型应用平台拥有强大的文本生…

如何让算法拥有“记忆”?一文读懂记忆化搜索

✨✨✨学习的道路很枯燥&#xff0c;希望我们能并肩走下来! 文章目录 目录 文章目录 前言 一 什么是记忆化搜索 二 相关题目练习 2.1 斐波那契数&#xff08;详解记忆化搜索&#xff09; ​编辑 解法一&#xff08;递归&#xff09;&#xff1a; 解法二&#xff08;记…

全面整理人工智能(AI)学习路线图及资源推荐,非常详细收藏我这一篇就够了

在人工智能&#xff08;AI&#xff09;飞速发展的今天&#xff0c;掌握AI技术已经成为了许多高校研究者和职场人士的必备技能。从深度学习到强化学习&#xff0c;从大模型训练到实际应用&#xff0c;AI技术的广度和深度不断拓展。作为一名AI学习者&#xff0c;面对浩瀚的知识海…

kafka的成神秘籍(java)

kafka的成神秘籍 kafka的简介 ​ Kafka 最初是由Linkedin 即领英公司基于Scala和 Java语言开发的分布式消息发布-订阅系统&#xff0c;现已捐献给Apache软件基金会。Kafka 最被广为人知的是作为一个 消息队列(mq)系统存在&#xff0c;而事实上kafka已然成为一个流行的分布式流…

【吊打面试官系列-MySQL面试题】试述视图的优点?

大家好&#xff0c;我是锋哥。今天分享关于【试述视图的优点&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; 试述视图的优点&#xff1f; (1) 视图能够简化用户的操作 (2) 视图使用户能以多种角度看待同一数据&#xff1b; (3) 视图为数据库提供了一定程度的…

8年JAVA逆袭转AI之路!成功拿下offer

前段时间有一个粉丝投稿&#xff0c;他是8年老Java程序员了&#xff0c;每天两小时的碎片化学习时间&#xff0c;不仅没有陷入程序员的年龄恐慌&#xff0c;还拿到了目前薪资翻倍的offer 问到他是什么让他坚持学了6个月&#xff0c;他用了华为总裁任正非说的“今后职场上只有…

Nginx03-使用

零、文章目录 Nginx03-使用 1、Nginx服务器启停命令 对于 Nginx 的启停在 Linux 系统中也有很多种方式&#xff0c;我们介绍两种方式&#xff1a; Nginx信号控制Nginx命令行控制 &#xff08;1&#xff09;Nginx信号控制 查看Nginx 中的 master 和 worker 进程 [rootloc…

计算机进制之间的关系

计算机中常见的进制 十进制、二进制、十六进制、八进制之间对照表 进制之间的转换 通过上面的十进制对应二进制进位的表示&#xff1a; 当二进制产生增加位数时&#xff0c;相对应十进制数为2、4、8、16、32、64、128&#xff0c;也被称为二进制的位权&#xff0c;根据规律可知…

linux中缓存,在kafka上应用总结

linux中的缓存 页缓存 pagecatch&#xff08;读缓存用于提供快速读&#xff09;块缓存&#xff08;用于提供其他设备快速写&#xff09;当对读缓存读的时候&#xff0c;修改了读的数据&#xff0c;页缓存就会被标记为脏数据&#xff0c;等到写的时候它会向块缓存同步数据&…

关于7zip解压缩的下载和使用

我们有的时候下载软件&#xff0c;后缀是 ".exe" 或者 “.zip”&#xff0c;".7z"等&#xff0c;".exe"文件还好&#xff0c;打开就能进行下载&#xff0c;但是“.zip”&#xff0c;".7z“等就需要用解压缩软件进行解压了。 今天介绍的解…