APM Profile 在系统可观测体系中的应用

news2024/10/25 4:14:23

引言

应用程序性能分析(Application Performance Management,APM)是一个广泛的概念,涉及应用程序运行时各种性能指标的监测、诊断和优化。在可观测体系建设中,APM 是保障系统业务运行性能的关键技术,确保用户可以借助可观测技术手段,感知并发现以往监控工具难以发现的应用运行过程中隐藏的问题。

应用性能分析的主要场景

当我们应用观测云系统进行分析和监控时,采集到的应用性能数据通常有以下几种使用场景:

  • 性能监测(Performance Monitoring):通过 Datakit 提供的各种 dk-apm-agent,实时收集对应开发语言所发布的应用程序运行过程中的性能数据,包括应用指标、应用 span 数据等。这些原始性能数据为后续的性能分析和优化提供基础。
  • 性能分析(Performance Analysis):借助 Guance Studio 可视化应用分析界面,对收集到的性能数据进行深入分析。通过火焰图、瀑布图等应用性能数据组织方式,用户可以快速的识别应用程序的性能瓶颈所在,为性能优化提供依据。
  • 性能优化(Performance Optimization):根据 APM 应用性能监测的分析结果,用户可以采取针对性的代码优化措施,包括重构、算法替代、运行时环境配置调整等方式,提升应用程序的整体性能表现。
  • 性能预警(Performance Alarming):针对已分析处理的应用性能问题场景,在 GuanceStudio 中配置持续监控应用程序性能的监控器,一旦发现异常情况能够及时生成告警,通知对应的问题关注人进行处理。
  • 性能报告(Performance Reporting):借助 GuanceStudio 场景功能的可视化仪表构建能力,用户可以方便的将性能数据以可视化方式呈现,生成性能报告供开发、运维人员分析和决策使用。

上述 APM 数据应用及分析场景环环相扣,构成了应用程序性能管理整体流程的闭环。而对于某些需要更细粒度性能分析的场景,就需要用到 APM 的另一项核心技术—应用性能 Profile 功能。

Profile 与 APM 的区别

相比 APM 数据源针对应用链路的数据采集,Profile 功能在采集方式、数据颗粒度及适用场景方面与 APM 数据有着一定的区别:

  • 侧重点不同:APM 是一个更广泛的概念,涵盖了从性能监测、分析、优化到监控的全生命周期管理。而 Profile 功能更专注于应用程序内部结构和运行机制的深入分析,为性能优化提供诊断依据。
  • 采集数据范围不同:APM 通常会采集应用程序、基础设施、用户体验等各方面的性能数据,以全面了解应用程序的性能表现。而 Profile 工具主要关注应用程序内部的 CPU、内存等指标。
  • 实现机制不同:APM 通常会采用轻量级的探针或代理程序收集性能数据,而 Profile 工具则需要深度介入应用程序的运行机制,通常会对应用程序的性能产生一定影响。

总体而言,Profile 功能是 APM 体系中不可或缺的组成部分,它为应用程序的性能优化和监控提供了更细粒度的数据支持。而不同类型的开发语言通过各自不同的方式生成并采集 Profile 数据,例如 Java 可使用 JVM 提供的工具——如大家熟知的 Java Flight Recorder (JFR)——对 Java 应用程序的各种性能指标进行采集和分析;Python 使用 Python 自带的 cProfile 模块进行性能分析。Go 语言自带了丰富的性能分析工具,如 pprof 命令行工具和 runtime/pprof 包等。下面以 Java 为例进一步拓展讨论 Profile 数据的生成、采集及应用场景。

Profile 数据的生成和采集

Java Profile 功能的实现,离不开 Java 虚拟机提供的 Profiler 接口。Java 虚拟机从早期的 JVMPI(Java Virtual Machine Profiler Interface)到后来的 JVMTI(Java Virtual Machine Tool Interface),为 Profile 工具的开发者提供了强大的支持。

JVMPI 是 Java 1.3 版本引入的一个 profiler 接口,它允许 profiler 代理程序在 Java 虚拟机运行时收集各种性能数据,如 CPU 时间、内存使用情况、线程状态等。profiler 代理可以通过 JVMPI 接口注册各种事件回调,在这些事件发生时获取相关的性能数据。

但同时 JVMPI 接口也存在侵入性强、跨平台兼容性较差的问题。为了解决这些问题,在 Java 1.5 版本引入了全新的 JVMTI(Java Virtual Machine Tool Interface)。JVMTI 是一个更加通用和灵活的 profiler 接口,具有以下特点:

  • 更加轻量级和低侵入性,profiler 代理可以选择性地监控感兴趣的事件,降低对应用程序性能的影响。
  • 接口设计更加简洁清晰,开发 profiler 代理程序的难度降低。
  • 跨平台兼容性更好,不同版本和不同厂商的 Java 虚拟机对 JVMTI 的实现更加统一。

借助 JVMTI,Java 虚拟机为各种 profiler 工具的开发提供了强大的支持。这些 profiler 工具能够深入 Java 应用程序的内部结构,全面收集性能数据,为开发者进行性能分析和优化提供有力支撑。

而当我们需要采集 Profile 数据时,首先需要激活或应用一定的数据采集探针。以观测云为例,我们需要在程序启动时引入观测云应用性能数据采集器 guance-java-agent,这是一个基于前述 JVMTI 接口机制开发的应用性能数据采集器,可采集包含 Tracing 和 Profiling 数据在内的各种应用性能数据。

在配置 guance-java-agent 并启动 Java 应用程序时,被注入的性能监测代码会实时收集各种性能相关的数据。这些数据主要包括以下几种类型:

  • CPU
    这个指标记录了应用程序在 CPU 上的使用情况,包括 CPU 利用率、CPU 时间消耗等。通过分析 CPU 使用情况,可以发现 CPU 密集型的操作,比如计算量大的方法,从而进行针对性的优化。

  • Allocations
    记录了应用程序在运行过程中发生的对象分配情况。分析这个指标可以了解应用程序的内存使用模式,发现可能存在的内存泄漏问题。

  • Allocated Memory
    记录了应用程序在运行过程中分配的内存总量。结合 Allocations 指标一起分析,可以发现内存使用是否过高,是否存在内存泄漏等问题。

  • Heap Live Objects
    记录了 Java 虚拟机堆中存活的对象数量。监控这个指标可以发现内存占用过高,以及垃圾回收是否频繁等问题。

  • Heap Live Size
    记录了 Java 虚拟机堆的实际占用大小。这个指标可以反映应用程序的整体内存使用情况。

  • Wall Time
    记录了应用程序的总体响应时间。通过分析这个指标,可以了解应用程序的整体性能表现。

  • Class Load
    记录了应用程序在运行过程中加载的类的情况。分析这个指标可以发现类加载瓶颈,以及是否存在类冲突等问题。

  • Thrown Exceptions
    记录了应用程序在运行过程中抛出的异常情况。分析异常信息有助于快速定位并解决应用程序的故障。

  • File I/O
    记录了应用程序在文件读写操作方面的性能数据。通过分析这个指标,可以发现 I/O 瓶颈,并针对性优化文件操作。

  • Lock
    记录了应用程序在使用锁方面的情况,包括锁竞争、锁等待时间等。分析这个指标有助于发现并解决应用程序中的并发问题。

  • Socket I/O
    记录了应用程序在网络 I/O 操作方面的性能数据,如连接时间、读写时间、吞吐量等。通过分析这个指标,可以发现网络 I/O 瓶颈,并针对性优化网络操作。

这些数据在采集后会被发送至观测云中心,经中心处理后形成 APM 应用性能监测页的 Profile 数据记录,用于性能问题分析。需要注意的是上述部分指标依赖特定的 Java 版本,如发现没有采集到对应的数据,可以首先关注一下当前您所使用的 Java 版本是否提供了这些数据。

Profile 数据的应用

在完成数据采集后,我们可以基于 Profile 功能提供的详细性能数据,对系统中存在的一些潜在性能问题进行分析。这里分享一个某零售行业客户的性能分析 profile 案例:

某线上零售公司在近期针对自研大数据推荐平台的迭代中发现,新上线版本的推荐功能,其响应时延随 QPS 上升会出现比较明显的响应时间瓶颈。由于该系统采用微服务架构部署,其跨服务的性能问题分析一直是公司难以解决的一个痛点。在引入观测云 APM 并开启 Profile 功能后,基于已采集的数据分析并尝试优化该推荐系统的对外服务性能。

在整体的分析过程中,我们首先通过观测云 DataKit 指标采集,定位到具体发生 CPU 负载过高的节点,再通过应用负载监控,确定推荐系统中 CPU 负载过高的功能模块。开启 profile 后可以看到随着负载增加,有若干代码方法其 CPU 占比占到总 CPU 时间的 60% 左右。咨询客户开发团队,该方法主要负责根据商品的特征(如价格、销量、评分等)计算两件商品之间的相似度。其代码实现使用了大量的计算和排序操作。

同时,观察 Allocations 这项 Profile 指标,发现在高峰时段内存分配速率明显增加,峰值达到每秒 x 万次以上。同时比对 guance-java-agent 提供的 JVM metrics,结合 Profile Heap Live Objects 和 Heap Live Size 变化,发现有大量的临时对象在不断创建和销毁,造成频繁的 GC 操作。结合前述代码逻辑判断,此代码逻辑在计算和排序时创建了大量的临时缓存对象或排序数组。虽然这些临时对象在方法执行完后会被销毁,但频繁的创建和销毁过程造成了较高的内存分配开销和 GC 压力。并进一步使高并发条件下的服务响应时间恶化。而这些现象在静态代码走读或低负载条件下的集成测试或功能测试过程中是很难暴露的,从而造成代码性能缺陷漏出到生产环境,影响用户的使用和体验。

将上述分析结果告知具体模块的开发负责人后,通过针对性的优化措施,例如优化相似商品筛选算法、优化临时对象复用、减少临时对象创建和销毁操作、缓存相似商品计算结果等措施后,系统性能得到了明显改善。高并发下的系统响应时间也明显缩短。有效提升了最终用户的产品使用满意度。

总结

除 Java 语言外,观测云也结合其他开发语言的特点,为开发者及用户提供了对应改语言的 Profile 数据采集功能,对应用代码执行过程中的 CPU 使用情况、内存使用情况、锁使用情况、网络 IO、文件 IO、线程使用情况等多个方面的数据进行采集。并通过 Guance Studio 对这些丰富的性能数据进行可视化分析。借助火焰图、瀑布图等展示手段,用户可以深入了解应用程序的运行状况,找出性能瓶颈,并进行针对性的优化。这就是 APM Profile 给开发者带来的巨大价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1842638.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

堆优化版Dijkstra求最短路-java

主要通过堆优化Dijkstra算法解决最短路,可以跟朴素版的Dijkstra算法进行对比。 文章目录 前言 一、Dijkstra求最短路 二、算法思路 1.邻接表存储图 2.用小根堆优化Dijkstra 三、代码如下 1.代码如下(示例): 2.读入数据 3.代码运行…

OpenGL绘制Bezier曲面

Bezier的定义 贝塞尔曲面是贝塞尔曲线在二维上的扩展。它由一组控制点定义,通过这些控制点生成光滑的曲面。贝塞尔曲面通常用两个参数 u u u和 v v v来表示,这两个参数的取值范围都在 [0, 1] 之间。 数学表示 P ( u , v ) = ∑ i = 0 n ∑ j = 0 m p i j ⋅ B i , n ( u ) ⋅…

基于ysoserial的深度利用研究(命令回显与内存马)

0x01 前言 很多小伙伴做反序列化漏洞的研究都是以命令执行为目标,本地测试最喜欢的就是弹计算器,但没有对反序列化漏洞进行深入研究,例如如何回显命令执行的结果,如何加载内存马。 遇到了一个实际环境中的反序列化漏洞&#xff…

text2vec 如何选择 chunksize 和 splitter?

0x00 导读 对 text2vec 来说,chunksize 选多大合适? 应该选择哪种 splitter ? BCE 还是 BGE ? 面对这些 RAG 问题,本文根据 text2vec 模型原理做假设,并用 HuixiangDou 真实数据验证,最终给出…

上海晋名室外危化品暂存柜助力国有控股高科技企业危化品安全储存

近日又有一台SAVEST室外危化品暂存柜项目成功验收交付使用,此次项目主要用于国有控股高科技企业油漆、固化剂及一些危废品的安全储存。 用户单位是一家国有控股、产权多元化的现代高科技企业。用户在日常工作运营中涉及到油漆、固化剂等危化品及一些危废品的室外安…

鄂州职业大学2024年成人高等继续教育招生简章

鄂州职业大学,作为一所享有盛誉的高等学府,一直以来都致力于为社会培养具备专业技能和良好素养的优秀人才。在成人高等继续教育领域,该校同样表现出色,为广大渴望继续深造、提升自身能力的成年人提供了宝贵的学习机会。 随着社会…

android关于源码编译简单的apk处理

文章目录 简述文件的添加 简述 创建AOSP源码可编译一个简单apk的过程,代码子目录结构图如下所示 文件的添加 1.com.custom.test目录下创建TestActivity.java文件 用于简单的界面显示类 package com.custom.test;import android.app.Activity; import android.o…

DY-110DP低电压继电器 25-124V 嵌入式安装 约瑟JOSEF

系列型号 DY-110电压继电器;GY-110电压继电器; GDY-110电压继电器;DY-110/AC电压继电器; GY-110/AC电压继电器;GDY-110/AC电压继电器; DL-110电压继电器;GL-110电压继电器; DL-…

【SD3的Turbo也来了】Jasper AI用Flash Diffusion的蒸馏技术为SD3提速

Flash Diffusion 是一种新颖的图像生成方法,旨在显著提高现有条件扩散模型(例如教师模型)的速度,而无需牺牲性能。它通过引入以下技术来实现这一点: 蒸馏损失:在教师模型和学生模型之间引入蒸馏损失&#…

深信服科技:2023网络钓鱼趋势分析报告

随着互联网的快速发展和广泛应用,网络钓鱼活动带来的安全隐患愈演愈烈。因应威胁发展,我 们编撰了此份分析报告,旨在全面了解其发展态势,并提醒相关部门、企业和公众加强防范。 在本报告中,我们将详细梳理网络钓鱼的近…

【Git】基础操作

初识Git 版本控制的方式: 集中式版本控制工具:版本库是集中存放在中央服务器的,team里每个人work时从中央服务器下载代码,是必须联网才能工作,局域网或者互联网。个人修改之后要提交到中央版本库 例如:SVM和…

无忧易售新功能:集成图片库智能图片翻译,跨越语言障碍

在电商全球化的浪潮中,跨越语言的障碍,让产品图像说话,成为了商家致胜的关键。"无忧易售ERP"推出集成图片库与图片翻译功能的全新升级,为全球电商提供一站式解决方案,让商品跨越国界,沟通无界。 …

Gartner发布2024年人工智能技术成熟度曲线:29项决定人工智能领域发展方向的前沿和趋势性技术

人工智能投资已达到新高,重点是生成式人工智能,但在大多数情况下,该技术尚未实现预期的商业价值。这项研究通过分析各种人工智能创新(其中许多创新正在快速发展),帮助人工智能领导者确定其他值得投资的技术…

1台UG图形工作站实现5-7人共享使用

随着计算机辅助设计(CAD)和计算机辅助制造(CAM)技术的不断发展,UG图形工作站已成为许多行业不可或缺的重要工具。 对于许多中小型企业而言,购买多台高性能的UG图形工作站无疑是一笔巨大的开销,…

SolidWorks上海官方代理商亿达四方:赋能智能制造,创设计新高度

在上海这片充满活力的热土上,亿达四方作为SolidWorks的正版授权代理商,正以其专业的技术力量和周到的服务体系,为当地制造业的转型升级注入强大动力。我们专注于提供原装正版的SolidWorks系列软件,以及全方位的技术支持与解决方案…

Mac OS 安装frida

安装frida和frida-tools Python是基础,提前装好Python 终端执行 python3 -m pip install frida 如果出现error 按照提示处理 信息提示:brew install pipx 于是终端执行: brew install pipx 安装frida: pipx install frida…

Web3 学习

之前学习 web3,走了不少弯路,最近看到了 hackquest,重新刷了一遍以太坊基础,感觉非常nice,而且完全免费,有需要的可以试试,链接hackquest.io。

数据链路层【Linux网络复习版】

目录 一、数据链路层主要解决的是什么问题? 二、什么是以太网? 三、什么是MAC地址? 四、以太网帧的格式是什么? 五、 什么是MTU? 六、MTU和分片 MTU对IP协议的影响? 如何分片? 如何组装&a…

有什么值得推荐的文件外发权限管理软件?

你的身边有这种事情发生吗? 一些工作人员在传达文件、部署工作时,为贪图方便,直接将涉密文件、涉密工作通过微信群传达部署,造成了大量泄密案件发生。 有些责任人员为了工作方便,对涉密文件进行拍照,通过…

卡巴斯基安全卡片

卡巴斯基委托我们制作展示各种安全场景的插图卡片,这些卡片用于在欧洲委员会支持下开发的互动在线培训课程。我们的设计师为这个项目创造了一种独特的风格,既美观又实用。卡片展示了可能出现的潜在危险情况,例如在购物中心、公交车站或办公室…