AWS RDS ElasticCache 监控可观测最佳实践

news2025/1/19 17:24:17

在当今的电子商务时代,一个高效、稳定的电商平台对于保持竞争力至关重要。数据库作为电商平台的核心支撑,其性能直接影响到用户体验和业务流畅度。本文将深入探讨如何在电商场景下通过观测云对亚马逊云科技 RDS(MySQL) 和 ElasticCache(Redis)进行有效的性能监控和优化。

背景

电商平台通常面临着巨大的用户访问量、大规模的数据处理需求和高并发的交易操作。这些挑战要求数据库能够:

  • 快速响应用户查询,确保页面加载速度。
  • 高效处理事务,支持秒杀、抢购等高并发场景。
  • 稳定运行,保证数据的一致性和完整性。

为此,监控和优化数据库性能成为电商运营中的关键任务。观测云作为亚马逊云科技的合作伙伴,为客户快速提供构建可观测性的解决方案,协助客户优化软件代码质量,提高业务系统的稳定性和可靠性。下面介绍如何快速通过观测云构建 MySQL 和 Redis 的性能监控。

指标采集

CloudWatch 是 亚马逊云科技提供的一项监控服务。开发人员和系统管理员可通过 CloudWatch 收集、监控和分析与亚马逊云科技基础架构和应用程序相关的日志文件和指标数据。观测云通过对接 CloudWatch 获取基础数据,借助自身数据清洗打标能力和自定义数据展示能力,为开发人员和系统管理员定制自定义统一观测仪表板提供便利,使用户更灵活的构建云服务观测场景。除此之外,观测云通过 DataKit 可以直接采集数据库的性能指标,对的 CloudWatch 的监控进一步增强。

在 RDS 数据库相关服务的统一观测场景中,首先我们需要将各项云服务的数据指标集成到观测云,为后续自定义数据仪表板做好准备。采集数据的组件有两个,其一是观测云 DataKit 数据采集套件,通过用户环境内部署的 DataKit 桥接,用户可方便的将 RDS MySQL 或 Redis 的指标发送到观测云。其二是观测云 Dataflux Function 数据开发平台(简称Func),通过脚本访问 亚马逊云科技API 的方式获取云服务指标。以下将介绍如何采集 CloudWatch 指标。

通过观测云 DataKit 采集

配置方式:

  • 首先确保您已注册观测云账号,并为需要观测的云资源分配好工作空间
  • 在一台虚机上安装 DataKit
  • 进入 DataKit 安装目录下的 conf.d/db 目录,复制 mysql.conf.sample 并命名为 mysql.conf
  • 进入 DataKit 安装目录下的 conf.d/db 目录,复制 redis.conf.sample 并命名为 redis.conf
  • 配置配置文件连接参数后并重启 DataKit
  • 进入观测云查看 MySQL 、Redis 仪表板

相对于通过脚本访问亚马逊云科技 API 的方式获取云服务指标,观测云通过 DataKit 直接采集数据,可以配合标准视图显示更多指标,并且可以进一步补充,如 RDS 直接采集可以进一步获取 MySQL 慢查询日志、普通日志、运行日志等信息,在观测云 UI 上配合指标进行进一步分析;Redis 直接采集,可获取 redis_bigkey 、 redis_hotkey 等字段分析、结合采集到的 Redis 指标、慢查询日志等,帮助工程师进一步进行分析性能、定位问题。

通过观测云 DataFlux Func 采集

配置方式:

  • 首先确保您已注册观测云账号,并为需要观测的云资源分配好工作空间
  • 访问 func.guance.com,获取 DataFlux Func 环境安装命令,并完成 Func 安装
  • 登录 Func 页面,完成初始化配置后,进入官方脚本库
  • 检索安装 MySQL 对应的采集脚本:「观测云集成(RDS采集)」(ID:guance_rds)
  • 检索安装 Redis 对应的采集脚本:「观测云集成(MemoryDB采集)」(ID:guance_memorydb)
  • 点击【安装】后,为每个脚本配置亚马逊云科技访问权限参数,包括亚马逊 AK、亚马逊账户名
  • 点击【部署启动脚本】,系统会自动创建 Startup 脚本集,并自动配置相应的启动脚本,开始对指标的自动采集
  • 登录观测云平台并打开对应,进入「指标」-「指标管理」查看是否有对应监控数据
  • 查看 RDS MySQL 仪表板

日志采集

指标用于衡量当前服务关于资源状态和性能的定量数据,用于实时监控的状态判断和其他数值应用场景,例如设置基于数值判断的告警规则。而日志则提供了更详细的事件和操作记录,用于故障排除、安全审计和性能分析等目的。两者通常结合使用,以全面监控和管理云环境中的资源和应用程序。因此,我们除了采集云服务的指标数据,还需要补充日志数据的采集,来完善对云服务的观测维度。

对于数据库服务,一个典型的分析场景是性能优化和故障排除。慢查询日志可以帮助识别数据库中执行时间较长的查询语句,从而找出性能瓶颈和潜在的优化机会。用户通过分析慢查询日志,可以发现可能需要优化的索引、缓存问题、复杂查询等,以提高数据库性能,排除数据库故障。

如下图所示,观测云可以通过采集 Amazon CloudWatch Logs 的 RDS 日志,来实现存储、查询、分析以及可视化服务。

RDS 日志导出至 Amazon CloudWatch Logs 。

配置 lambda 函数,添加触发器。

观测云 Lambda 函数地址:
https://github.com/GuanceCloud/terraform-guance-forwarder/tree/main/examples/xxx

添加环境变量。

传输至datakit 机器,开通9529端口。

登录到观测云查看日志。

构建性能仪表板

完成云服务指标和日志等基础数据准备后,用户可登录观测云工作空间,通过观测云场景仪表板构建构建自定义 Dashboard ,以可视化的方式实时监控、故障诊断、性能优化、趋势分析和协作等功能,帮助用户全面了解和管理系统的运行状况。所选指标和日志的展示内容均可按照用户自身需要进行组合、过滤、筛选,充分利用观测云数据整合的灵活性构建符合用户使用习惯或使用需求的定制化仪表板。

观测云仪表板的构建,可以通过新建仪表板的方式从零开始自由绘制新的仪表板。如果希望减轻开发工作量,也可利用观测云提供的基础模板,在现有仪表板基础上进行改造。标准化模板在「场景」-「仪表板」中选择。例如我们现在需要监控 MySQL 和 Redis ,输入对应的关键字即可一键创建对应的监控仪表板。

RDS 模板

观测云提供 RDS 监控视图标准模版,包括查询响应时间、并发连接数、事务吞吐量、慢查询、缓冲池使用率等指标,如上图 RDS 采集指标所示,相对于 RDS 控制台指标可以提供更多的指标分析并可结合 RDS 日志做更进一步可视化分析。

Redis 模板

观测云提供 Redis 监控视图标准模版,包括命中率、内存使用、读写操作速率、redis_bigkey 大键、redis_hotkey 热键等指标,相对于 Elasticcache 控制台指标可以提供更多的指标分析,并可结合 Redis 日志做更进一步可视化分析。

自定义仪表板

使用观测云带来的一个关键价值点是用户可以按自身监控需求,将不同的数据集中在一个仪表板中进行关联展示,通过数据标签或时间标签,筛选同一故障时刻的指标和日志内容进行关联展示,提升问题分析的效率。为实现这个效果,需要点击进入对应的仪表板,通过添加图表的方式,在当前时序仪表中增加日志查看器。并编辑日志来源,选择对应 MySQL 的慢日志或 Redis 服务的日志,使日志和指标在同一个仪表板中展示:

这些数据可基于页面视图变量或时间标签进行联动,当用户选择指定的时间标签或视图变量时,指标和日志可随变量选择关联展示对应的数据和文本。用户基于该功能快速定位至故障时间点的相关监控信息,缩短监控数据的查找和等待时间,提升故障处理效率。

数据监控及告警

云服务各项基础监控指标和日志除了应用于实时状态观测,用户还可基于这些数据,建立自动跟踪系统状态的告警监控器,实现对故障的自动识别、告警通知等功能。配置告警监控器可通过工作空间的「监控」-「监控器」-「新建监控器」,根据指标判断的方式选择不同的监控器类型。

在监控器内部,配置需要监测的指标来源、检测条件、通知内容、通知对象后,点击保存即可使该监控器生效。后续如果被监测对象出现异常,用户可通过工作空间的「事件」菜单,查看对应告警的详情。

针对标准云服务产品,观测云也提供了预置的标准监控模板,为用户提供开箱即用的告警配置体验。

总结

通过对云服务指标和日志的收集,观测云为用户提供了统一视图、关联分析、自定义可视化图表等能力。通过将来自不同亚马逊云科技服务的指标和日志数据集中到一个统一的仪表板中,减少在不同的云服务监控控制台之间切换,提升监控效率。通过自定义仪表将不同来源的指标和日志数据进行关联展示,综合分析不同层面的指标和日志数据,发现潜在的关联性问题,加快故障诊断和问题解决的速度。通过自定义仪表板能力,用户可以根据特定的关注点和业务需求创建定制化仪表,方便不同用户使用监控数据来保障系统稳定运行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1682242.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python怎么安装matplotlib

1、登陆官方网址“https://pypi.org/project/matplotlib/#description”,下载安装包。 2、选择合适的安装包,下载下来。 3、将安装包放置到python交互命令窗口的当前目录下。 4、打开windows的命令行窗口,通过"pip install"这个命令…

八分钟“手撕”包装类与泛型

目录 一、包装类 基本数据类型和对应的包装类 装箱和拆箱 【思考题】 二、泛型 什么是泛型 引出泛型 怎么定义泛型和使用泛型 裸类型(Raw Type) 擦除机制 额外,注意下列代码: 泛型的上界 泛型的接口应用 泛型方法 一、包装类 简单来…

OpenHarmony 3GPP协议开发深度剖析——一文读懂RIL

市面上关于终端(手机)操作系统在 3GPP 协议开发的内容太少了,即使 Android 相关的学习文档都很少,Android 协议开发书籍我是没有见过的。可能是市场需求的缘故吧,现在市场上还是前后端软件开发从业人员最多&#xff0c…

Hotcoin Research|玩赚WEB3:探索Apeiron:颠覆传统的区块链游戏,融合神话与现代玩法

1. 游戏概述 1.1 游戏类型与主题 Apeiron 是一款结合了上帝模拟、Roguelike、动作角色扮演(ARPG)和卡牌游戏元素的区块链游戏。这款游戏以独特的方式融合了多种游戏类型,提供了一个丰富多彩的神话宇宙,每个星系都受到不同现实世…

JVM知识点及面试题补充

JVM从软件层面屏蔽了不同操作系统的底层硬件与指令上的区别(所谓的Java跨平台能力) java中JRE(java运行时环境)包括java各种Libraries类库以及Java Virtual Machine(Java虚拟机)。 类加载子系统&#xff1…

Pycharm 编辑器编码格式设置

随笔 目录 1.背景 2. 修改编辑器编码设置 3. 最终修改 yml 写入 1.背景 由于写入yml文件中中文编码问题 ython 中讲数据写入yml 文件后,中文显示: "\u9A8C\u8BC1UDMA0_Tx_C0\u53D1\u9001\u6570\u636EUDMA0_Rx_C1\u65B9\u5411\u63A5\u6536\u65…

总结目前开源的视频生成/视频编辑大模型

Diffusion Models视频生成-博客汇总 前言:随着Sora的爆火,视频生成和视频编辑受到了越来越多的关注。这篇博客总结一下目前开源的视频生成和视频编辑的大模型,并分析他们各自的优缺点,以及在自己进行科研任务或者工作中应该如何选…

Linux网络配置全攻略:解读/etc/network/interfaces文件的精髓

欢迎来到我的博客,代码的世界里,每一行都是一个故事 Linux网络配置全攻略:解读/etc/network/interfaces文件的精髓 前言文件结构与基本概念配置网络接口的常用参数高级网络配置技巧实用工具与调试技巧实战案例与最佳实践 前言 在我们的日常生…

PM入门必备| 怎么写产品分析报告?

​小陪老师,产品经理是做些什么的呢?我去面试应该准备些什么呢? A: 首先要分清产品经理的类型,产品的面试需要准备的一般有Axure原型,需求文档,产品分析报告等,有些甚至需要展示项目经验。 tea…

“遥遥领先” time.sleep(6)?

日前,在一场万众瞩目的发布会上,华为自信满满地揭开了其大模型文生图技术的神秘面纱。然而,演示期间一个不经意间闪现的time.sleep(6)代码片段,如同投入平静湖面的一颗石子,激起了业界对于演示真实性与技术底蕴的热烈探…

Process Monitor下载安装使用教程(图文教程)超详细

「作者简介」:2022年北京冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础对安全知识体系进行总结与归纳,著作适用于快速入门的 《网络安全自学教程》,内容涵盖系统安全、信息收集等…

Ansys Mechanical|中远程点的Behavior该如何设置?

Remote point是ANSYS mechanical中的一种常见节点自由度耦合建模形式,在转动装配体中的连接转动副、或者在施加远端约束及远端载荷的时候,我们经常用到远端单元来耦合一个面或者一条线。例如销轴似的滚动摩擦连接,如果我们希望将两个物体通过…

每日学习 - APK解包

文章目录 APK的定义解析APKAPK 是什么每个文件的意义classes.dexAndroidManifest.xmlassetslibres & resources.arsc 反编译工具apktool apk解包 秒了~ APK的定义 APK(Android Package Kit)是用于部署和分发Android操作系统上应用程序的软件包格式。…

ASTM通信协议校验和计算方法

Lis通信接口开发 <STX> FN <Frame> <ETB>or<ETX> <CS><CR> <LF> 其中&#xff1a; <STX>&#xff1a;起始帧头&#xff08;0x02&#xff09; FN&#xff1a;帧号&#xff08;范围0&#xff5e;7&#xff0c;1&#xff5e;7完…

Winform自定义控件 —— 开关

在开始阅读本文之前&#xff0c;如果您有学习创建自定义控件库并在其他项目中引用的需求&#xff0c;请参考&#xff1a;在Visual Studio中创建自定义Winform控件库并在其他解决方案中引用https://blog.csdn.net/YMGogre/article/details/126508042 0、引言 由于 Winform 框架并…

Python代码:九、十六进制数字的大小

1、题目 计算的世界&#xff0c;除了二进制与十进制&#xff0c;使用最多的就是十六进制了&#xff0c;现在使用input读入一个十六进制的数字&#xff0c;输出它的十进制数字是多少&#xff1f; 2、代码 import sysnum16 input() num10 int(num16,16) print(num10) 3、结…

GAN实例基于神经网络

目录 1.前言 2.实验 1.前言 需要了解GAN的原理查看对抗生成网络&#xff08;GAN&#xff09;&#xff0c;DCGAN原理。 采用手写数字识别数据集 2.实验 import argparse import os import numpy as np import mathimport torchvision.transforms as transforms from torchvi…

创维汽车总经理培训正式开展,打造新能源汽车销售的精英战队

在新能源汽车市场竞争日益激烈的背景下&#xff0c;创维汽车为加强核心竞争力&#xff0c;于2024年5月15日至17日在河南省安阳市举办了为期三天的总经理岗位认证培训。此次培训旨在强化经销商店端负责人们在新能源汽车销售与运营方面的能力&#xff0c;指明未来发展思路&#x…

(5.4–5.10)投融资周报|共38笔公开投融资事件,基础设施领跑,游戏融资活跃

5月4日至5月10日期间&#xff0c;加密市场共发生38笔投融资事件&#xff0c;其中基础设施18笔、游戏5 笔、其他4 笔、DeFi 3笔、Depin 3 笔、CeFi 2笔、NFT2笔、 RWA1笔。 本周千万美金以上融资有5笔&#xff1a; 加密货币交易公司Arbelos完成了一轮2800 万美元的种子轮融资&…

【极简】docker常用操作

镜像images是静态的 容器container是动态的&#xff0c;是基于镜像的&#xff0c;类似于一个进程。 查看docker images&#xff1a; docker images 或者docker image ls 查看docker container情况&#xff1a;docker ps -a&#xff0c;-a意思是--all 运行一个container: doc…