阿里云运维第一步(监控):开箱即用的监控

news2025/2/25 10:35:23

作者:仲阳

这是云的时代,现在云计算已经在各行各业广泛的应用。但是上云对于大多数客户来说,依然有很大的学习成本,如下图仅是阿里云都有几百款产品,怎么选择?怎么用?对于客户来说都是问题。“用好云、管好云”不仅仅是口号,还是我们的目标。

图片

来自于:https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B《阿里云产品手册 2024 版》

“兵马未动、粮草先行”, 今天我们就针对阿里云的上云新用户,如何开启自己的可观测历程,做一个简单的介绍。

认识可观测的分层

图片

在可观测的领域里面,技术栈主要分为 metric、trace、log 三个方向,从业务分成上我们的观点主要分为体验、业务、应用和资源。这个金字塔越上面的越贴近用户的真实体感,比如用户用了 100 台服务器,其中一台服务器宕机,不一定能影响用户,但如果是从网络监控上发现问题,大概率用户已经受影响。反过来讲,金字塔越下面,发现的问题越具体、越能快速解决,还是上面这个例子,ECS 有问题可以重启、扩容等处理方式,但用户体验服务不可用的原因就有很多,需要更多时间去确定问题。

言归正传,今天我们希望跟一些刚刚涉猎阿里云的客户可以快速构建一套完整的云资源监控解决方案。在此基础上随着云应用的深入,有更多可观测解决方案等着你。

阿里云云监控的初体验

阿里云云监控旨在解决可观测领域的各种问题。基石就是下面这三个技术栈,在这个基础上又分为 Dashboard、Alert、API 等多用应用方式。云监控云服务监控主要针对的是 Metrics on Cloud Resource 这个场景。

图片

首先我们要先进入云监控产品页,可以看到有五大功能模块——云资源监控、网络分析与监控、可视化 Dashboard、告警服务、事件中心。其中云资源监控是我们今天重点分享的一个功能模块,这个模式是开箱即用的功能,只要用户在阿里云上购买了资源产品,就可以在这里看到相关的监控指标大盘。

图片

既然要“用好云”,自然是要按照“看得见”、“听得见”。需要时可以通过可视化组件看到云资源的状态,忙时系统还会自动的监控资源,通过报警系统通知出来。

图片

在云监控上如何“看得见”

无用质疑,ECS 是阿里云计算的根基,也是云监控首要支持的一个款产品。在云监控的菜单体系里面也是最显眼的地方,如上图。用户购买 ECS,自然可以在“主机监控”这个菜单看得到。主机监控的视图将围绕 CPU、内存、负载、网络、磁盘,同时也提供了 Top 5 进程监控。

图片

图片

云监控不仅仅有 ECS 的监控,有超过 100 款云产品的监控数据都在云监控产品,可以说在云监控可以看到阿里云资源的任意监控。

图片

高阶玩家还有两个选择:

1)自定义 Dashboard,可以用自己的视角管理云资源监控。

2)通过 API 将监控指标数据拉走,通过自建的监控系统做集成。

这篇文章主要聚焦在监控运维的第一步,高阶玩法暂时不展开。

如何在云监控系统中“听得见”

做过运维的人都应该清楚一个事情,可观测是手段不是目的。客户最重要的目的是让自己的应用(服务)长期保持高可用。为了这个目标,可观测是第一步,首先要看得见系统的状态,然后就是在这个状态不正常进行合理的运维,比如扩容、重启、迁移、限流等等。

同样,高阶玩家有很多措施可以完成这个目标(“应用(服务)长期保持高可用”),但在这篇文章中,我们更想给初入此道的同学以简单易用,类似于 helloworld 这个层次的介绍。有了第一步,进阶还远么?

如何听得见?

电话、短信、邮件?不够

钉钉、企业微信、飞书?好像有点意思了

自动弹性伸缩(ESS),Serviceless 函数调度(FC),消息队列驱动运维(MSN)?还可以这样?

终极杀器——Webhook:Pagerduty、Slack、Teams。

如果上面这些措施,客户还听不见?没事,你提出来,谁知道未来是怎样的。

其中这里面暗含另一个问题:我们需要听见什么声音?报警阈值的规则,高阶玩家可以选择智能阈值、组合报警、表达式报警等重量级别的功能。那初阶玩家应该做什么?两个事情:一键报警和治理检测。

一键报警,云监控已经将最重要的指标,以及指标的合理阈值都总结出来,对于初阶用户来说不用太多思考,先将报警规则设置好,当云资源出现问题时就可以及时响应。

图片

治理检测,如果你不清楚你在云监控的用法是否合理,不用费脑子,一键诊断,按照提示下一步即可。一下子可以达到“水准之上”的水平。

图片

写在后面

云资源监控是可观测领域里面一个子集,监控是运维的驱动力。可观测的建设是长期的,包括体验层面的 RUM(前端监控)、synthetic(拨测)、PTS(压测),应用监控(APM),日志等多方位全面的覆盖。大家需要根据自己的业务重要程度来做相应的解决方案。

今天只是初步的介绍了最入门的几个云监控开箱即用的能力,最小依赖的可以在阿里云得到基本的监控报警保证。后面还有有一系列的文章介绍云监控的概念和能力。

参考资料:

[1] “CITE 2015”亮点解读《2015 政府工作报告》

https://www.cac.gov.cn/2015-04/09/c_1114917386.htm

[2] 阿里云产品手册 2024 版

https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B

[3] 阿里云云监控帮助文档

https://help.aliyun.com/zh/cms/

[4] 云监控指标

https://help.aliyun.com/zh/cms/support/appendix-1-metrics?spm=a2c4g.11174283.0.0.2f30182fLPRKyv

[5] AWS cloudwatch

https://aws.amazon.com/cn/cloudwatch/

[6] 钉钉

https://oa.dingtalk.com/

[7] 企业微信

https://work.weixin.qq.com

[8] 飞书

https://www.feishu.cn/

[9] pagerduty

https://www.pagerduty.com

[10] slack

https://slack.com/intl/zh-cn/

[11] teams

https://www.microsoft.com/zh-cn/microsoft-teams/group-chat-software

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1824027.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

后端常见问题解答-位运算实际场景讲解

位运算 在计算机存储的世界中,一切都是二进制的,位运算就是对二进制位进行操作的一种运算。位运算是计算机中的一种常见运算,可以用来提高性能和提升代码的可读性。 位运算有很多种,比如与、或、非、异或等,这些运算…

【踩坑】解决运行一段时间GPU计算后忽然变得很慢

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 目录 发现问题 问题分析 修复思路 思路一 思路二 思路二对应代码 这个问题真的找了我好久,但说起来其实也简单,就是GPU温…

XILINX 7系列XDMA使用_IP核介绍以及工程搭建

文章目录 一、XDMA IP核1.1、接口说明1.2、配置页说明 二、XDMA工程搭建2.1、BD搭建2.2 Linux下XDMA驱动安装2.3 Linux下使用XDMA进行数据传输 一、XDMA IP核 1.1、接口说明 sys_clk:主机给PCIE提供的时钟信号,通过原理图查看 sys_rst_n:主机…

Flowable工作流中会签节点处理回退并清除审批意见

文章目录 1,操作方法及步骤2,实现细节3,总结 1,操作方法及步骤 在Flowable工作流会签流程中,如果最后一个人选择回退流程,想要清除前面用户A和B填写的审批意见,需要通过Flowable提供的API来操作…

LVS_Director + KeepAlived + 邮件报警

目录 一. 环境准备 二. 对master和backup操作 三. 配置master主机 四. 配置backup主机 六. 验证虚拟IP 七. 配置后端两个web服务器 对web1和web2主机都进行如下操作: 单独修改web1主机 单独修改web2主机 验证 八. 设置邮件报警 一. 环境准备 KeepAlive…

【CT】LeetCode手撕—102. 二叉树的层序遍历

目录 题目1-思路2- 实现⭐102. 二叉树的层序遍历——题解思路 3- ACM实现3-1 二叉树构造3-2 整体实现 题目 原题连接:102. 二叉树的层序遍历 1-思路 1.借助队列 Queue ,每次利用 ①while 循环遍历当前层结点,②将当前层结点的下层结点放入 …

[大模型]Qwen2-7B-Instruct 接入 LangChain 搭建知识库助手

环境准备 在 autodl 平台中租赁一个 3090 等 24G 显存的显卡机器,如下图所示镜像选择 PyTorch–>2.1.0–>3.10(ubuntu20.04)–>12.1 接下来打开刚刚租用服务器的 JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行 demo。 pip 换源…

图文RAG组件:360LayoutAnalysis中文论文及研报图像分析

AI应用开发相关目录 本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧 适用于具备一定算法及Python使用基础的人群 AI应用开发流程概…

ripro主题如何使用memcached来加速

ripro主题是个很不错的资源付费下载主题。主题自带了缓存加速开关,只要开启了缓存加速功能,正常情况下能让网站访问的速度提升很大。 但好多人这么做了却发现没啥加速效果,原因就在于wordpress里缺少了memcache文件。只需要把object-cache.ph…

电脑怎么录制游戏视频?轻松捕捉每一帧精彩

随着游戏产业的蓬勃发展,越来越多的玩家不仅满足于在游戏世界中的探索与冒险,更希望将自己的游戏精彩瞬间记录下来,分享给更多的朋友。可是电脑怎么录制游戏视频呢?本文旨在为广大游戏爱好者提供一份详细的电脑游戏视频录制攻略&a…

MySQL员工练习

MySQL员工练习 1.数据显示 员工信息表emp: 字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号 英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNO 部门信息表dept: 字段:部门编号,部门名称,部…

vscode 终端无法正常执行脚本命令如何解决

我们经常需要在vscode的中安装第三方依赖包,npm是前端目前最大的Node.js模块化管理系统,它能帮助开发者管理和发布Node.js模块。但很多时候我们在vscode的终端中执行npm install命令时经常会报以下错误: 但是在Windows的cmd命令提示符中执行n…

VM映像构建实践

概述 VM映像做为创建VM的必要条件,各类云环境映像市场均有提供最基础的映像。创建VM后,通常还需要根据组织或用户的需求,安装一些软件、修改配置后才能满足使用需求。这类需求通常可以手动部署或者借助一些配置管理工具,如ansibl…

KVM+GFS分布式存储系统构建高可用群集

KVMGFS 分布式存储系统构建 KVM 高可用群集 一:理论概述 1.1:Glusterfs 简介 Glusterfs 文件系统是由 Gluster 公司的创始人兼首席技术官 Anand Babu Periasamy编写。 一个可扩展的分布式文件系统, 用于大型的、 分布式的、 对大量数据进行访…

Java版SaaS模式云HIS系统源码Java+Spring+SpringBoot+SpringMVC 基层卫生健康云HIS源码

Java版SaaS模式云HIS系统源码JavaSpring+SpringBoot+SpringMVC 基层卫生健康云HIS源码 云HIS全称为基于云计算的医疗卫生信息系统(Cloud-BasedHealthcareInformationSystem),是运用云计算、大数据、物联网等新兴信息技…

宝藏速成秘籍(6)归并排序法

一、前言 1.1、概念 归并排序(Merge Sort)是一种基于分治思想的排序算法。它将数组分成两个子数组,分别对这两个子数组进行排序,然后再将它们合并成一个有序的数组。归并排序是一种经典的分治算法,它的核心思想是将待…

Elasticsearch搜索引擎(高级篇)

3.1 查询语法 | 《ElasticSearch入门到实战》电子书 (chaosopen.cn) day09-Elasticsearch02 - 飞书云文档 (feishu.cn) 目录 第一章 DSL查询 1.1 基本语法 1.2 叶子查询 全文检索查询 精确查询 1.3 复合查询 算分函数查询 bool查询 1.4 排序 1.5 分页 基础分页 深度分…

Visual Studio Code连接VMware虚拟机

1.安装VS Code插件 在拓展中安装插件 Remote-SSH 2.在虚拟机中安装OpenSSH服务器 使用超级用权限(root)更新软件包列表,Debian系统和Ubuntu系统使用apt包管理工具: sudo apt update CentOS系统使用yum或dnf包管理工具: sudo yum update …

618全面开战,抖音电商头部品牌罗拉密码突然“不干”了?

前言: 随着618电商大战的硝烟渐浓,各大电商平台纷纷摩拳擦掌,准备在这场年度购物盛宴中大展拳脚。然而,在这热闹非凡的氛围中,一个熟悉的名字却显得格外低调——罗拉密码。作为抖音电商领域的头部品牌,罗拉…