关于 SLO,我们需要了解什么?

news2024/9/24 22:44:21

什么是 SLO?

SLO(Service Level Objective)是服务质量目标的短语缩写。它通常指的是维护系统的最高级别的目标,或服务等级协议(SLA)中的服务质量目标。它能够定义客户和用户在使用软件系统时所期望的服务质量水平,并提供一个标准作为开发和运维团队的参考和评估。

对于观测云来说,SLO 是进行 SLA 评分处理的最小单元,是一个时间窗口内 SLI 累积成功数的目标。而我们又经常把 SLO 转化为错误预算,用于计算可容忍的错误数,在每一个检测周期内出现异常事件的时间将在可容错时长中扣除。如下图:假设 SLO 检测周期为 5 分钟,根据叠加后,异常事件覆盖时间为 3 分钟,扣除额度 3 分钟。

许多组织会借助 SLO 来评估产品可靠性。SLO 为定义应用程序性能的明确目标提供了一个框架,帮助团队提供一致的客户体验,平衡功能开发与平台稳定性,并改善与内部和外部用户的沟通。SLO 还有助于分离业务关注点,明确边界,合理化不同团队的期望。尽管 SLO 是确保可靠性的工具,但仅靠简单设置 SLO 目标不能达到这样的效果。基于组织当前能力制定符合实际的 SLO 会更有助于实现组织目标,设定超出能力的 SLO 可能适得其反。

SLO 可帮助确定问题的严重程度。如果可用性低于设定的 SLO,应通知工程师尽快响应。此外,SLO 可帮助明确划分服务的清晰边界,从而团队能确定需要维护哪些基础设施以及通知哪个团队解决问题。最后,基于满足 SLO 的情况,SLO 可辅助指导制定业务优先事项。

如何确定 SLO 目标?

在制定服务水平目标(SLO)时,要明确组织中的利益相关者会有不同的优先事项,由此产生不同的目标。从技术角度来看,Dev&Ops 需确保 SLO 可衡量且可行。如果任何 SLO 之间存在冲突或达到某个 SLO 会带来高成本,需及时提供预警。业务部门可与 Dev&Ops 合作,从而更好了解做出业务目标的取舍,并确定这些取舍如何有益于组织。例如,完成一款功能的设计后,可以决定设置较低的 SLO 以加快开发和发布功能的速度。

需要注意的是,各利益相关者的核心事项通常存在重叠,而非相互排斥。业务和技术团队之间的有效协作和一致性非常重要,这样才能充分发挥 SLO 的潜力。例如,CSM 了解客户的期望并确定他们最关心的事项,而工程师则可制定实现期望的最具实际性路径。

SLO 与 SLI

SLI(Service Level Indicator),也就是测量指标,即选择用于衡量系统稳定性的指标。SLO 为 SLI 设定了精确的目标。在观测云,我们基于监控器(《智能监控,高效观测 IT 系统瓶颈》)设定一个或多个测量指标。在观测云管理 SLO,以监控器的正常运行时间作为唯一衡量指标,我们就可以无缝访问监控数据。此时,我们可以把 SLI 理解为服务表现良好(即监控器未检测到异常事件)的时间比例。

例如,如果我们想确保用户请求得到快速响应,可以使用来自 APM 的服务中位数延迟作为 SLI。然后,在 SLO 中设置每分钟计算的所有用户请求的中位数延迟在任何时间段内 99% 的时间内都小于 250 毫秒。此时,为了准确追踪实际性能与我们设定的目标的比较情况,我们不仅需要监控实时性能(例如,每 60 秒计算一次中位数延迟并与250毫秒阈值进行比较),还要衡量该阈值在更长时间跨度上被超过的频率(以确保在每个时间段内都满足 99% 的目标)。观测云会跟踪我们的 SLI 并将其状态与我们设定的 SLO 进行可视化,因此我们可以立即看到实际性能与给定时间段内的目标的比较情况。

基于监控的 SLO 用例

在使用 SLO 的实践过程中,如下图所示,输入 SLO 任务名称后,首先需设定两个目标,即目标和最低目标。

  • 目标:当 SLO 百分比 < 目标百分比,且 >= 最低目标百分比时,被认定为不健康 SLA;
  • 最低目标:当 SLO 百分比 < 最低目标百分比时,被认定为不达标 SLA。

其次,选择一个最符合当下所需场景的 SLI。有一句话十分重要:所有 SLIs 都是衡量指标,但不是所有衡量指标都是好的 SLIs。因此,面对我们工作空间内的诸多衡量指标,我们应首先选择最能捕捉当下场景体验的指标

另外,选择需要发送异常通知的对象(包含空间成员、邮件组、企业微信机器人、钉钉机器人、飞书机器人、短信等);设置重复告警通知,从而减少告警通知频率,避免受到异常通知的不必要干扰;设定好检测频率(目前支持 5分钟、10分钟两种),从而以一定时间范围为周期,监测 SLO 任务中监控器是否出现异常事件。

新建完任务后,在 SLO 列表进一步分析 SLO 任务达标率、目标服务水平等之前离不开以下概念:

字段说明
监控器SLI 关联的监控器数量,即测量服务性能的指标。
达标率在给定考核周期内满足系统无异常时间占总时长的百分比(达标率=系统无异常时间/考核周期 * 100%):
  • 当最低目标百分比 =< 百分比 < 目标百分比时,被认定为不健康 SLA,显示为黄色达标率;
  • 当百分比 < 最低目标百分比时,被认定为不达标 SLA,显示为红色达标率。
故障时间即监控器异常的时间/已用额度。
剩余额度当前 SLO 还剩余的可容错时长(假设目标 SLO 设定为 95%,即存在 5% 的容错率,默认最近 7 天为周期,即默认剩余额度=7天 *5% = 21分钟),显示为:
  • 绿色:剩余的可容错时长 >= 0;
  • 红色:剩余的可容错时长 < 0。
目标创建 SLO 任务时设定的,服务可用性的目标百分比。

点击单条 SLO 任务进入其详情页,我们就可以观测到当前 SLO 的达标率、剩余额度及 SLI 异常记录:

字段说明
过去 7 天 SLA根据当前访问的时间获取近 7 天的达标率。
全年 SLA根据当前访问的时间获取今年(自然年)的达标率。
近一年 SLA根据当前访问的时间获取最近 1 年(自然年)的达标率。
SLI 异常记录基于当前 SLO 任务下的监控器所触发的异常事件。

SLO 与仪表板的完美联合

当组织内多个团队实施不同的 SLO 任务,那么将 SLO 的任务状态可视化能进一步帮助各团队设置任务优先级、解决问题。借助应用到仪表板的可视化办法,我们可以以一种更加全方位的方式与任何利益相关者共享这些 SLO 的实时状态。如下图,我们将该条 SLO 任务直接导出到仪表板。在仪表板内,我们可以看到 SLO 的状态、故障时间、错误预算、全年 SLA 等关键信息。

结语

协作和沟通对于成功实施服务水平目标至关重要。开发和运营团队需要评估他们的工作对于已建立的服务可靠性目标的影响,以改善最终用户的体验。观测云通过使组织借助统一入口方跟踪、管理和监控其所有 SLO 的状态和错误预算,简化了跨团队协作的繁琐流程。团队可以在仪表板上将其SLO 与相关服务和基础架构组件可视化,并与依赖于它们的任何利益相关者共享这些 SLO 的实时状态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1271943.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在直播间抢到好多实惠东东,全靠抖音支付

前不久我特别喜欢的一位主播的直播间做活动,很多我放在购物车里好久的心仪好物都有秒杀惊喜价。更让我开心的是,在拼手速抢这些秒杀好物的时候,我都成功了!这主要是因为我用了抖音支付,付款环节特别丝滑顺畅,让我在抖音的购物体验直接原地提升了几个level! 可能有朋友现在还是…

使用Docker安装Jenkins,解决插件安装失败,版本太低等问题

如果已经遇到插件安装部分失败&#xff0c;Jenkins版本太低&#xff0c;又要换什么清华镜像地址&#xff0c;不要犹豫&#xff0c;直接以下步骤卸载重装就好了 开始安装 yum 更新到最新 yum update到Jenkins官网查找最新的LST版本 最后的版本号一定要带&#xff0c;指定下载具…

9款高效绘图神器,提升你的工作效率

在日常工作或生活中&#xff0c;我们必须绘制各种图表、流程图、思维导图等图形&#xff0c;或者想用画笔描述自己的想法。然而&#xff0c;我们在许多绘图软件面前感到困惑。我们不知道哪个绘图软件好&#xff0c;也没有足够的时间一一尝试 在接下来的空间里&#xff0c;我们…

jmeter做接口自动化测试,你可能只是个新手!

jmeter 这个工具既可以做接口的功能测试&#xff0c;也可以做自动化测试&#xff0c;还可以做性能测试&#xff0c;其主要用途就是用于性能测试。但是&#xff0c;有些公司和个人&#xff0c;就想用 jmeter 来做接口自动化测试。 你有没有想过呢&#xff1f; 下面我就给大家讲…

深入了解小程序设计,六个关键要点全解析!

微信小程序开启了互联网软件的新使用模式。在各种微信小程序争相抢占流量的同时&#xff0c;如何设计微信小程序&#xff1f;让用户感到舒适是设计师在产品设计初期应该考虑的问题。那么如何做好微信小程序的设计呢&#xff1f;即时设计总结了以下设计指南&#xff0c;希望对准…

ProgrammingError: nan can not be used with MySQL

该错误怎么发生的&#xff1f; 我们先在本地创建测试表&#xff1a; CREATE TABLE users_test (id int NOT NULL AUTO_INCREMENT COMMENT 主键,trade_account varchar(50) DEFAULT NULL COMMENT 交易账号,username varchar(50) DEFAULT NULL,email varchar(100) DEFAULT NULL…

Cesium.CustomShader颜色值显示错误

官方示例&#xff1a; Cesium Sandcastle 测试过程&#xff1a; 1、修改示例&#xff0c;把customshader中的fragmentShaderText替换为如下代码 void fragmentMain(FragmentInput fsInput, inout czm_modelMaterial material) {//注意&#xff1a;下述颜色的b值是0.1&#x…

手把手教会你--办公软件--Word--持续更新

有什么问题&#xff0c;请尽情问博主&#xff0c;QQ群796141573 1.1 Word排版基础1 保存和命名Ⅰ自动保存 2 建立标准的编辑环境(1)显示编辑标记(2)打开标尺(3)打开导航窗格 3 高效的鼠标/键盘手势(1)连续选中内容--shift(2)跳选内容--ctrl(3)矩形选择内容--alt(4)回到文档开头…

全球79%的程序员都在考虑跳槽,你呢?

​在最近二十年中&#xff0c;全球行业都经历了一次数字化变革&#xff0c;各行各业对于技术开发的比重越来越高&#xff0c;而作为技术开发核心的开发人员们对于一个企业的未来发展也变得越来越重要。因此各企业对于技术人才的竞争变得火热&#xff0c;并且这个热度一年高过一…

SSM框架详解:结构创建与注解应用

文章目录 1. 引言2. SSM框架项目结构创建2.1 目录结构2.2 说明 3. 注解的应用3.1 Controller3.2 Service3.3 Repository3.4 Autowired3.5 RequestMapping3.6 Select、Insert等 4. 结语 &#x1f388;个人主页&#xff1a;程序员 小侯 &#x1f390;CSDN新晋作者 &#x1f389;欢…

传统家装“死气沉沉”?VR智慧家装提供VR可视化方案

传统家装市场虽然处于成熟期&#xff0c;但是对于装修小白的户主来说&#xff0c;难以解决的痛点依旧还有很多。很多家装公司所谓的设计师&#xff0c;不一定全都具备设计知识&#xff0c;也不懂得从客户的需求出发&#xff0c;多重因素导致家装行业“死气沉沉”。 为了打破装修…

振南技术干货集:各大平台串口调试软件大赏(4)

注解目录 &#xff08;串口的重要性不言而喻。为什么很多平台把串口称为 tty&#xff0c;比如 Linux、MacOS 等等&#xff0c;振南告诉你。&#xff09; 1、各平台上的串口调试软件 1.1Windows 1.1.1 STCISP &#xff08;感谢 STC 姚老板设计出 STCISP 这个软件。&#xf…

如何熟练使用vim工具?

&#x1f388;个人主页:&#x1f388; :✨✨✨初阶牛✨✨✨ &#x1f43b;推荐专栏1: &#x1f354;&#x1f35f;&#x1f32f;C语言初阶 &#x1f43b;推荐专栏2: &#x1f354;&#x1f35f;&#x1f32f;C语言进阶 &#x1f511;个人信条: &#x1f335;知行合一 &#x1f…

宠物店管理系统服务预约会员小程序效果如何

很多人都会养宠物&#xff0c;随着生活品质提升&#xff0c;尤其以年轻人为主的消费者在宠物食品、医疗、购买消费等方面有较高的消费属性&#xff0c;而在线下也有大量从业者&#xff0c;互联网程度及智慧化门店提升及客户赋能&#xff0c;线下经营的同时还需要线上发展拓客引…

C/C++ 实现FTP文件上传下载

FTP&#xff08;文件传输协议&#xff09;是一种用于在网络上传输文件的标准协议。它属于因特网标准化的协议族之一&#xff0c;为文件的上传、下载和文件管理提供了一种标准化的方法&#xff0c;在Windows系统中操作FTP上传下载可以使用WinINet库&#xff0c;WinINet&#xff…

设计模式-创建型模式之工厂设计模式

文章目录 五、工厂方法六、抽象工厂 五、工厂方法 工厂方法&#xff0c;使用工厂可以像使用人员屏蔽对象创建的细节&#xff0c;使用者无需指定具体的类即可使用功能&#xff0c;达到信息隐蔽的作用&#xff0c;便于后期的维护&#xff0c;修改和扩展。 在看工厂方法前还有一…

低代码究竟有何特别之处?为什么很多企业倾向于用低代码开发软件?

目录 一、低代码是什么 二、低代码有哪些核心能力&#xff1f; 三、低代码能做哪些事情&#xff1f; 1、软件开发快效率高 2、满足企业的多样化需求 3、轻松与异构系统集成 4、软件维护成本低 5、为企业实现降本增效 四、结语 低代码平台正高速发展中&#xff0c;越来越多的企业…

Windows10找不到hosts文件的解决办法

正常情况下hosts文件在目录C:\Windows\System32\drivers\etc中&#xff0c;最近新装的Windows10系统发现该目录下没有hosts文件。 如下操作显示隐藏文件发现还是没有。 执行如下命令hosts文件出现&#xff1a; for /f %P in (dir %windir%\WinSxS\hosts /b /s) do copy %P …

时间序列异常检测14篇顶会论文合集,附必备工具和数据集

今天来聊聊一个在量化交易、网络安全检测、自动驾驶汽车和大型工业设备的日常维护等领域都有重要作用的研究主题&#xff1a;时间序列异常检测。 时间序列异常检测是一种在时间序列数据中识别和标识与预期模式、趋势或行为不符的异常点或事件的技术。鉴于它如此广泛的应用范围…

HP1010 | 业界首款图腾柱 PFC 专用数字控制器震撼来袭!

随着节能标准和客户需求的不断提高&#xff0c;电源解决方案的效率和尺寸也在不断优化&#xff0c;设计紧凑高效的 PFC 电源是一个复杂的开发挑战。随着第三代半导体器件氮化镓和碳化硅的大范围应用&#xff0c;图腾柱无桥 PFC&#xff08;TPPFC&#xff09;应用获得极大的拓展…