站点可靠性工程 (SRE)

news2024/11/18 8:17:30

随着世界各地的组织努力开发安全、可靠、可扩展且可持续的 IT 基础架构,对高效基础架构监控和管理的需求日益增长,企业正在用不可扩展的遗留架构换取现代解决方案,在尖端技术的推动下,这些使基础设施管理过程更加顺畅和轻松,其中一项技术是站点可靠性工程 (SRE),它有助于扩展基础结构管理流程。

什么是 SRE

站点可靠性工程 (SRE) 是指使用软件工具自动执行 IT 基础架构任务(如系统管理和应用程序监控)的做法,组织使用 SRE 来确保其软件应用程序在开发团队频繁更新时保持可靠,SRE 特别提高了可扩展软件系统的可靠性,因为使用软件管理大型系统比手动管理数百台计算机更具可持续性。

SRE 专注于开发和管理可持续且可靠的网络,以提供无缝的最终用户体验,同时确保基础设施正常运行。

为什么站点可靠性工程很重要

站点可靠性描述了应用程序提供给最终用户后的稳定性和服务质量。如果未发现技术问题,软件维护有时会影响软件的可靠性。例如,当开发人员进行新的更改时,可能会无意中影响现有应用程序,并导致软件在某些使用案例中崩溃。

以下是站点可靠性工程 (SRE) 实践的一些好处:

  • 增强合作
  • 客户体验增强
  • 操作规划得到改进

增强合作

SRE 改善了开发和运营团队之间的协作。开发人员通常必须对应用程序进行快速更改,以发布新功能或修复关键错误。另一方面,运营团队必须确保服务无缝交付,因此,运营团队需要使用 SRE 实践来密切监控每一次更新,并及时响应因变更而出现的任何问题。

客户体验增强

组织使用 SRE 模型来确保软件错误不会影响客户体验。例如,软件团队使用 SRE 工具来实现软件开发生命周期自动化,这样可以减少错误,意味着团队可以将新功能开发优先于漏洞修复。

操作规划得到改进

SRE 团队接受软件失败的现实可能性。因此,团队需要计划适当的事故响应,以尽量减少停机时间对业务和最终用户的影响,其还可以更好地估计停机成本,并了解此类事故对业务运营的影响。

SRE 如何使基础架构受益

在快节奏的环境中,例如企业 IT 基础架构,可能会发生大量事件和事件,网络管理员只能做这么多来管理一切。随着越来越多的企业过渡到面向云的方法,甚至是云原生的方法,对 SRE 的需求迫在眉睫,通过实施 SRE 并自动执行与网络管理相关的单调任务,IT 管理员可以优化其基础架构以提高性能。

以下是在基础架构中采用 SRE 的一些主要好处:

  • 减少停机时间:在基础架构中实施 SRE 有助于最大程度地减少停机时间。SRE 的主要目标是自动执行基础设施管理中繁琐而困难的任务,通过使用集成的开发和 IT 运营方法,IT 管理员可以更好地协同工作,尽可能减少停机时间。
  • 增强的最终用户体验:采用 SRE 可帮助 IT 管理员增强其最终用户体验。任何新的问题修复或产品更新都可以使用 SRE 立即推出,而不是传统的开发和运营模型,后者可能需要一些时间才能实施。
  • 不易出现人为错误:企业数据中心中大约 70% 的网络中断是由人为错误引起的。通过在基础架构中采用 SRE,组织可以自动执行其繁琐的任务,从而减少手动干预并节省其他关键任务的时间。
  • 改进了缩放:基础设施上的负载通常是动态的,并受消费者需求的影响。这就需要高度敏捷、可靠且可以随时扩展的基础架构。在 SRE 的帮助下,组织可以轻松扩展其基础架构,因为过渡是以快节奏但以安全为导向的方式进行的。
  • 全面了解基础架构:SRE 开发背后的软件工程技术不仅可以帮助管理员监控基础架构的预定义指标,还可以帮助管理员观察网络,留意潜在问题,并找到问题的根本原因,这为组织提供了对其基础架构的更高可见性。
  • 优化业务运营成本:通过自动化所有单调的操作流程,SRE 可帮助组织降低间接成本。此外,SRE 还有助于基础架构保持符合服务级别协议 (SLA),从而进一步降低业务成本。

在这里插入图片描述

SRE 如何帮助组织遵守 SLA

SLA 是服务提供商必须满足的一组条件(通常是特定时间段内的服务质量),未能满足既定要求可能会导致处罚和负面品牌声誉,在尝试实现业务目标时,这可能被证明是一个主要障碍,通过将 SRE 部署到基础架构,管理员可以全面了解网络,跟踪关键指标,并确保基础架构符合 SLA。

以下是与 SLA 关联的一些关键指标:

  • 服务级别目标 (SLO):SLO 是服务提供商承诺根据 SLA 为其客户提供的服务质量。通过定义 SLO,服务提供商可以量化他们有义务提供的服务质量。这有助于他们决定是使基础结构更可靠并将更新保持在最低限度,还是通过部署频繁更新来保持与需求保持一致,从而拥有快节奏的基础结构。使用 SRE,组织可以根据其 SLA 中设置的 SLO 优化其基础结构。
  • 服务级别指标 (SLI):SLI 是基础架构的可用性指标。SLI 始终经过优化以满足合同规定的 SLO。如果 SLI 低于 SLO,则可能导致违反 SLA。通过部署 SRE,组织可以增强对其基础架构的控制,以帮助他们实现较长的正常运行时间,最终帮助 SLI 满足设定的 SLO。
  • 错误预算:错误预算是客户端在恢复服务之前可以忍受的最大停机时间。通过在 SLA 中指定服务质量,组织可以更好地评估其基础结构的未来目标。借助 SRE,组织可以充分了解其基础架构,设置适当的错误预算,并决定基础架构必须提供的可靠性量,同时将其扩展到最大以提高性能。

IT 基础架构监控工具

OpManager Plus是一个全面的IT运营管理工具包,可帮助管理员监控,观察和管理整个基础架构。使用此工具,管理员可以:

  • 有效监控基础架构:通过持续跟踪网络的指定指标来监控整个基础架构,从而确保正常运行时间。例如自适应阈值,预测性能趋势和预测报告。
  • 监控网络流量和带宽使用情况:提高对基础架构流量和带宽使用模式的可见性,并对其进行优化以获得更好的性能。使用网络预测和网络取证对基础设施管理采取积极主动的立场。
  • 获得端到端基础架构可见性:除了监控和管理您的基础架构外,还必须拥有深入的可见性,而不仅仅是设备。通过鸟瞰基础架构,提前防范恶意设备检测和 IP 冲突等麻烦,甚至要考虑电线、电缆和接口等微观元素。
  • 管理防火墙和 VPN 以保持安全合规性:通过获取有关基础架构潜在安全漏洞的全面报告,自动执行合规性审核并增强基础架构安全性,领先一步,防范基础架构的安全漏洞。
  • 管理基础架构中的配置更改:制定标准操作程序 (SOP),并安排自动设备配置备份。监控基础架构是否存在任何配置违规,并通过应用适当的反措施立即纠正它们,始终遵守行业标准和政府框架。
  • 监控和增强最终用户体验:全面了解业务关键型应用程序的性能和最终用户体验,识别并根除任何潜在的瓶颈,方便地过渡到更面向云的基础架构,以跟上竞争对手的步伐并实现业务目标,同时不影响所提供的最终用户体验的质量。

OpManager Plus是一个集成的网络性能管理解决方案,它免去了对多种监控工具的需求,为管理员提供整个网络的更高的可见性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/831362.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Django学习笔记-默认的用户认证系统(auth)

一、Django默认的用户认证系统 Django 自带一个用户验证系统。它负责处理用户账号、组、权限和基于cookie的用户会话。 Django 验证系统处理验证和授权。简单来说,验证检验用户是否是他们的用户,授权决定已验证用户能做什么。这里的术语验证用于指代这…

【云原生】K8S二进制搭建一

目录 一、环境部署1.1操作系统初始化 二、部署etcd集群2.1 准备签发证书环境在 master01 节点上操作在 node01与02 节点上操作 三、部署docker引擎四、部署 Master 组件4.1在 master01 节点上操 五、部署Worker Node组件 一、环境部署 集群IP组件k8s集群master01192.168.243.1…

虹科方案 | 虹科AR助力汽车产业降本增效,实现数字化转型!

虹科AR远程解决方案 将高性能的Vuzix AR眼镜与工业远程软件相结合,一线员工使用AR眼镜呼叫专家,由远程专家进行诊断并给出建议,支持一线员工与远程专家实时语音视频交互、AR标注指引、发送文件图片并进行会议录制,帮助一线员工解…

8.物联网操作系统之事件标志组

。事件标志组定义 FreeRTOS事件标志组介绍 FreeRTOS事件标志组工作原理 一。事件标志组定义 信号量信号量只能实现任务与单个事件或任务间的同步。但是某些任务可能会需要与多个事件或任务进行同步,此时就可以使用事件标志组来解决。事件标志组能够实现某个任务与…

opencv36-形态学操作-膨胀 cv2.dilate()

膨胀操作是形态学中另外一种基本的操作。膨胀操作和腐蚀操作的作用是相反的,膨胀操作能对图像的边界进行扩张。膨胀操作将与当前对象(前景)接触到的背景点合并到当前对象内,从而实现将图像的边界点向外扩张。如果图像内两个对象的…

接口测试原理和基本步骤

目录 1、接口测试原理 2、接口测试的实现 3、接口测试用例 4、接口测试工具 5、HTTP协议 6、JMeter 7、抓包 8、接口测试可以发现什么样的Bug? 1、接口测试原理 接口测试,实际上是针对于接口做测试的。 那么接口是什么? 软件开发&…

人力管理系统servlet+jsp人事考勤员工部门java jsp源代码mysql

本项目为前几天收费帮学妹做的一个项目,Java EE JSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。 一、项目描述 人力管理系统servletjsp 系统有1权限:管理…

Linux - gcc/g++工具使用

gcc/g是用于编译C/C程序的编译器 1.编译过程 1. 预处理(头文件展开,条件编译,进行宏替换,去注释等) 2. 编译(C语言汇编语言) 3. 汇编(汇编->可重定位目标二进制文件,不可以被执行的&#xff…

图解系列 非对称加密应用场景

非对称加密使用一对密钥,分别是公钥(public key)和私钥(private key)。 使用场景 加密场景 加密场景 公钥加密、私钥解密: 公钥加密:在这种场景下,使用接收方的公钥对数据进行加密…

Spring源码解析(六):bean定义后置处理器ConfigurationClassPostProcessor

Spring源码系列文章 Spring源码解析(一):环境搭建 Spring源码解析(二):bean容器的创建、默认后置处理器、扫描包路径bean Spring源码解析(三):bean容器的刷新 Spring源码解析(四):单例bean的创建流程 Spring源码解析(五)&…

数据结构 | 搜索和排序——排序

目录 一、冒泡排序 二、选择排序 三、插入排序 四、希尔排序 五、归并排序 六、快速排序 排序是指将集合中的元素按照某种顺序排序的过程。 一、冒泡排序 冒泡排序多次遍历列表。它比较相邻的元素,将不合顺序的交换。每一轮遍历都将下一个最大值放到正确的位…

校园跑腿小程序运营攻略

作为一名校园跑腿小程序的运营者,你可能会面临诸如用户获取、平台推广、服务质量保证等挑战。在本篇推文中,我将为你提供一些关键的运营策略,帮助你成功运营校园跑腿小程序。 1. 用户获取和留存 用户是校园跑腿小程序成功的关键。以下是一些…

非凸科技受邀参加中科大线上量化分享

7月30日,非凸科技受邀参加由中国科学技术大学管理学院学生会、超级量化共同组织的“打开量化私募的黑箱”线上活动,分享量化前沿以及求职经验,助力同学们拿到心仪的offer。 活动上,非凸科技量化策略负责人陆一洲从多个角度分享了如…

基于Windows手动编译openssl和直接安装openssl

零、环境 win10-64位 VS2019 一、手动编译 1、安装perl https://platform.activestate.com/ActiveState-Projects/ActiveState-Perl-5.36.0 两种方法都没能成功。。第一种下载后会得到一个 state-remote-installer.exe,然后安装时会在命令行中执行,…

PtahDAO:全球首个DAO治理资产信托计划的金融平台

金融科技是当今世界最具创新力和影响力的领域之一,区块链技术作为金融科技的核心驱动力,正在颠覆传统的金融模式,为全球用户提供更加普惠、便捷、安全的金融服务。在这个变革的浪潮中,PtahDAO(普塔道)作为全…

UMS攸信入选2023年先进制造业倍增计划企业名单,为企业发展增添新助力!

根据《厦门市人民政府关于印发先进制造业倍增计划实施方案(2022-2026年)的通知》(厦府规〔2022〕3号),经市政府专题会研究,确定2023年先进制造业倍增计划企业名单。 关于2023年先进制造业倍增计划企业名单和…

【知网检索】2023年金融,贸易和商业管理国际学术会议(FTBM2023)

随着经济全球化,贸易自由化的进程加快,我国经济对外开放程度不断加深,正在加快融入世界经济一体化当中。当今世界各国竞争过程中,金融、贸易以及商业形态已成为其关键与焦点竞争内容。 2023年金融、贸易和商业管理国际学术会议(F…

百度飞桨助力高校培养AI大模型人才,2023年飞桨产学合作项目申报启动

7月7日,教育部产学合作协同育人项目公布项目指南通过的企业名单,百度被列入2023年(5月)批次名单;其中百度飞桨与文心大模型项目40个,包含教学内容和课程体系改革、实践条件和实践基地建设、师资培训项目三大…

途游游戏 x 极狐GitLab “通关” DevOps :单元测试从无到优,覆盖率 0→80%

目录 4 个工具孤岛 → 极狐GitLab 全家桶, 被动的「人找进度」 → 高效的「进度找人」 把 Code Review 做扎实 代码质量「向左移」,修复成本「往下降」 从无到「优」 自动执行单元测试,覆盖率 0→80% 你喜欢玩游戏吗? 最近…

概念辨析 | SAR运动补偿和自聚焦技术:深入探索雷达图像

注1:本文系“概念辨析”系列之一,致力于简洁清晰地解释、对比复杂而专业的概念。本次辨析的概念是:合成孔径雷达(SAR)的运动补偿和自聚焦技术。 SAR运动补偿和自聚焦技术:深入探索雷达图像 Synthetic Aperture Radar (SAR) 1 背景介绍 合成孔径雷达(Synthetic Aperture R…