SRE 代表站点可靠性工程。它建立在DevOps 原则之上,为 IT 运营带来工程主导的方法。SRE 使用软件来自动化系统操作、识别问题并实施解决方案。
SRE 的概念是在 Google 开发的。它基于这样的理念:代码和软件是管理大型系统的最有效方法。由单独团队启动的手动程序存在监督和不一致的风险。
在本文中,您将了解什么是 SRE 以及它如何帮助简化云运营。我们还将解释 SRE 与 DevOps 的重叠之处以及不同之处。
SRE 适合软件交付的哪些方面?
SRE 涉及运营管理。代码开发、审查和部署后,就进入软件交付流程。站点可靠性工程师通常会观察、维护和优化这些已部署的服务,从而接管管理员的职责。
SRE与传统运营相比的显着特点是强调自动化。基础设施控制、变更管理、审计和事件响应都应该在模型中实现自动化。SRE 从业者专注于配置和运行实现这些任务的软件工具,而不是直接与系统本身交互。
SRE 统一了运营管理经验的不同方面。使用工具驱动的流程意味着出现问题的地方更少。即使 SRE 团队的规模保持不变,这也有助于随着系统的增长而提高稳定性。
SRE 工程师实际上是做什么的?
SRE 工程师通常是软件开发人员,他们也具有运营生产服务的经验。这使他们能够全面了解交付过程,从代码提交到事件解决。他们将利用这些知识来设计和实施部署和监控实时环境的机制。
由于“可靠性”正如其名,SRE 团队还负责衡量正常运行时间并设计改进方法。SRE 工程师设定服务级别目标 (SLO),为组织提供可靠性目标。他们将建立并观察服务级别指标 (SLI),以告知目标是否得到满足