云上的米开朗基罗:在不确定时代,寻找建筑般的确定性

news2024/12/29 14:20:59

4e2bed2b263eddc91228f9080d569016.jpeg

文艺复兴三杰之一的米开朗基罗,被称为“天才建筑师”。其实他一生留下的建筑并不多,仅仅有美第奇礼拜堂、卡比多广场、圣彼得大教堂穹顶等寥寥几座。但米开朗基罗却凭借对建筑层次与结构的精妙把握,影响了此后数百年的建筑风格。很多人认为,米氏特别擅长在立体的空间与繁杂的结构中,寻求建筑的最大确定性。得益于此,像圣彼得大教堂穹顶这样原本被认为不可能的作品才最终问世——探寻确定性,也就此成为建筑设计师的目标之一。

在今天,数字化和云化正在容纳一切。每天,不计其数的硬件连接云端,软件完成云上开发、迭代。这让云端变成了一个空前复杂的赛博空间,同时也产生了海量的不确定性。但是,这种不确定性又是必须被治愈和解决的。根据GIV预测,至2025年,全球企业云技术使用率将达到100%。全面云化的不可逆趋势下,企业必须确保自身数字化、智能化过程中的安全、稳定与可靠。

ae4823d6a9d4ad0c6177aef538f66e33.png

(华为云贵安数据中心)

谁来再为全球企业寻得云时代的确定性呢?答案是运维团队。

过去,我们普遍认为运维应该是消防员,哪里着火扑灭哪里;但在云时代的浩瀚业务与海量数据面前,这种模式显然杯水车薪。于是,SRE应运而生,云服务商和企业用户开始追寻确定性的运维价值。运维人需要成为“云上的建筑师”,去设计可靠的建筑结构,去预知建筑可能面临的种种风险,去构建安全与稳定的结构闭环。

在这样的背景下,华为云SRE团队,是国内成长最快、发展最好的SRE团队之一。他们不仅肩负起了华为云业务体系的运维确定性,同时还为行业带来了充沛的溢出价值。

今天,我们走进华为云SRE,去了解一个运维人从消防员变成建筑师的故事,一个如何成为“云上的米开朗基罗”的故事。

abba9b33eeafc914e4dcd98a41bf540f.png

图纸之下:

不确定性叠加的云纪元

SRE,即Site Reliability Engineering,站点可用性工程师。这个概念起源于2003年,主要针对传统IT运维中人工为主的操作模式,希望以整体设计、自动化工具取而代之。简单来说,SRE的核心就是用软件而非人工,来解决运维与安全问题。

当时代的钟摆悄悄回荡,SRE的价值愈发凸显了出来。因为在不经然中,我们已经来到了一个不确定性叠加的云纪元

一个全云化的业务与服务系统,究竟会面临多少安全问题?可能谁也无法给出精准答案。网络异常、软件故障、流量洪峰、硬件老化、机房断电,都可能带来一次运维问题。甚至一次技术人员的岗位调换,都可能造成意想不到的考验。

36d03e3409938a64c6320e98ed3d3a77.gif

而伴随着云原生的落地,云上承载的软件开发与业务上新更加频繁。增加新的业务模块,也将考验现网的稳定性与可靠性。随着云上软件开发与业务迭代成为常态,运维效率会成为考验运维团队与运维能力的最大难题。

另一个云时代的不确定性,来自云计算网络急速发展。随着现网规模的不断壮大,云服务体系连接的计算节点、用户节点都在不断增多,同时参加运维的人员规模也在不断增加。这种网络规模扩张,让运维不确定性呈现出几何级增长。传统意义上“头疼医头,脚疼医脚”的运维模式,将难以抵御网络规模的海量冲击。

这种情况下,就需要有一种工程性的方法,可以在承认这种不确定性的前提下,依旧能够保障云服务体系的稳定可靠。比如说,让运维能力参与到前端设计中来;强化运行中的动态风险治理;建设高可用,可用容纳故障与风险的业务架构——这些方法的统合,就是SRE。

或许可以这样理解,SRE就像是在充满不确定性的云时代,画上一张确定性的建筑图纸。它不是具体解决哪个运维安全问题,而是带来宏观的安全与可靠。

华为云SRE,就是看到了这种必然趋势,同时积极进行了尝试与探索。

建筑师的眼与手:

先一步成长的华为云SRE

5f5e56f6bb342812b49709d503176b7c.png

未来,云计算将会像水、电一样触手可及,随取随得。这个结论可以推导出一个必然:云计算体系,必须像电网、水网一样安全可靠。如今,我们再也不会常备蜡烛,预防停电。这背后的努力,是电网进行了大量运维工作来保障高可用——云计算也将如此。

在华为云的眼中,这个结论清晰可见。于是华为云自成立的那一天起,就成立了SRE团队。SRE负责维护华为云的整体质量,看护整个云计算网络的安全与稳定运行。

edf27087a1d4c5ad50565a47cabe2c2e.png

(在新华社智库《中国云计算创新活力报告》中,华为云斩获安全可靠能力排名第一)


如今,华为云SRE这位建筑师,已经用双手画出了一张宏伟的“确定性”建筑图纸。在全球范围内,支撑着华为云在全球170多个国家和地区,超过240个云服务、370万开发者和海量企业业务,以及百万级别的节点实例。这样庞大的业务蓝图,都需要SRE团队统一参与开发与部署规范,确保上线运维安全。

在这个过程中,华为云SRE的“看家法宝”,就是构筑了华为云的高可用架构,让云服务在产品开发的前端就具备高可靠、高可用特性。整体而言,高可用结构在应对故障时可分为三个维度考量:首先是软件具有确定性的失效率,确保不会频繁发生故障,将软件问题控制在一定范围之内;其次是给出确定性的恢复时长,明确可以在怎样的时间之内进行业务恢复;接下来是构筑确定性的爆炸半径,确保单点的故障扩散范围有限,只影响到很小的范围,而不影响整体业务。

在这样的架构下,最终华为云SRE实现了将可靠性、可恢复性、影响范围控制的特性全面融入,真正面向万千企业提供安全、可靠、高质量的服务承诺。从实际结果来看,在近几年华为云业务高速发展的同时,其出现的故障概率与故障烈度显著低于全球主流云厂商。或许可以说,华为云SRE的运维能力做到了与公司业务规模一同成长,甚至先一步成长。

3a916e3335c5706169e4b4dca24759bb.png

11358a0f565835a3b9d50913c850c65d.png

米开朗基罗的“溢出”效应:

让千万企业从SRE中受益

我们知道,数字化技术会在发展到一定程度时,出现明显的“溢出”效应。比如说数字化价值赋能,就从虚拟经济溢出到实体经济,带来了“数实融合”的发展契机。

对于华为云SRE“建筑师”们而言,其也在云上运维的探索上展现出了明显的“溢出”效应。

华为云SRE的基础价值,就是通过确保华为云服务与网络的稳定,带给客户更好、更优质的云体验,尤其是在Devops 的场景下,保障了华为云用户敏捷创新、快速迭代的开发模式。让用户不仅能够上云,还可以有质量地用云、有保障地用好云。

再向前走一步,华为云SRE通过服务客户与无数应用的经验总结,提出了“确定性运维”的发展方向与方法论,继而梳理出适用于云上业务的“确定性运维”能力体系和成熟度模型,供千行百业的企业进行参考。

这一业界独有“确定性运维”能力体系成熟度模型包含:第一级基本运维,即基础运维的能力构建,以此确保业务基本生存;第二级标准化运维,其能够将运维带到更加规律、规范的发展阶段,确保业务的稳定可靠;第三级SRE转型,意味着运维团队开始从“消防员”转型为“建筑师”,开始勾勒整体的确定性运维蓝图;在第四级,企业获得SRE带来的初步确定性,而到第五级企业将获得高度确定性。

a69a4b043c3c29136d4c99b271febcc6.png

在可见的未来,大部分企业都会上云,每一家企业都需要开发、运营软件的时代里,确定性运维可以说是一种刚性需求。即使每家企业的业务诉求与业务种类不同,但对稳定可靠的追求其实是高度统一的。

面向这一趋势,华为云SRE的一系列自我成长,都可以变成赋能万千企业的成熟价值。比如,通过智能运维工具提升组织的效率和可靠性;通过全质量管理的流程理念,形成组织人员管理的可控性;运维团队变成设计师,参与前端标准设计,构筑高可用架构。

这些由华为云SRE综合和探索出的技术与方法,或许是每一家企业的决策者、管理者,都应该看到的现实价值。

在全云化纪元,每家企业都需要运维能力的提升,那或许每家企业也都可以成为“云上的米开朗基罗”。SRE的核心文化,依旧需要各界携手去探索和发扬。但就像运维所需的确定性那样,SRE探索对每家企业的未来价值来说,也是充满确定性的。

8fbf856e93a951ae6df122f4228f352c.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/168406.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【代码随想录】动态规划:关于01背包问题,你该了解这些!(滚动数组)

01 背包 有n件物品和一个最多能背重量为w的背包 第i件物品的重量是weight[i], 得到的价值是value[i] , 每件物品只能用一次,求解将哪些物品装入背包里物品价值总和最大。 每一件物品其实只有两个状态,取或者不取,所以…

win下编译opencv+libjpeg-turbo

文章目录前言编译环境下载opencv和jpeg-turbo源码编译jpeg-turbo编译opencv失败?那就直接调用jpeg-turbo库进行编解码前言 opencv默认自带第三方jpeg编解码库,但其性能一般,对高性能需求的程序来说是不适合的,因此我们可以把jpeg…

设计模式学习(八):Proxy代理模式

一、什么是Proxy模式 Proxy是“代理人”的意思,它指的是代替别人进行工作的人。当不一定需要本人亲自进行工作时,就可以寻找代理人去完成工作。但代理人毕竟只是代理人,能代替本人做的事情终究是有限的。因此,当代理人遇到无法自己…

文件上传oss,并查询上传进度(SpringBoot+Redis+Oss+Swagger3)

文章目录诉求技术选型pom配置项目结构文件树图示结构代码实现配置相关配置文件yamlSwagger3配置跨域问题配置oss相关ServiceControllerApplicationSwagger接口操作获取上传文件标识号获取文件上传进度小结诉求 将文件上传到oss,并实时监听上传进度,并将进…

【javaSE】中基本类型和引用类型对象的比较及PriorityQueue中的比较方法

写博客是为了提升自己,也是为了展现自己的学习成果,坚持!坚持!坚持!未来是什么样的,闯一闯就知道啦。喜欢就留个关注吧!!! 目录 一、java对象的比较 1.1java中基本类型的比较 1.2引用对象的比较 1.3引用…

使用云端的GPU进行yolov5的训练

前言本文介绍了使用云端GPU进行yolov5训练环境配置的过程一、创建实例这里使用的是恒源云的GPU服务器,官方网址为恒源云_GPUSHARE-恒源智享云他的用户文档为Tmux - 恒源云用户文档一般的问题在用户文档中都可以找到解决办法。注册并登录后的界面如下图所示。点击云市…

c++11 标准模板(STL)(std::forward_list)(十)

定义于头文件 <forward_list> template< class T, class Allocator std::allocator<T> > class forward_list;(1)(C11 起)namespace pmr { template <class T> using forward_list std::forward_list<T, std::pmr::polymorphic_…

UPerNet:Unified Perceptual Parsing for Scene Understanding论文解读

Unified Perceptual Parsing for Scene Understanding 论文&#xff1a;[1807.10221] Unified Perceptual Parsing for Scene Understanding (arxiv.org) 代码&#xff1a;CSAILVision/unifiedparsing: Codebase and pretrained models for ECCV’18 Unified Perceptual Parsi…

第二章.线性回归以及非线性回归—岭回归

第二章.线性回归以及非线性回归 2.12 岭回归&#xff08;Ridge Regression&#xff09; 1.前期导入&#xff1a; 1).标准方程法[w(XTX)-1XTy]存在的缺陷&#xff1a; 如果数据的特征比样本点还多&#xff0c;数据特征n&#xff0c;样本个数m&#xff0c;如如果n>m&#xf…

5种气血不足的面相

我们常用“气色好”形容人良好的健康状态&#xff0c;反之&#xff0c;气血不足就是不健康的表现。想知道自己是否气血不足&#xff0c;可以从以下几种表现中判断。眼白黄&#xff1a;所谓人老珠黄&#xff0c;就是指眼白的颜色变得浑浊、发黄、有血丝&#xff0c;很可能气血不…

网络编程基础(1)

1 OSI七层模型&#xff08;理论&#xff09; 七层模型&#xff0c;亦称OSI&#xff08;Open System Interconnection&#xff09;。参考模型是国际标准化组织&#xff08;ISO&#xff09;制定的一个用于计算机或通信系统间互联的标准体系&#xff0c;一般称为OSI参考模型或七层…

cycle_gan使用教程

junyanz/pytorch-CycleGAN-and-pix2pix: Image-to-Image Translation in PyTorch (github.com) 如果是用cycle_gan 数据集 /数据集文件夹名&#xff0c;下面四个子文件名 testA testB trainA trainB trainA是A风格图片&#xff0c;trainB是B风格图片。 训练参数 test…

CCF BDCI | 算能赛题决赛选手说明论文-04

基于TPU平台实现人群密度估计 队名&#xff1a;innovation 陈照照 数据科学与大数据技术20级 台州学院 中国-瑞安 479253198qq.com董昊数据科学与大数据技术20级 台州学院 中国-杭州 donghaowifi163.com陈晓聪数据科学与大数据技术20级 台州学院 中国-宁波 2637491…

Golang -- openwechat微信发送消息、自动回复

开篇 马上就要到农历新年了&#xff0c;不妨写一段代码准时为好友们送上祝福。 该 Demo 使用开源项目 openwechat &#xff0c;实现获取好友列表、为好友发送消息、图片或文件&#xff0c;接收来自好友或群组的消息并设置自动回复等功能。 openwechat Github地址 openwechat 文…

管道(匿名,有名)

文章目录Linux 进程间通信的方式管道匿名管道有名管道Linux 进程间通信的方式 管道 管道特点 管道其实是一个在内核内存中维护的缓冲器&#xff0c;这个缓冲器的存储能力是有限的&#xff0c;不同的操作系统大小不一定相同管道拥有文件的特质&#xff1a;读操作、写操作 匿名管…

线扫相机DALSA-变行高拍照

CamExpert在线阵模式中默认的Buffer设置是Fixed Length。在这种设置下&#xff0c;在一帧采集结束前所接收到的新的帧触发信号都会被忽略。在有的应用中&#xff0c;需要新一帧的外触发信号能够中断当前帧的采集&#xff0c;开始新的一帧。这需要将Buffer设为Variable Length。…

【云原生】k8s之HPA,命名空间资源限制

内容预知 1.HPA的相关知识 2.HPA的部署运用 2.1 进行HPA的部署设置 2.2 HPA伸缩的测试演示 &#xff08;1&#xff09;创建一个用于测试的pod资源 (2)创建HPA控制器&#xff0c;进行资源的限制&#xff0c;伸缩管理 &#xff08;3&#xff09;进入其中一个pod容器仲&#xf…

Redhat OpenStack使用命令行发放云主机

OpenStack中各大组件的作用Glance&#xff1a;负责管理镜像&#xff08;镜像的上传、删除、下载&#xff09;Swift&#xff1a;提供镜像存储的空间Nova&#xff1a;负责配额的修改、启动云主机&#xff08;实例&#xff09;、创建密钥对、绑定弹性IP等Keystone&#xff1a;提供…

jQuery(二):属性、元素、尺寸位置操作、事件

jQuery属性操作内容文本值元素操作尺寸、位置操作事件注册事件处理事件对象拷贝对象属性操作 1.获取固有属性语法 prop(‘‘属性’’) 固有属性就是html自带的&#xff0c;例如a元素里面的 href &#xff0c;input 元素里面的 type。 2.设置固有属性语法 prop(‘‘属性’’, …

Python NumPy 搜索 数组

前言NumPy&#xff08;Numerical Python的缩写&#xff09;是一个开源的Python科学计算库。使用NumPy&#xff0c;就可以很自然地使用数组和矩阵。NumPy包含很多实用的数学函数&#xff0c;涵盖线性代数运算、傅里叶变换和随机数生成等功能。本文主要介绍Python NumPy 搜索 数组…