从阿里云崩溃看IT系统非功能能力验证

news2024/11/28 2:44:19

昨天下午6点左右学员群里有人说阿里云又出问题了,并且还挺长时间没有恢复了。

我也登录了一下,结果登录直接不停地302。如下所示:
在这里插入图片描述
做为阿里云重要的基础设施,这一故障影响了。如官方通告的处理时间线:

17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。
17:50 阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中。
18:54 经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台服务逐步恢复中。
19:20 工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复。
19:43 异常管控服务组件均已完成重启,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复。
20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。
21:11 受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。

看来运维大招是重启再一次得到验证。

影响范围:

华北2 (北京)、华北6 (乌兰察布)、 华北1 (青岛)、华东2(上海)、华南2(河源)、华北3(张家口)、中国香港、印度(孟买)、美国(硅谷)、华南1(深圳)、英国(伦敦)、韩国(首尔)、日本(东京)、阿联酉(迪拜)、西南1 (成都)、华南3 (广州)、新加坡、澳大利亚 (悉尼)、马来西亚(吉隆坡)、 华北5 (呼和浩特)、 印度 尼西亚(雅加达)、美国 (弗吉尼亚)、菲律宾 (马尼拉)、泰国(曼谷)、华东1(杭州)、华南1金融云

阿里云的事故出的不是一次两次,只是这一次的生产事故范围比较大,并且时间达到3.5个小时。这一次事故,全年的可用性就只能达到 99.96 %了。

做为国内市场占有率第一的云服务,阿里云这次事故的重要性在哪呢?

  1. 对于公有云一直提到的稳定计算能力的信心会有影响。

  2. 对于一些强依赖公有云的企业,需要考虑应急方案。

  3. 对于重要的IT系统的非功能能力验证过程需要重新审视。

关于故障定级,事故分析,已经有大量的从业人员连蒙带猜了,也不差我这一个。所以做为非内部人员,我也不去瞎蒙了。

写这篇文章也不是为了笑话阿里云这样的企业连可用性都保障不了。

只是从这一事故来来说一下,一个企业的IT系统的非功能生命线到底应该如何保障。

对于一个IT系统来说,质量保证分为两大类:功能、非功能。

功能的保证我觉得大部分企业只要有业务测试(不管是手工还是自动化)的环节,业务功能还是基本可以保证的。

但是非功能的范围可就有点麻烦了。因为非功能能力的范围是非常庞大的。简单的从特性上划分,我们可以分这些(特性的划分在不同的人眼中是不同的,所以你可以根据自己的理解去划分):

在这里插入图片描述

只划分这些还远远不够,还要有相对应的落地规范、指南性的具体描述。

有很多企业在非功能领域中,对于性能做的还稍微多一点。再加上近些年提到的”混沌工程“,也做一些故障演练之类的事情。阿里自己就有相应的混沌工具和服务。

但是这些都还只是冰山一角,没有达到方法论的级别。

做为一个IT从业近20年的我来说,见到的生产事故不是一次两次了。从技术的角度上来说,没有100%不出生产事故的系统,只能尽力减少事故次数和时间长度。

我们可以看到,企业在计算IT系统可用性几个9的时候,都是事后动作,但是从来没有一个企业可以在上生产之前通过非功能测试之后给出几个9的结论。

甚至于,上生产之前所做的非功能测试都不敢说覆盖了多少非功能特性。这是一个非常大、也非常难的话题。

在2021-2022两年内,我做过一个非功能体系咨询的项目。在这两年中,针对现在国内信创转型、数字化转型、架构转型的IT系统,我一直在考虑通过什么样的逻辑可以让一个IT系统的非功能能力得到较为全面的验证测试。

通过不断的摸索,在这个项目中,我写了一套完整的非功能能力验证体系,覆盖了最初的业务需求到上线运维,交付文档就达到几十万字,逻辑也在不断地实践项目中得到验证,直到现在也仍然在不断迭代完善之中。

在这里插入图片描述
当然这里不是为了推广我写的这套咨询体系。

而是说一个IT系统的非功能能力要想得到全面保障,是非常宏大的话题。一入非功能深似海。

在非功能能力上,如果想要全面验证,首先要确定一下基本的原则。

在这里插入图片描述
非功能能力要想得到全面的验证,任何大而空的没有落地能力的方法论都是没有价值的。而只有工具没有方法论,也是不可能做到面面俱到的。即便是有了方法论,也是要不断迭代更新的。

企业需要做一些非功能体系规范的事情。

在这里插入图片描述
有了原则和规划做为前提,还要对非功能的特性进行细分。

在这里插入图片描述
而一个IT系统会分出多少非功能的子特性出来,是要在具体的项目中分析的。这些特性的细分,是要覆盖业务功能、架构设计、系统设计、开发、运维各环节的非功能需求的。

非功能验证测试的环节就是要针对以上的细分特性进行全面的验证。

这样才能完成一套完整的非功能体系的落地过程。

有一句类似口号的话放到结尾:

非功能体系能力是企业技术能力的全面体现,是技术深度认识的完整概括。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1631641.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【笔试训练】day12

1.牛牛冲砖五 思路&#xff1a; 看懂样例即可。 代码&#xff1a; #define _CRT_SECURE_NO_WARNINGS 1 #include <iostream> using namespace std;int main() {int t;cin >> t;string str;while (t--) {int n, k;cin >> n >> k >> str;int an…

鸿蒙OpenHarmony【小型系统 烧录】(基于Hi3516开发板)

烧录 针对Hi3516DV300开发板&#xff0c;除了DevEco Device Tool&#xff08;操作方法请参考烧录)&#xff09;外&#xff0c;还可以使用HiTool进行烧录。 前提条件 开发板相关源码已编译完成&#xff0c;已形成烧录文件。客户端&#xff08;操作平台&#xff0c;例如Window…

微软开源了 MS-DOS 4.00

DOS的历史源远流长&#xff0c;很多现在的年轻人不知道DOS了。其实早期的windows可以看做是基于DOS的窗口界面的模拟器&#xff0c;系统的本质其实是DOS。后来DOS的漏洞还是太多了&#xff0c;微软重新写了windows的底层内核。DOS只是一个辅助终端的形式予以保留了。 微软是在…

FTP 文件传输协议

FTP 文件传输协议 作用 用来传输文件的 FTP协议采用的是TCP作为传输协议&#xff0c; 21号端口用来传输FTP控制命令的&#xff0c; 20号端口用来传输文件数据的 FTP传输模式&#xff1a; 主动模式&#xff1a; FTP服务端接收下载控制命令后&#xff0c;会主动从tcp/20号端口…

pyaibote--安卓自动化环境配置与基础的使用方法

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 pyaibote介绍 pyaibote是一个全新&#xff0c;强大的办公自动化库。 支持找图&#xff0c;识别像素等操作。 比appium快十倍。 文章介绍 有大佬给我提到这个库后&#xff0c;我来查看。然后发现这个库太新了&am…

自然语言处理 (NLP) 中的迁移学习

--懂王 在大数据高速发展的时代&#xff0c;AI的发展日新月异&#xff0c;充满挑战的迎接未来。 自然语言处理 (NLP) 中的迁移学习: 迁移学习在 NLP 中越来越受欢迎&#xff0c;特别是在数据稀缺的情况下。如何有效地利用预训练的语言模型&#xff0c;并将其迁移到新的任务和领…

windows驱动开发-中断(一)

中断是windows中最难的一部分&#xff0c;这是因为中断本身属于操作系统的一部分&#xff0c;理解了中断和内存&#xff0c;对整个系统也就了解了。 中断部分会先从中断优先级、中断处理、中断服务例程入手&#xff0c;大概讲述一下中断的概念&#xff1b;接着从中断的一般实现…

如何买到“30元以下”的免备案服务器?

对于预算有限的个人和小型企业来说&#xff0c;30 元以下免备案服务器的价格非常亲民。用户可以以极低的成本获得所需的服务器资源&#xff0c;这对创业者、个人开发者、学生和站长来说简直不要太划算&#xff0c;毕竟配置可以升级真不够后面再付费升级也行。 何为“免备案”&…

ROS1快速入门学习笔记 - 07话题消息的定义与使用

目录 一、话题模型 二、自定义话题消息 1. 在功能包下创建msg目录用于存储话题文件 2. 在package.xml文件中添加功能包依赖&#xff1b; 3. 在CMakeLists.txt增加编译选项&#xff1b; 4. 完成编译 5. 配置CMakeLists.txt中的编译规则&#xff08;增加发布者和订阅者&am…

Meta Llama 3 性能提升与推理服务部署

利用 NVIDIA TensorRT-LLM 和 NVIDIA Triton 推理服务器提升 Meta Llama 3 性能 我们很高兴地宣布 NVIDIA TensorRT-LLM 支持 Meta Llama 3 系列模型&#xff0c;从而加速和优化您的 LLM 推理性能。 您可以通过浏览器用户界面立即试用 Llama 3 8B 和 Llama 3 70B&#xff08;该…

卫浴品牌商家做展示预约小程序的作用是什么

卫浴品牌类别多、普通/智能、场景化等&#xff0c;无论企业还是经销商市场门店都比较饱满&#xff0c;虽然市场需求度高&#xff0c;但同样需要商家不断拓宽销售渠道和挖掘客户价值&#xff0c;破圈增长。 线上多平台发展尤为重要&#xff0c;而小程序作为连接点&#xff0c;对…

深度学习模型的优化和调优de了解

深度学习模型的优化和调优&#xff1a;随着深度学习应用的广泛&#xff0c;优化和调优神经网络模型成为了一个重要的问题。这包括选择合适的网络架构、调整超参数、应对过拟合等。 深度学习模型的优化和调优是指在训练神经网络模型时&#xff0c;通过一系列技术和方法来提高模型…

无缝迁移:从阿里云WAF到AWS的成功转变之路

在当今数字化浪潮中&#xff0c;网络安全已经成为企业发展的重要组成部分。阿里云WAF&#xff08;Web 应用防火墙&#xff09;作为一种重要的网络安全解决方案&#xff0c;帮助企业保护其 Web 应用免受各种网络攻击。 然而&#xff0c;随着企业业务的扩展和需求的变化&#xf…

SA模拟退火算法优化高斯回归回归预测matlab代码

SA高斯回归回归预测matlab代码 模拟退火算法&#xff08;Simulated Annealing&#xff0c;简称SA&#xff09;是一种用于解决优化问题的启发式算法。它受到固体退火过程中温度逐渐降低的启发&#xff0c;通过随机性的搜索和接受劣解的策略&#xff0c;来在复杂的搜索空间中寻找…

JAVA读取从WPS在Excel中嵌入的图片资源

读取从WPS在Excel中嵌入的图片资源 引言 许多数据文件中可能包含嵌入式图片&#xff0c;这些图片对于数据分析和可视化非常重要。然而&#xff0c;从 WPS 在 Excel 中读取这些图片可能会有一些技术挑战。在本文中&#xff0c;我将展示如何从 WPS Excel 文件中读取嵌入的图片&am…

618科技嘉年华!五款极致科技产品,开启智能生活新篇章!

准备好迎接一年一度的618了吗&#xff1f;这不仅仅是一场购物的狂欢&#xff0c;更是一次科技的盛宴&#xff0c;一次智能生活的全新启航。今年&#xff0c;我们将带来五款令人瞩目的极致科技产品&#xff0c;它们将彻底颠覆你对智能生活的认知。从娱乐到工作&#xff0c;这些产…

逆向案例三十——webpack登录某游戏

网址&#xff1a;aHR0cHM6Ly93d3cuZ205OS5jb20v 步骤&#xff1a; 进行抓包分析&#xff0c;找到登录接口&#xff0c;发现密码有加密 跟栈分析&#xff0c;从第三个栈进入&#xff0c;打上断点&#xff0c;再次点击登录 明显找到password,它由o赋值&#xff0c;o由a.encode(…

RAGFlow:安装与体验

服务器需要有docker,或者直接访问官方提供的demo: https://demo.ragflow.io/ docker-compose安装 需要确保 vm.max_map_count 不小于 262144 【更多】:sysctl -w vm.max_map_count=262144 克隆仓库:$ git clone https://github.com/infiniflow/ragflow.git 进入 doc…

基于3D机器视觉的注塑缺陷检测解决方案

注塑检测是对注塑生产过程中的产品缺陷进行识别和检测的过程。这些缺陷可能包括色差、料流痕、黑点&#xff08;包括杂质&#xff09;等&#xff0c;它们可能是由多种因素引起&#xff0c;如原料未搅拌均匀、烘料时间过长、工业温度局部偏高、模具等问题造成的。不仅影响产品的…

STM32 SPI通信

一、SPI总线简介 1.1 SPI总线 串口外设接口&#xff08;Serial Peripheral Interface&#xff0c;SPI&#xff09;总线是一种同步串行外设接口&#xff0c;允许MCU与各种外围设备进行全双工、同步串行通信 SPI总线有四根通信线&#xff1a; ①SCK&#xff08;Serial Clock&a…