从核酸检测平台崩盘看性能工程的范围

news2025/1/24 3:08:11

近几年疫情肆虐,健康码系统和核酸检测系统成了民生的保障。在疫情张狂的时候,这类系统的稳定性、可用性是关键的技术支撑能力。
每个地方的健康码平台都或多或少地出现过问题,影响每个人的生活。
从我工作十几年的性能工作经验,来聊一下系统性能容量这个话题。
先放几张图,让你直观感受一下系统的崩溃状态。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(本文图均来自网络)

我有幸也参与过某市的扫码和核酸检测系统的项目。对其中细节略知一二。
但今天我不是来做键盘侠来评价做这些系统的机构或企业有什么不足之处的,也不是想讥讽嘲笑技术人员能力薄弱的。
而是想通过这样的事故来说一下性能工程在一个系统中的重要性。

首先,没有一个系统是不存在性能瓶颈的,即便是调优到再完美的系统,它的性能容量也是有上限的。要想让系统稳定的运行,做为I T 技术支撑的技术人员,要保障的是在性能容量上限的位置能够稳定的运行下去。
在性能容量达到上限时,系统可以提示“请稍后再试”,但不能一直稍后,稍太久了影响面太大。

要做这样的系统性能容量整体规划,首先要看看我们面对的是什么需求。在健康码相关的的众多系统中,像扫码系统(就是你到各个地方都要扫的,还有一些卡口刷码、刷脸的)、核酸系统(这里就包括你要拿着身份证去做数据采集、核酸预约、数据上报、数据推送等)、疫苗服务(疫苗信息、接种信息等)是面对大众的,还有一些是必须存在的系统(像登录认证系统、管理后台、网关等),还有像大数据平台、数据抽取、大屏展示、数据同步、管理后台等系统。重要系统如下:
在这里插入图片描述
扫码、核酸这样的业务场景不算复杂,但技术栈一点也不比其他系统少。
要想做这样的系统的容量规划,首先得确定的是容量目标。这个容量目标是全链路的容量目标,而不是某一个系统的。

主要的链路有两个:一个是扫码链路、一个是核酸采集链路。疫苗接种的链路相对来说量不算大。
根据一个健康码系统要面对的人群总量来计算,通常这这样的系统是以省、直辖市为单位,从2022年所有省份人口排名来看,广东省人最多,澳门人最少。排名前十的省份如下:

  1. 广东——1.1346亿
  2. 山东——1.0047亿
  3. 河南——9605万
  4. 四川——8341万
  5. 江苏——8051万
  6. 河北——7556万
  7. 湖南——6899万
  8. 安徽——6324万
  9. 湖北——5917万
  10. 浙江——5737万

以最近出问题的四川省天府健康通为例,四川省 2022 年总人口 8341 万,成都市人口 2000 多万。这个系统需要支持的总人口基数就是 8000 多万。
当然这个是全链路的容量峰值需求,虽然在平时系统不会一直处在峰值状态,但系统的容量上限应该是能够支撑容量上限。
如果支撑不了,就返回“稍后再试”之类的界面,虽然这样返回,但仍然有个前提就是:系统不能宕机!

我们拿一个人一次扫码只发一次接口请求来算。四川省所有人口,由于近期成都疫情严重,所以扫码及核酸采集的人就会比较集中。根据之前的一个扫码系统的经验,在上班高峰期的时候,扫码并发度在2%左右。
考虑到成都近期疫情严重,扫码峰值会比平时上班峰值更高,按2倍于上班峰值4%计算,也即是成都市疫情高峰期的扫码峰值:2100万x4%=84万,也就是一秒会产生的接口请求有84万。这个接口级TPS的容量需求已经是相当大了。这是扫码服务的容量需求。而这只是支持成都一个市,如果按全省来算的话,你可以自己算一下。
而这一次成都市的系统问题是在核酸检测前的那次确认身份扫码。

在这里插入图片描述
这次扫码的前提是天府健康通的二维码已经亮出来了,给工作人员扫,这时是走的核酸采集系统。

所以我们得来聊聊核酸检测系统。

对于核酸检测的系统来说,容量需求会低很多,毕竟核酸采集点是有限的,并且得有一个人坐在那里扫你的码或身份证,还要拿棍子捅你的嗓子,这最快也得5秒左右吧。
据公开信息显示,成都市锦江区核酸采样点在100个左右,成华区在123个左右,这些是采集点比较多的区,也有低的,像青白江在50个左右,我们就算平均每个区150个采集点吧(往高了估,毕竟我没有一个个去数),成都市总共有20个区县,也就是在3000个左右。
根据人口比例推算,四川全省核酸采样点应该在12000个左右,核酸采样的时候扫一次在业务级请求也只发送一次即可,就算按并发度10%计算,12000个采样点也只需要业务级TPS达到1200即可,即便是达到20%的并发度(这个值在我经历过的系统中从来没有出现过),也只需要业务级TPS 2400而已。
据我对核酸采集系统架构的了解和做过的容量评估项目,这个值需要的硬件资源、网络带宽都不会特别高,除非在架构设计时拿图片来实时传输。

拿一些压力数据来看,这是我在一个核酸系统中刚开始做的第一次业务级的容量场景数据(保密信息已隐藏)。

在这里插入图片描述

在刚接触的时候,业务级 TPS 大概就是在 1200 左右吧。经过了一轮轮的努力,项目上所有人的配合,性能瓶颈定位、分析、优化之后,达到这样的业务级TPS量级(保密信息已隐藏)。

在这里插入图片描述
接近 10000 的业务级TPS。这样的业务级 TPS 量级,支持一个省的核酸检测场景是完全足够的。

对于四川成都市的这次故障,并不是容量要求更高的扫码系统故障,而是核酸采集的故障,要说对容量评估不足、带宽不足、后台系统故障等等原因导致的,做为供应商,你是怎么好意思说得出口呢?

各地疫情严重的时候,系统都或多或少的出现过技术问题,但大多是扫码系统,你一个核酸检测系统怎么好意思把故障归罪到技术层面呢?
是技术人员能力太差了吗?还是项目实施的过程管理有问题?

当然一个系统的故障不应该只把目光放在技术细节上,其中还有更复杂的因素。这个不能提,也不敢提。只有去悟了。

一个系统的容量要靠性能测试去做具体的评估,仅从技术细节去估计一个系统的容量是不行的,要从管理层、销售层、技术层(包括架构、开发、测试、运维等各个角度的技术)去评估一个系统。
系统的容量如果仅靠性能测试工程师的一个报告来判断结果,那就完全丢掉了性能工程的逻辑和方法论。

所以一个系统的容量评估是完整的性能工程级的活动,涉及面不仅有技术,还有非技术面,工程级的活动是需要系统的所有干系人都参与的,都要负起责任的,环环相扣,一环扣不上,就是系统级的故障!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/40234.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

225. 用队列实现栈-C语言

题目来源:力扣 题目描述: 请你仅使用两个队列实现一个后入先出(LIFO)的栈,并支持普通栈的全部四种操作(push、top、pop 和 empty)。 实现 MyStack 类: void push(int x) 将元素 x 压…

Python爬取数据分析

一.python爬虫使用的模块 1.import requests 2.from bs4 import BeautifulSoup 3.pandas 数据分析高级接口模块 二. 爬取数据在第一个请求中时, 使用BeautifulSoup   import requests # 引用requests库 from bs4 import BeautifulSoup # 引用BeautifulSoup库 res_movies re…

pycharm Process finished with exit code: -1073741571

问题现象 在pycharm使用debug模式调试代码时,异常退出,且错误码为-1073741571。除了错误码外,并没有看到其它报错。 分析 查阅资料: Process finished with exit code -1073741571 (0xC00000FD) when trying to implement ab…

ZPM介绍(3)

建立私服(Porxy-Registry) 这张图解释了您的私服是怎么工作的, 整篇文章在这里: Proxy-Registry 搭建私服 您需要有一台自己的的服务器, 在上面安装IRIS, zpm, 然后用zpm去下载另一个软件包“zpm-registry"。象这样 zpm:DEMO>search …

如何设置子域名?

什么叫子域名 域名可以划分为各个子域,子域还可以继续划分为子域的子域,这样就形成了顶级域、主域名、子域名等。 举例: “.com”是顶级域名(一级域名); “aliyun.com”是主域名(二级域名&…

AtCoder Beginner Contest 264 G.String Fair(最短路/暴力dp 补写法)

题目 n(n<18278)个串&#xff0c;第i个串Ti(Ti为纯小写字母串且长度不超过3)&#xff0c; 得分Pi(-1e9<Pi<1e9)&#xff0c;表示只要子串中出现一次Ti&#xff0c;就会获得Pi的得分 对于你可以构造的无限长的串S来说&#xff0c;S的最终得分&#xff0c;为其中每一…

我参加第七届NVIDIA Sky Hackathon——训练CV模型

如何从0开始训练自己的CV模型 第一步 配置基本环境(在上一篇已经配置了我参加第七届NVIDIA Sky Hackathon——训练ASR模型 ) 第二步 利用labelimg制作图像数据集 第三步 开始训练resnet18模型 文章目录如何从0开始训练自己的CV模型前言一、利用labelimg制作图像数据集1.安装la…

JetPack之LifeCycle设计模式与解耦艺术的极致运用

在研发过程中&#xff0c;解耦是一个永恒的话题。因为解耦可以为后续的维护、功能添加、防内存泄漏、问题查找及更新都带来便利且做到影响最小&#xff0c;但如何进行解耦设计却是一门艺术。今天&#xff0c;我们就来看看google工程师是如何设计LifeCycle的。 我们在很多时候都…

【故障诊断分析】FFT轴承故障诊断(包络谱)【含Matlab源码 2002期】

⛄一、轴承故障分析简介 1 研究背景 滚动轴承故障占旋转机械故障的大约30%&#xff0c;现阶段主要采用信号分析来进行故障识别。探究形成机械设备故障尤其是滚动轴承的理论和诊断手段及方法是广大科学家们共同追求的目标&#xff0c;无论是在工程实际还是故障分析理论上都有着…

cat命令应用

记录&#xff1a;338 场景&#xff1a;在CentOS 7.9操作系统上&#xff0c;使用cat命令查看文件内容&#xff1b;把内容输出到指定文件&#xff1b;把多个文件合并为一个文件等。比如查看Tomcat的日志文件等。 版本&#xff1a; 操作系统&#xff1a;CentOS 7.9 1.命令应用…

Kafka - 06 Kafka 集群环境搭建(三台虚拟机)

文章目录1. 克隆虚拟机2. Zookeeper 集群搭建3. Kafka 集群搭建4. 测试消息发送和消费1. 主题操作2. 生产者生产消息3. 消费者消费消息1. 克隆虚拟机 kafka集群搭建&#xff0c;需要3台虚拟机环境&#xff0c;但是我目前只安装了一台虚拟机&#xff0c;因此还需要准备两台虚拟…

SpringBoot SpringBoot 原理篇 2 自定义starter 2.5 使用属性配置设置功能参数【2】

SpringBoot 【黑马程序员SpringBoot2全套视频教程&#xff0c;springboot零基础到项目实战&#xff08;spring boot2完整版&#xff09;】 SpringBoot 原理篇 文章目录SpringBootSpringBoot 原理篇2 自定义starter2.5 使用属性配置设置功能参数【2】2.5.1 直接开干2.5.2 小结…

【网络篇】第十八篇——ping的工作原理

目录 IP协议助手——ICMP协议 查询报文类型 差错报文类型 网络不可达代码为0 主机不可达代码为1 协议不可达代码为2 端口不可达代码为3 需要进行分片但设置不分片位片码为4 ping——查询报文类型使用 traceroute IP协议助手——ICMP协议 ping是基于ICMP协议工作的&a…

解决Redis Object Cache Pro插件无法使用高性能配置的解决方案

说明 辉哥演示站和本地使用的对象缓存都是redis&#xff0c;刚好手上有Redis Object Cache Pro插件&#xff0c;目前大多数用户都是用的是官方推荐的基础配置&#xff0c;并没有使用高性能配置&#xff08;官方的说法是在毫秒内优化高流量站点&#xff09;&#xff0c;刚好辉哥…

java项目_第163期ssm药品电子商城系统_java毕业设计

java项目_第163期ssm药品电子商城系统_java毕业设计 今天分享的项目是《ssm药品电子商城系统》 该项目分为3个角色&#xff0c;管理员、用户、医生。 1、用户可以浏览前台,购买药品&#xff0c;并将药品加入到购物车&#xff1b; 用户还可以浏览医生信息&#xff0c;进行在线预…

《Java开发手册》三-代码风格

前言 这第三章主要是讲一些代码风格和规范&#xff0c;代码风格不影响程序运行&#xff0c;但对于团队的合作开发效率十分重要&#xff0c;相对前两章&#xff0c;这章内容较少 命名规约 命名符合本语言特性 每种语言都有自己的特殊风格&#xff0c;比如java不能以下划线&am…

Yarn模式部署Flink集群

一、环境准备 1、准备两台服务器server115 和server116安装好hadoop环境&#xff0c;其中server115配置hdfs的namenode&#xff0c;在server116上配置hdfs的SecondaryNameNode&#xff0c;server116配置yarn的 ResourceManager&#xff0c;启动hadoop集群 2、配置hadoop环境变…

Spring更简单的读取和存储对象

文章目录前言1、存储 Bean 对象1.1 前置工作1.2 添加注解存储 Bean 对象Controller&#xff08;控制器存储&#xff09;Service &#xff08;服务存储&#xff09;Repository&#xff08;仓库存储&#xff09;Configuration&#xff08;配置存储&#xff09;Component&#xff…

图书馆管理系统的设计与实现(论文+系统)_kaic

目 录 摘 要 第一章 绪论 1.1本课题研究背景与意义 1.2本课题国内外研究现状 第二章 开发技术介绍 2.1JDK的安装与配置 2.2HTML技术 2.3MySQL数据库管理系统 2.4JDBC的使用 第三章 系统分析 3.1系统的设计要求 3.2系统的设计原则 3.3系统的可行性分析 3.3.1技术可行性 3.3.2经济…

消息队列的概念和原理

消息队列一、使用消息队列的场景1.1、消息队列的异步处理1.2、消息队列的流量控制&#xff08;削峰&#xff09;1.3、消息队列的服务解耦1.4、消息队列的发布订阅1.5、消息队列的高并发缓冲二、消息队列的基本概念和原理2.1、消息的生产者和消费者2.2、Broker2.3、点对点消息队…