中立分析腾讯云故障相关的事件

news2024/11/25 4:45:04

最近腾讯云的故障,让一堆云计算爱好者兴奋地远看指点江山、近看沐猴而冠。我比这群爱好者们更了解云计算,但是我尊重我的读者,你们从我这里看到的科普信息,不仅仅只有情绪价值。

在信息爆炸的时代,大家关注和信任某个媒体,媒体作者就应该帮读者筛选出更可信、更有学习意义的信息。本文的前两章内容解释清楚了故障范围,中间两章介绍IaaS和PaaS的产品分类是有意义的;最后的部分是希望读者们少看点口嗨新闻、少嚼点陈年烂梗。

本文的目录为:

  1. 我拿到的故障现象

  2. 实际故障范围不大

  3. 感谢老铁的PaaS云证据

  4. 客户该做多云冗余

  5. 口嗨新闻没有用途

  6. 陈年烂梗之服务状态页

  7. 陈年烂梗之系统盘丢数据

1bb3de7f1901d60123877c053a13a117.gif


1. 我拿到的故障现象

首先,无论哪次云厂商故障,我都是先找真实的故障现象,然后才有资格发表意见。我从个人渠道确认,也看了腾讯云的公开通告,本次的故障现象就是API系统崩了,导致一堆PaaS云产品业务中断了。

  • API控制面大范围故障,比如控制台、云函数、微服务、文字识别、验证码等等服务都出现了严重的业务中断。

  • 不依赖API的数据面业务未出现故障,比如运行中的云主机、VPC、云磁盘等等。

  • 使用独立API系统的对象存储没受影响,CDN下载和直播客户端拉流不需要鉴权也不会受影响,大型视频客户有预授权额度也不受影响。

本次故障的发生时间很重要,公告里承认是15点20分发生故障,16点大部分恢复,有一个上海疑难节点拖到17点恢复。这种故障最大的伤害是无法使用API做查询和变更,本次故障的时间段客户很少有业务变更,让客户业务侥幸躲过了大部分故障,大部分客户是被控制台故障和API监控失败惊吓和误导了。

在腾讯云的公开通告中发布了一张“全云流量趋势图”,此图也可以作为参考佐证,从此图可以推测出,10-18点的客户需求非常稳定,相比其他时段,客户较少有调整资源的需求。

136f164a7d71eff85c029a6ad16ade01.png


2. 实际故障范围不大

这次云故障似乎是“天塌地陷的危险”外加“万众瞩目的狂欢”,但这只是读者的错觉,这种故障对腾讯云的舆论影响比真实业务影响更大

  • 首先,因为本次故障不涉及数据面,运行中的云主机、容器、云磁盘、VPC等IaaS云产品,并没有受到影响。

  • 其次,虽然IaaS云产品的管控功能会因故障而中断,极大地影响了客户的弹性伸缩需求,但是故障时间是15-16点(或严谨说是15-17点),用户一般不会在该时间段大规模申请和释放资源。

  • 再次,CDN可以绕过大部分鉴权故障,因为HTTP下载和直播拉流(客户端观看)都不需要鉴权。大客户做主播端推流也是设置批量并发额度,不超过额度也不会调用鉴权API,而15-17点不会出现业务量超额的情况。

  • 最后,这故障最大的影响是控制台和API系统。控制台故障报错,会吓到用户;API鉴权失败会导致客户的监控系统大批量误报,可能会因为误报而触发不必要的业务迁移。

本次故障主要影响的是CDN强制更新缓存、以及每次开播都鉴权的小视频客户。这次故障会导致“云函数、微服务”等计算类PaaS产品彻底停摆,各大云厂商的长期目标也是推广这几类计算型PaaS云产品,但是,这类产品现在还没有那么大的产品影响力,其最大的价值就是让开发者拿来学习实践。

对象存储使用了独立的鉴权系统,并不受故障影响。腾讯云的公开通告中提及,对象存储的调用次数趋势,在15-16点有目测10%的下跌,这并不是说对象存储也存在服务中断,而是被其他业务的故障牵连导致轻微用量下降;那些坚持没跌的90%存储调用次数,更是在证明大量的客户业务依旧正常工作。

bffafe18ce157d62072788ee241b1cec.png


3. 感谢老铁的PaaS云证据

这次腾讯云的故障和去年的杭州云故障,都让我体验到了一种“感谢道友,以死帮我证道”的舒爽,我给他们做辟谣科普,也是在验证我坚持的道理:

云厂商对IaaS云和PaaS云产品做分类,不是为了概念炒作,而是对产品设计、技术实现、客户包装乃至故障炸窝都有指导意义。我的新书《云计算行业进阶指南》(审批完结,在走印刷流程)有一个章节专门介绍IaaS和PaaS的分类方法,IaaS云产品以“规格和能力上限”为计量单位,PaaS云产品以“软件可识别的用户行为次数”为计量单位。

当云产品遭遇API系统崩溃(或者鉴权异常)故障时,因为IaaS云产品只需要API来管控业务变更,而PaaS云产品的每一个业务步骤都需要经过API系统,这导致两类产品的故障表现存在明显差异。

但是,我也需要硬核证据来证明我的主张有可信度。半年内两次典型又知名的云故障,几乎就是按照我对PaaS云产品的定义做定向爆破。上次我为了表示感激之情,公开给杭州云写辟谣文章,这次我也要公开给腾讯云做一次辟谣。

df23dc26e1b88bc6f39bd8742badfc3d.png


4. 客户该做多云冗余

没有不出故障的云产品,但客户业务部门不允许本司技术部门以“云厂商出故障”为理由中断业务服务。客户技术部门只能在故障发生前做好冗余设计,在故障发生时有快速切换预案,这才是最理性务实的选择。

在客户做云服务监控和多云冗余的工作中,IaaS和PaaS云产品也有明显的差异。

  • IaaS云可以通过AZ(可用区)来实现云内故障隔离,但PaaS云产品没有AZ的概念,这让客户只能用多云冗余来规避PaaS云产品故障。

  • IaaS云向云厂商开放了大量的监控信息,但PaaS云只露出简单的API接口,这让客户很难对PaaS云产品的真实可靠性做监控。

  • IaaS云做业务迁移有复杂的步骤,但PaaS云的业务迁移很容易,甚至可以将多云切换的权限下放给客户端SDK。

客户并不太关PaaS云产品的后台技术说明和故障改进规划,因为客户没有任何鉴定和监控手段,各种故障后的复盘悔改,都只是无法证伪的商务礼仪。各种对PaaS云产品的“头脑风暴+环境设定+思维博弈”读起来很爽,但实际上毫无价值,客户做好PaaS云产品的多云冗余才是唯一可信的保障。

4b3971721812a3bc53ff5a9b192f2600.gif


5. 口嗨新闻没有用途

每次云厂商故障,很多云计算爱好者都兴奋的像在过年。云厂商出故障了应该被嘲笑,但各位读者看这些口嗨新闻能获得什么有用途的信息哪?这些口嗨新闻里到处都是空洞的“劲爆和焦虑”,但是这些爱好者连故障现象都说不清楚,还会影响读者对现象和本质的判断。

这些口嗨新闻只是一个舆情事件,并不会影响到云厂商的销售经营。这些偶发故障只会影响这两周内的新客户签单测试的过程,并会导致极少数专业小客户迁移到友商云(然后等促销或者友商出故障时再切回来)。

云计算从业者无法从那些口嗨文章中学到任何技术建议,因为脱离实际生产环境的口嗨是没有价值的。IaaS云产品的生产环境相对雷同,所以IaaS技术的精进方向还有趋同进化,但是PaaS云产品并没有统一的技术路线。

计算机工程师也无法从这些口嗨新闻中学会任何解题思路,反而会产生“我行我也想上”的浮躁情绪。云厂商每次出故障,我都会做上一段时间头脑风暴,想想有哪些改进方案。但我从不公开发表意见当懂王,因为在架空环境里谈IT技术方案,这是在炫耀自己的无知。

ccc67a69974e106c5a4683d5b3939d9b.gif


6. 陈年烂梗之服务状态页

因为云计算爱好者们写口嗨新闻时知识储备匮乏,他们骂云厂商翻来覆去就那么几个事。这其中第一个烂梗是,服务健康状态页,这个烂梗很缺德。

每当云厂商出故障时,就会有云计算爱好者谈“云厂商怎么都不做服务健康状态页面”。我并不认可这种产品建议,先谈一下大致原因:

  • - 各产品线有自己的API状态接口,如果客户没用好产品线自己的状态查询接口,这是包装培训问题不是产品设计问题。

  • - 如果你是客户的技术工程师,你会如何使用这个汇总状态页?这是个轻度参考还是重度依据?乱加内容是在增加客户的用云难度。

  • - 现在有个多产品线公摊的API和鉴权认证系统,就已经频繁出现全平台故障了;再新增个多产品线共同维护的状态页,是嫌弃误报漏报还不够多吗?

  •  - 状态页面不是什么新功能,2014年就有友商大肆宣传这个功能了。但无论灯塔云还是国内云,都是没有客户使用,才导致这个功能逐渐荒废了。

我并不反感朋友们给云厂商提出的善意建议;我也不反对云厂商再去折腾一下这个荒废功能,“缓解客户的质疑焦虑”也是一种产品效果;我甚至不反感爱好者们反复呱噪这个状态页,因为这在证明他们的无知。但我明确说,做状态页就是在敷衍孩子。各位读者别老看各种《云厂商居然不知道做个状态页》的呼吁文,这种呼吁没有价值,你们应该找找有没有人写出过《亲身实践!使用服务健康状态页的实战心得》。

我真正反感的是,一些云计算爱好者在写口嗨文章时,“裹胁式引用”一些善意的建议。你们和云厂商吵架博出位,是自己愿意承担对应的敌视风险的。但你们在恶意骂战的语境下,反复大喊“某某大佬也提出过相同的建议”,这就是强行拉旁观者站队,让旁观者善意且随口提出的建议, 变成了你们和云厂商吵架时的证据。这样做真得很缺德,也容易没朋友。

b0c9ca8fac453419c30fe07c4a89e5e8.gif


7. 陈年烂梗之系统盘丢数据

因为云计算爱好者们写口嗨新闻时不了解历史事件,他们骂云厂商翻来覆去就那么几个事。这其中另一个陈年烂梗是,前Y数控丢数据。

每当爱好者们提到这个陈年烂梗时,似乎在和“可怜的客户”同呼吸共命运。但这个烂梗里根本就不存在客户,爱好者们每次提这个烂梗,都是给前Y数控增加被倒查深扒的风险

腾讯云当年最大的失误不是丢系统盘的数据,而是公开故障细节给看客们找攻击挑刺的谈资。我是真佩服这个前Y数控,既要毁了自己的融资渠道,也要毁了自己技术团队的声誉,就为了“按闹分配+试试运气”。

  • * 一个IT科技公司连续八个月才消费3569元,请问他能买多少云资源开展业务?我在2016年就开始教风投们如何解析IT类创业团队的资源采购账单了,就这种用云量信息,能找到IT技术圈的投资吗?(依稀记得,这是一家大数据技术公司,重要数据都放在腾讯云上,但网上已经搜不到该公司的详细信息了)。

  • * 一个技术创业企业,将价值上千万的核心数据放在系统盘里,还没任何备份。这个工程师和CTO的履历上,敢明着写上这一段“给公司创收”的神奇经验吗?

  • * 2018年云厂商丢系统盘的数据,有什么值得大惊小怪的?在2018年,即是AWS的EC2,也不保证系统盘不丢数据,而是建议客户将数据存在云盘或者对象存储。

我们当然为腾讯云的遭遇而感到幸灾乐祸,因为“这么弱鸡的理由居然能成功碰瓷……”。但不会和坑蒙拐骗的行为共情,盲目带入身份、病态换位思考都是心智不健全的表现。本来这个什么数控公司已经安然撤退了,但这些云计算爱好者们如获至宝的反复提及此事,这实际是在坑谁哪?

fc283a7e38dc60fdad908caf2ba2fef7.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1600523.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OSPF:MGRE实验

一、拓扑图 二、实验内容 1,R6为ISP只能配置IP地址,R1-R5的环回为私有网段 2,R1/4/5为全连的MGRE结构,R1/2/3为星型的拓扑结构,R1为中心站点 3,所有私有网段可以互相通讯,私有网段使用OSPF完成 …

js-pytorch:开启前端+AI新世界

嗨, 大家好, 我是 徐小夕。最近在 github 上发现一款非常有意思的框架—— js-pytorch。它可以让前端轻松使用 javascript 来运行深度学习框架。作为一名资深前端技术玩家, 今天就和大家分享一下这款框架。 往期精彩 Nocode/Doc,可…

uni-app中页面生命周期与vue生命周期的执行顺序对比

应用生命周期 uni-app 支持如下应用生命周期函数: 函数名说明平台兼容onLaunch当uni-app 初始化完成时触发(全局只触发一次),参数为应用启动参数,同 uni.getLaunchOptionsSync 的返回值onShow当 uni-app 启动&#x…

20240416,对象初始化和清理,对象模型和THIS指针

哈哈哈乌龟越狱了 目录 2.5 深拷贝&浅拷贝 2.6 初始化列表 2.7 类对象作为类成员 2.8 静态成员 2.9 成员变量和成员函数分开存储 2.10 THIS指针的用途 2.11 空指针访问成员函数 2.12 COSNT修饰成员函数 2.5 深拷贝&浅拷贝 浅拷贝:简单的赋值拷贝…

如何调整Hostease服务器cPanel中的域名数量限制

近段时间我们的网站总是受到攻击,为了保障网站的安全,我们准备将所有网站迁移至Hostease提供的高防服务器中。我们的服务器配置是Intel I3 - 2120,8GB 内存 1TB 机械硬盘,100M 带宽出口,外加10G 防御的防御&#xff0…

Day06 - React 第六天

学习react的第六天,持续更新中 关注不迷路!!! 使用脚手架创建一个react项目 全局下载react脚手架 npm install -g create-react-app 在需要的项目文件中创建一个react项目 create-react-app #项目名 创建好项目以后 npm或yar…

Activity——spring方式创建activiti所需数据表结构

文章目录 前言依赖引入编写数据库连接等配置配置日志文件编写java代码生成数据库表结构问题反馈与解决思路问题一:Cause: java.sql.SQLSyntaxErrorException: Table activiti_02.act_ge_property doesnt exist 为什么文件名必须写死? 前言 在之前创建ac…

java绘图在ubuntu报错

把JRT网站部署到ubuntu桌面系统上,开始没测试绘图部分功能,只试了连PostGreSql部分正常。后面试了生成位图部分发现报错。 报下面错误: (ColorModel.java:220)\n\tat java.desktop/java.awt.image.BufferedImage.(BufferedImage.java:286)\n…

设计模式之状态模式(上)

状态模式 1)概述 1.定义 允许一个对象在其内部状态改变时改变它的行为,对象看起来似乎修改了它的类。 2.作用 状态模式用于解决系统中复杂对象的状态转换以及不同状态下行为的封装问题。 3.方案 状态模式将一个对象的状态从该对象中分离出来&…

RabbitMQ 各种通信模式的Python实现

一、RabbitMQ 原理 1、基本原理 RabbitMQ是流行的开源消息队列系统,用erlang语言开发。RabbitMQ是AMQP(高级消息队列协议)的标准实现。支持多种客户端,如:Python、Java、Javascript、C#、C/C,Go等,支持AJ…

【ENSP】华为三层交换机配置AAA认证,开启telnet服务

配置步骤 1.给交换机配置ip地址,以便登陆 2.配置AAA,用户名,密码,服务类型,用户权限 3.配置接入设备的数量 4.开启telnet服务 LSW2交换机配置 u t m #关闭提示 sys …

微信小程序scroll-view组件

一、介绍 当一个容器内容很多时,若容器无法显示完整内容,则可通过滚动操作查看所有内容 在微信小程序中scroll-view组件可以实现滚动效果 二、scroll-view组件的属性值 (1)scroll-x 【boolean型】 允许横向滚动条,默…

Python也可以合并和拆分PDF,批量高效!

PDF是最方便的文档格式,可以在任何设备原样且无损的打开,但因为PDF不可编辑,所以很难去拆分合并。 知乎上也有人问,如何对PDF进行合并和拆分? 看很多回答推荐了各种PDF编辑器或者网站,确实方法比较多。 …

HBase的数据模型与架构

官方文档:Apache HBase – Apache HBase™ Homehttps://hbase.apache.org/ 一、HBase概述 1.概述 HBase的技术源自Google的BigTable论文,HBase建立在Hadoop之上,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于…

ThreadLocal和ThreadLocalHashMap

请直接百度详细介绍 -------------------------------------------------------------------------------------------------------------------------------- 1.ThreadLocalMap是Thread类里的一个局部变量 2.ThreadLocalMap是ThreadLocal类里的一个静态内部类, 3.ThreadL…

Backend - DRF 序列化(django-rest-framework)

目录 一、restful 、django-rest-framework 、swagger 三者的关系 (一)restful API(REST API) 1. rest 2. restful 3. api 4. restfulAPI (二)django-rest-framework(简称DRF&#xff09…

分类算法——模型选择与调优(三)

交叉验证 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中 一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的 结果,取…

进程间通信--共享内存

1.共享内存介绍 共享内存为多个进程之间共享和传递数据提供了一种有效的方式。共享内存是先在物 理内存上申请一块空间,多个进程可以将其映射到自己的虚拟地址空间中。 所有进 程都可以访问共享内存中的地址,就好像它们是由 malloc 分配的一样。如果某个进 程向共享内存写入了…

随着深度学习的兴起,浅层机器学习没有用武之地了吗?

深度学习的兴起确实在许多领域取得了显著的成功,尤其是那些涉及大量数据和复杂模式的识别任务,如图像识别、语音识别和自然语言处理等。然而,这并不意味着浅层机器学习(如支持向量机、决策树、朴素贝叶斯等)已经失去了…

Achronix FPGA增加对Bluespec提供的基于Linux的RISC-V软处理器的支持,以实现可扩展数据处理

Bluespec支持加速器功能的RISC-V处理器将Achronix的FPGA转化为可编程SoC 2024年4月——高性能FPGA芯片和嵌入式FPGA(eFPGA)硅知识产权(IP)领域的领先企业Achronix半导体公司,以及RISC-V工具和IP领域的行业领导者Blues…