唯品会宕机惨案,损失超亿元!故障来时如何迅速应对?

news2025/2/2 6:06:03

01

事件回顾

对于IT工程师来说,宕机并非新鲜话题,经历过一次服务器宕机,职业生涯才“完整”。但如果事故超过 12 小时,或许会直接造成职业生涯“宕机”。

3月29日发生的突发事件,#唯品会App崩了 冲上热搜,系统短时故障导致“加购”等功能出现异常。官方公告称,此次南沙机房重大故障影响时间持续12个小时,导致公司业绩损失超亿元,影响客户达800多万。

据悉,造成此次故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。

此次机房事故影响除了唯品会,微信、QQ等腾讯旗下社交软件也出现功能异常,包括微信语音对话、朋友圈、微信支付,以及QQ文件传输、QQ空间和QQ邮箱在内的多个功能无法使用。

显然,微信团队反应迅速并及时恢复。唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位,并决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。

02

事件反思与复盘

1、技术迭代多轮,为啥依然存在大规模宕机事件?

从两个方面进行解答

1、承认故障是不可避免的,有人为的故障(Human Error),人是容易出错的;也有机器的故障(Failure),这些属于无计划的停机。发布新系统、升级维护、更新硬件等,属于有计划停机。即使技术做得再好,也只说自己能做到多少个 99.99%,而非 100% ,技术的上限是努力生成多个9。当然每个9的背后都早已暗中标好价格。

2、从分布式架构设计来说,世界上的软件都是有故障的,故障发生时,首先希望故障不要蔓延开,能够控制得住,其次是故障的时间越短越好。然而,架构系统也有很多的依赖,如基础设施 DNS、CDN、运营商、机房等等,想要实现稳定,需要大家一起实现。

系统宕机对于任何企业来说都非常严重,若不及时处理将会导致严重的后果,提前做好相关防范措施,能避免更大的损失。

2、如果故障不可避免,如何保障数据安全和业务的可靠性?

这就要强调数据容灾备份的必要性。

容灾,是指在遭遇灾害时能保证信息系统能正常运行。

备份,则是运用一些技术手段保证数据不丢失,容灾备份产品的最终目标是帮助用户应对人为误操作、软件错误、病毒入侵等“软”性灾害以及硬件故障、自然灾害等“硬”性灾害。

制定合理的机房备份和容灾方案,实现数据备份和迁移,保证在发生机房故障时能够快速恢复平台服务。最后,要建立有效的机房故障应急预案,明确责任人和流程,在发生机房故障时能够及时采取措施,减少损失。

灾难造成的财产的损失是数以万计的,但不仅限于是财产,还有设备上数据的丢失。在灾难面前,提前加强预警和防范,居安思危,做好数据的容灾管理,就很难对灾后重新投入生产、保障行业信息数据有所参考有个清晰的规划和认识。

可能认真做灾备的公司很少,成本高,不出事时完全没收益。搞个牛X灾备,花费巨大,这几年,大基调是降本。

3、如何提高机房故障风险防范及应对?

首先,机房选择要考虑位置和规模,考虑到地理位置、气候条件、交通便利性、网络环境等因素,避免因外部因素导致机房故障。

其次,要建立完善的机房监控和报警系统,及时发现并处理机房内部的温度、湿度、电力、网络等问题,防止因小失大。

此次唯品会机房故障事件给我们提供了一个深刻的教训,也提醒了我们在追求业绩增长的同时,不能忽视技术安全和稳定性的重要性。只有做好技术保障和风险防范工作,才能为用户提供更好的购物体验和服务。此次机房故障事件却给唯品会带来了沉重的打击,不仅造成了巨大的经济损失,还影响了用户的信心和忠诚度。

事实上,机房故障事件并非个例,而是电商行业普遍面临的一个风险点。在互联网时代,电商平台的运营离不开稳定可靠的技术支撑,而机房作为电商平台的核心基础设施之一,其安全性和可用性直接关系到平台的正常运行和用户的满意度。一旦发生机房故障,不仅会导致平台功能异常、数据丢失、交易中断等问题。

03

机房运维的高效策略

魔鬼藏在细节里,教训留给自己,经验警醒他人。

机房安全是业务发展的底座。提升机房设备安全和管理效率,避免人为因素导致的事故发生,是机房运维的必要前提。

LinkSLA结合AI、大数据等先进新技术,通过专业化的运维管理系统,以智能化、流程化技术手段,提高运维管理效率。除了补充人力不足,同时提供直观、实时的可视化监控系统界面,将监控对象清晰展现,实时掌握系统运行状态,高效应对突发事件。

1、全面、敏捷的监控系统

将所有资产并入监控系统,对每个资源节点的状态、性能进行实时监控。对机房的温湿度、电力系统的运行状态、网络设备、主机的性能、空间容量等信息进行实时监控,并通过展示系统运行状态,高效应对规模庞大的基础设施,网络设备、服务器、存储、应用等。

(机房动环监控视图)

2、快速发现、定位问题,保障业务稳定运行

资产全生命周期管理:提供了有效、准确、及时的“部件级”IT资产信息。以业务视角监控系统健康度,系统视图展示各个资产运行的状态,业务拓扑图、告警列表趋势等。

当故障发生时,帮助工程师快速对故障进行诊断,提升系统运行质量。好的运维系统不仅起到“灭火”作用,更重要的是能预先发现漏洞,防患于未然;事后控制不如事中控制,事中控制不如事前控制;

3、服务闭环——监、管、控全面开花

“监”全栈监控,全局视角整合告警事件、性能指标、日志和容量等多维数据,重点发现故障节点;“管”就是配合资产变更和事件流程;“控”重点还是在增强可靠性减少故障。

除此之外,还提供7*24在线值守,配备moc专家和二线专家团队,提高事件的响应及处理效率,大大降低人力成本和专家技术成本,确保故障事件都能得到追踪和及时解决。

4、AI机器学习算法——精准、及时

实现精准告警、异常检测、根因定位和容量分析等场景。异常告警智能化,基于动态阈值的报警确认,对海量的时序指标进行异常检测,实现故障快速响应:能发现问题,也能提供解决方案。

高效、降本的背后是强大的技术支撑,LinkSLA智能运维管家交付的不仅仅是平台,更是一套可持续提升的运维模式,为用户提升价值,提高运维效率,降低运营成本。

扫码试用     

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/642832.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最全整理,完整一套WEB/APP/接口测试测试流程,全面覆盖...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 web测试流程 需求…

Java --- springboot3整合redis

目录​​​​​​​ 一、整合redis 1.1、导入pom依赖 1.2、修改springboot配置文件 1.3、代码测试 二、测试访问redis五大常用数据类型 三、自动配置原理 四、定制化 4.1、解决redis存储序列化乱码问题 4.2、redis客户端使用jedis 一、整合redis 1.1、导入pom依赖 …

【考试】2023年5月软件设计师考试感受

前言❤️ 由于考试地点距离住的地方很远,一个南面一个北面,所以BZ选择了提前一天去到考试地点附近,住在考点附近。吃了晚饭后。到住的地方大概9点多,洗漱完,10点左右开始考前过知识点,复习到凌晨3点左右。…

改进的粒子滤波算法及其应用研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

【博客660】prometheus默认5min的lookback机制带来查询的影响

prometheus默认5min的lookback机制带来查询的影响 1、prometheus staleness机制 我发过的:【博客616】prometheus staleness对PromQL查询的影响 官方staleness解析 相关文章:do-prometheus-metrics-have-some-sort-of-freshness-lifetime 相关issue…

全面解析数据治理

摘要 数据治理并不是一种简单的操作行为,而是对数据资产管理行使权力和控制的活动集合,是一种管理和保护数据的方法,是确保准确性、完整性、安全性、可靠性和一致性的关键。 通过数据治理,企业可以更好地掌握现有数据&#xff0…

C语言---认识动态内存管理并实现一个动态通讯录:静态通讯录别来沾边

文章目录 前言🌟一、为什么存在动态内存分配🌟二、动态内存函数的介绍🌏2.1.malloc函数free函数🌏2.2.calloc函数free函数🌏2.3.realloc函数 🌟三、常见的动态内存错误🌏3.1.对NULL指针的解引用…

SQL(--修改中--)

目录 一、基本介绍 二、常用函数 集合函数 字符串函数 MYSQL的日期和时间函数 SQL重要的内建日期函数 MYSQL重要的内建日期函数 条件判断函数 三、操作 单表查询 多表查询 使用正则表达式查询 添加: 修改: 删除: 四、…

Linux系统实现虚拟内存教程

Linux系统实现虚拟内存有两种方法:交换分区(swap分区)和交换文件, 一、交换文件 查看内存:free -m , -m是显示单位为MB,-g单位GB free -g 创建一个文件:touch命令用于修改…

【2023电工杯】A题 电采暖负荷参与电力系统功率调节的技术经济分析 30页论文及python代码

【2023电工杯】A题 电采暖负荷参与电力系统功率调节的技术经济分析 30页论文及python代码 1 题目 A题:电采暖负荷参与电力系统功率调节的技术经济分析 建设以新能源为主体的新型电力系统是应对全球气候变化挑战的重要举措。高比例新能源接入导致电力系统调节能力稀缺&#x…

电厂人员定位管理系统,厂区人员及车辆轨迹可循

随着科技的不断发展,室内定位技术已经逐渐成为电厂管理中不可或缺的一部分。在传统的变电站管理中,由于缺乏有效的定位技术,很难对设备、人员和物资进行精确的管理,导致了效率低下、成本高昂的问题。而现在,通过引入室…

企业必须知道:数字化官网已成为新发展格局

​如今我们生活在一个数据驱动发展的时代,不能顺应时代发展进步的企业就会落后和淘汰。一个新技术时代应运而生,一个数据主导的数字企业时代也必将应声而至。 社交媒体、移动设备、物联网和大数据引发的数字化趋势不仅改变了人们的生活方式而且要求企业…

工厂模式(四)

过气的,终究是过气了 上一章简单介绍了单例模式(三), 如果没有看过,请观看上一章 一. 工厂模式 引用 菜鸟教程里面的单例模式介绍: https://www.runoob.com/design-pattern/factory-pattern.html 工厂模式(Factory Pattern)是 Java 中最常…

输电线路可视化监拍装置硬件解决方案

老旧输电线路可视化监控装置 随着我国人口的增长,电力设施的规模也变得越发庞大,人工运检的负担也越来越沉重,而且巡检的时效性也是痛点,于是电网提出智慧可视化管理通道运检的方案,线路在线监测装置成为其基础&#x…

前端开发环境部署问题(高级程序员必备)

很多开发者到了一家新公司,公司发了一台新电脑,对环境安装比较困惑。今天带大家还原,拿到公司电脑,如何安装你需要的各种环境。 一、node安装 官网下载地址: http://nodejs.cn/download/ 根据自己需要下载对应的版…

电脑多久重装一次系统比较好

在长时间使用电脑后,一些用户可能会考虑重装系统来提升性能和稳定性。然而,电脑重装系统的频率是一个有争议的问题。本文将探讨电脑重装系统的最佳频率,以帮助您做出明智的决策。 工具/原料: 系统版本:win7旗舰版 品…

如何使用Leangoo领歌敏捷工具管理Sprint Backlog

什么是Sprint Backlog? Sprint Backlog是Scrum的主要工件之一。在Scrum中,团队按照迭代的方式工作,每个迭代称为一个Sprint。在Sprint开始之前,PO会准备好产品Backlog,准备好的产品Backlog应该是经过梳理、估算和优先…

编译原理期末速成-自上而下分析、消除文法的左递归问题

文章目录 自上而下分析面临的问题文法左递归问题回溯问题 构造不带回溯的自上而下分析算法消除文法的左递归 自上而下分析 自上而下就是从文法的开始符号出发,向下推导,推出句子。 面临的问题 文法左递归问题 左递归在语法分析过程中可能会导致无限循环…

测试员,自己都不上心,就不要抱怨别人对你冷眼旁观

昨日表哥恳请帮他的学生投递一下开发岗的简历,举手之劳,这忙必须得帮。但当发来学生的简历后,我吐槽了“这简历平平无奇,没有任何亮点,如何令人另眼相看?”表哥说,学生经历不多,总不…

Echarts 显示指定区域内容 + 不允许控制缩放

需求 在开发中,遇到如下一个需求,要展示指定区域的图形,并控制其不允许缩放 分析 第一想到的就是控件 dataZoom 中设置指定展示的区域,总结如下 解决 示例 源码 option: {xAxis: {type: "category",data: ["A…