双十一备战与复盘

news2024/10/5 20:26:40

如何组织备战

重要节点

从大促启动会开始后我就开始计划我们本次备战的整体节奏。

挑战在哪

以上内容介绍了CDP平台有多么重要,那么画像系统备战的核心挑战在“如何保障在大流量高并发情况下系统稳定提供高性能服务”,主要表现在:稳定性、性能两项上。

稳定性:

1.在系统遇到紧急情况时,如何容灾快速恢复。

2.在大流量情况下,如何做好系统的流量管控,保障系统的可用。

性能:在大数据量近百万级TPS流量下如何保障系统性能(TP999:50ms以下)。

流量:黄金流程最底层环节,预估流量会被放大,整体流量备战预估到98wTPS

其实观察我们每天日常的流量就会发现,每天我们都在进行“大促”,并且日常也会存在流量激增。

我如何“操盘”

系统梳理

这一阶段主要是梳理参加大促的核心应用,我觉得最重要的一点就是梳理出来618之后都有哪些变化?因为系统总是在不断的迭代升级,一是要确保这些变化项不会影响系统的性能,二是如果有不能按照之前大促的经验评估的新的备战接口要重点去做流量收集。梳理出系统后就要进行单机压测根据压测的结果评估性能是否达标,也是对这半年的迭代交一份答卷。最后还要根据压测结果配置JSF单机限流(前置单机接口层)——稳定性保障

容量规划

我针对容量规划主要分为两个方面,一是重新进行应用的单机压测明确我们目前单机的承载量最大是多少,二是收集上下游业务方的流量,根据这两个方面进行评估算出这次大促要扩容多少资源。在根据收集上来的业务方流量提报进行应用限流,目的是保证大部分流量可控)——稳定性保障

容灾备案

梳理出所有的系统降级预案,系统核心节点灾备做到一键切换,明确操作手册,快速操作——稳定性保障

降级预案

让你的系统“坚挺不到”的最后一个大招——降级,我用一句话来概括就是将有限的资源最大化。比如我们的系统在峰值点就会暂停群体、标签的加工,也会暂停上游非重保的MQ作业,就是为了腾出更多资源给核心程序使用,以最大化保证核心业务的可用性。

军演压测

在这个阶段集团会组织多次的线上集群统一压测,(在这期间进行所有的降级演练、确保所有的降级开关可用)——稳定性保障

实时监控

重新梳理并配置系统关键链路的报警配置(电话、咚咚报警),并且我还会安排专人备战系统各个核心服务,专人专服,提升处置效率。

“惊悚时刻”

11.4日13:51分接到报警电话。

11.4日13:52分查看命中接口SGM的tp999激增,同时我马上给R2M运维老师打电话沟通得知原因。

11.4日13:53分我快速操作系统的灾备开关将系统切换到备链路,在这里我给大家的建议就是一定不要犹豫,不要上来就一直追查原因快速的做出反应和判断,最小化的减少对线上用户的影响。

以下这张图可以看到在两分钟内系统就恢复了正常

在大促期间的稳定性保障一般属于应急策略,因为在前期梳理系统时我详细的梳理了系统的降级预案明确操作手册,系统核心节点也有灾备能力并且在集团组织压测阶段也进行了降级演练,所以在出现问题时我们快速操作降级,在最短时间内解决了接口的性能问题。

总结与感悟

备战2023京东11.11是一次非常宝贵的学习和成长机会。

1.在这次备战初期梳理阶段,我学到了很多专业知识,也锻炼了自己的团队协作和问题解决能力。尤其在梳理系统架构变化点阶段能从各个角度(稳定、成本、运维)来了解为什么会这样变化。

2. 在大促当天大家都会在会议室里集中备战,我确实很紧张,但是我会组织大家再一次巡检所有的系统,核对降级列表、对其他系统的限流配置。对于我来说在晚上8点前后10分钟这个时间段是度过的最慢的并且也是最最最紧张的时候。 在这20分钟里,我要进行通知用户降级、操作系统降级、观测线上系统监控、恢复降级,并且要列张表格让团队每位小伙伴都有专门的监控项确保实时保障系统的稳定性。

3.最后当系统在峰值点运行正常,并顺利应对高并发压力时,我也会感受到巨大的成就感和满足感。大促确实很累,需要准备2个月左右的时间,大促期间还要有好几天到后半夜甚至通宵。但从某种角度上来讲大促更像是一次技术大考,一次全体人员的节日,未经历过是无法体会的,不经历多次是无法全面了解的,所以尽情享受吧。

作者:京东云开发者
链接:https://juejin.cn/post/7302605813206155290
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1258205.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【GO】k8s 管理系统项目16[前端部分--项目初始化]-学习记录

学习链接 https://blog.csdn.net/qq_29974229/article/details/129119279?spm1001.2014.3001.5502 nvm use v16.15.0 npm install vue -g npm install -g vue/clivue create k8s-plantform-fe选择 Default cd k8s-plantform-fe npm run servecd ./src mkdir views mkdir r…

ESXi 6.7 升级 7.0

方式一:esxcli方式 1.登陆exsi web界面。 启用控制台shell 2.存储-datastore-数据存储浏览器,上载 ESXI-7.0.0-depot.zip升级文件。记住此datastore的位置 ssh连接ESXI主机 vmware -vl 查看当前版本 查看升级包中对应的版本信息: es…

长沙市中小学入学报名流程及上传证件照电子版制作方法

长沙市中小学入学报名是家长和学生迈向教育之门的第一步。通常,报名过程分为线上和线下两个阶段。首先,家长需在规定时间内登录报名系统,填写详细的入学信息等。长沙市注重教育公平,为确保每个孩子都有平等的入学机会,…

(六)上市企业实施IPD成功案例分享之——中兴通讯

在通信业,项目交付的质量和效率,很大程度上影响着运营商的竞争力,先进的项目管理理念、数字化的项目管理工具及丰富的实践经验,是运营商选择合作伙伴的主要维度。在中国,IPD之所以名气这么大,最大的原因就是…

【全新升级】:Word、Excel和PPT批量转PDF - PyQt设计

文章目录 ✨前言✨脚本使用教程📚资源领取(含源代码) ✨前言 最近花了十几天的时间学习了PyQt的使用,发现PyQt具有丰富的特性和功能,可以创建出漂亮、交互性强的GUI应用程序,而且还可通过CSS样式表来设计界…

C语言:编程实现1!+2!+3!+4!+……+n!

分析&#xff1a; #include<stdio.h>//这是一个预处理指令&#xff0c;将stdio.h头文件包含到程序中&#xff0c;以便使用输入输出函数。 int main()//这是程序的主函数&#xff0c;是程序执行的入口点。 int i, a 1, t 0, n;//定义了整型变量i、a、t和n。其中&#x…

viple模拟器使用(二):Web 2D模拟器中实现沿右墙迷宫算法

沿右墙迷宫算法原理 默认直行&#xff1b;右侧有路&#xff0c;则右转&#xff1b;前方无路&#xff0c;则左转。 使用了2个传感器&#xff0c;分别是&#xff1a;机器人右侧的距离传感器 、前方的触觉传感器。 按照逻辑&#xff0c;程序中需要左转&#xff08;Left90&#xf…

ESXi 添加新网络 配置ubuntu虚拟机双网卡

基本概念 在ESXi的虚拟机之间确保正常通信的基础是网络服务&#xff0c;通常在物理网络中需要使用不同的物理设备进行连接才能组建出高效的网络服务&#xff0c;而在虚拟网络中&#xff0c;需要不同的虚拟设备为其提供服务。 ESXi的网络类型&#xff1a; 1、物理网络&#xf…

(七)上市企业实施IPD成功案例分享之——波音

有数据统计&#xff0c;早在疫情前的2019年&#xff0c;全球民用航空运输的旅客数量就已经达到了45亿人的峰值。其中&#xff0c;中国民航总计运输6.6亿人次。而只要出行坐飞机&#xff0c;就会发现机型大都是波音。事实上&#xff0c;波音公司垄断了全球几近一半的民航大飞机&…

Sass 安装

文章目录 前言SASS的系统要求安装Ruby例子后言 前言 hello world欢迎来到前端的新世界 &#x1f61c;当前文章系列专栏&#xff1a;Sass和Less &#x1f431;‍&#x1f453;博主在前端领域还有很多知识和技术需要掌握&#xff0c;正在不断努力填补技术短板。(如果出现错误&…

排序篇(六)----排序小结(不用三连,混流量券)

排序篇(六)----排序小结 排序算法复杂度及稳定性分析 直接插入排序的算法复杂度&#xff1a; 最好情况下&#xff0c;当数组已经有序时&#xff0c;直接插入排序的时间复杂度为O(n)&#xff0c;其中n是数组的大小。最坏情况下&#xff0c;当数组逆序排列时&#xff0c;直接插…

有哪些可信的SSL证书颁发机构?

目前市面上所显示的SSL证书颁发机构可所谓不计其数&#xff0c;类型也是多样&#xff0c;就好比我们同样是买一件T恤&#xff0c;却有百家不同类型的店铺一个道理。根据CA里面看似很多&#xff0c;但能拿到99%浏览器及设备信任度的寥寥无几&#xff0c;下面小编整理出几家靠谱可…

基于SWT的图书管理系统设计

功能说明 用SWT做一个图书管理系统,要求实现如下功能: 用户从登录窗口登录。用户身份有3种:高级管理员,普通管理员,普通用户。权限如下: 高级管理员具有所有权限,包括增、删、改、查书籍和用户,借书和还书,设置借阅数量限制,查看所有人的借阅记录; 普通管理员只…

京东平台上API接口的接入|获取京东工业商品详情数据

京东获得JD商品详情 API 返回值说明 item_get-获得JD商品详情 onebound.jd.item_get 公共参数 请求地址:申请KEY调用测试 名称类型必须描述keyString是调用key&#xff08;必须以GET方式拼接在URL中&#xff09;secretString是调用密钥api_nameString是API接口名称&#x…

Redis基础——入门数据类型常用命令Java中操作Redis

这里写目录标题 1. 前言1.1 什么是Redis1.2 使用Redis能做什么 2. Redis入门2.1 Redis简介2.2 Redis下载与安装2.2.1 Redis下载2.2.2 Redis安装 2.3 Redis服务启动与停止2.4 Redis配置文件 3. Redis数据类型3.1 介绍3.2 Redis 5种常用数据类型 4. Redis常用命令4.1 字符串strin…

NX二次开发UF_CURVE_create_arc_center_radius 函数介绍

文章作者&#xff1a;里海 来源网站&#xff1a;https://blog.csdn.net/WangPaiFeiXingYuan UF_CURVE_create_arc_center_radius Defined in: uf_curve.h int UF_CURVE_create_arc_center_radius(tag_t center, double radius, tag_t help_point, UF_CURVE_limit_p_t limit_p…

LeetCode(34)有效的数独【矩阵】【中等】

目录 1.题目2.答案3.提交结果截图 链接&#xff1a; 36. 有效的数独 1.题目 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 &#xff0c;验证已经填入的数字是否有效即可。 数字 1-9 在每一行只能出现一次。数字 1-9 在每一列只能出现一次。数字 1-9 在每一个以粗…

iOS蓝牙应用的后台处理,iOS蓝牙弹窗“xxx配件想要打开APP”

CBConnectPeripheralOptionNotifyOnConnectionKey: 在应用挂起后&#xff0c;与指定的peripheral成功建立连接&#xff0c;则发出通知 CBConnectPeripheralOptionNotifyOnDisconnectionKey: 在应用挂起后&#xff0c;如果与指定的peripheral断开连接&#xff0c;则发出通知 CBC…

亚信科技AntDB数据库与库瀚存储方案完成兼容性互认证

近日&#xff0c;亚信科技AntDB数据库与苏州库瀚信息科技有限公司自主研发的RISC-V数据库存储解决方案进行了产品兼容测试。经过双方团队的严格测试&#xff0c;亚信科技AntDB数据库与库瀚数据库存储解决方案完全兼容、运行稳定。除高可用性测试外&#xff0c;双方进一步开展TP…

主播之客户停留与转粉

主播的客户停留可以通过以下方法提升: 1.打造舒适吸引人的直播间,灯光和色彩要重视起来。直播间的灯光作用是根据直播间的大小、色温、角度、照射亮度等&#xff0c;不同的条件都有不同的摆放&#xff0c;而且不同的摆放组合都会带来不同的效果&#xff0c;主播可以根据自己的…