b站高可用架构 笔记

news2024/12/22 15:05:39

b站高可用架构

关键点:主机房,多活和多活机房

参考文章:bilibili技术总监毛剑:B站高可用架构实践

1. 前端和数据中心负载均衡

  • 前端负载均衡(动态CDN):最近节点、带宽策略、可用服务容量

  • 数据中心负载均衡:均衡流量、识别异常节点、扩容、提高可用性

  • 子集选择算法:减少心跳检测成本,平均分配后端至客户端,节点变更持续均衡

  • 高并发:多集群提高吞吐量,数据保存多缓存,单集群故障迁移成本降低

2. 负载均衡算法

  • 正常:轮询

  • 问题:请求处理成本不同、物理机差异、k8s容器切换用户感知

  • 关键:考虑服务器可用性,构建全局视图,负载+可用性

  • 算法:choice-of-2 算法,选2节点打分选择;预热新节点;低分节点统计衰减避免“永久黑名单”

3. 分布式限流

  • 作用:服务器过载,先降级服务->限流保证服务稳定

  • 正常:静态QPS

  • 问题:某用户请求过重,挤兑其他用户

  • 关键:不同流量、重要性、用户对应不同QPS,最重要服务自保

  • 解决:使用算法quota-server获取quota,基于滑动窗口(一段时间内使用的次数)最大值计算quota;最大最小公平算法解决大消耗者饥饿;客户端概率公式截流,不全部拒绝

  • 配额获取:基于统一错误码

4. 重试、超时、应对连锁故障

  • 重试:限制次数,只失败层重试,失败返回错误码避免级联,设置周期速率诊断

  • 超时:高并发高延迟引发故障,超时为fail fast让请求消耗或丢弃,上下游不一致导致资源浪费

  • “默认值策略”:每个请求每个阶段检查足够剩余时间

  • 跨进程超时控制:rpc承诺超时时间,不足取消传递,超时时间覆盖上游

  • 应对连锁故障:避免过载,限流->降级,重试退避,超时控制,变更管理,压测演练,扩容重启消除流量

5. 其他

当客户端访问服务时,将用户数据保存到多个缓存上

  • 当Quota耗尽或申请Quota的时间过期,也能主动拉取数据。

  • quota server故障:降级本地策略或直接放行

  • Apisix vs Envoy:Apisix基于nginx ,nginx的多 worker 的协作方式具有高并发优势,Envoy总线设计使得处理东西向流量具有优势

多服务器心跳检测成本过高:

解决:子集选择。client不连接全集,只连接一部分服务器进行负载均衡。

6. b站架构
在这里插入图片描述

  • 无限递归导致主机房CPU爆掉,限流无解,用户刷新多活机房流量挂掉

  • 崩溃不影响CDN静态资源

  • 多活:不同业务不同机房,主机房承载所有在线业务

无限递归导致主机房CPU爆掉,限流无解,用户刷新多活机房流量挂掉

问题:

1. b站架构如何实现高效和可靠的负载均衡

  • 前端和数据中心负载均衡器(BFE和Envoy),选择最近节点、根据带宽和容量均衡流量

  • 子集选择算法,减少连接和心跳检测成本,持续均衡节点变更

  • choice-of-2算法考虑服务器可用性,选2节点打分选择,预热新节点,统计衰减低分节点

2. 如何优化超大规模集群的连接和限流

  • 子集选择算法,客户端只连接后端子集,减少连接和心跳成本

  • quota-server获取和计算quota,减少请求backend频次;滑动窗口算法;最大最小公平算法防大消耗者饥饿

  • 客户端概率公式截流,不全部拒绝,配额获取基于统一错误码

3. 如何设置合理的重试和超时策略- 重试:限制次数,只失败层重试,失败返回错误码避免级联,设置周期速率诊断

  • 超时:高并发高延迟引发故障,超时为fail fast让请求消耗或丢弃
  • “默认值策略”:每个请求每个阶段检查足够剩余时间
  • 跨进程超时控制:rpc承诺超时时间,不足取消传递,超时时间覆盖上游

4. 如何防止和处理连锁故障- 避免过载,限流->降级,重试退避,超时控制

  • 变更管理,压测演练,扩容重启消除有害流量

5. 如何利用多活机房来提高服务可用性

  • 多活(容灾):根据不同业务选择不同机房,主机房承载所有在线业务

其他:主机房CPU炸掉,限流无解,用户刷新导致多活机房流量挂掉,导致崩溃。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1326398.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大创项目推荐 深度学习 植物识别算法系统

文章目录 0 前言2 相关技术2.1 VGG-Net模型2.2 VGG-Net在植物识别的优势(1) 卷积核,池化核大小固定(2) 特征提取更全面(3) 网络训练误差收敛速度较快 3 VGG-Net的搭建3.1 Tornado简介(1) 优势(2) 关键代码 4 Inception V3 神经网络4.1 网络结构 5 开始训练5.1 数据集…

飞书+ChatGPT搭建智能AI助手,无公网ip实现公网访问飞书聊天界面

飞书ChatGPT搭建智能AI助手,无公网ip实现公网访问飞书聊天界面 前言环境列表1.飞书设置2.克隆feishu-chatgpt项目3.配置config.yaml文件4.运行feishu-chatgpt项目5.安装cpolar内网穿透6.固定公网地址7.机器人权限配置8.创建版本9.创建测试企业10. 机器人测试 前言 …

C#上位机与欧姆龙PLC的通信03----创建项目工程

1、创建仿真PLC 这是一款CP1H-X40DR-A的PLC,呆会后面创建工程的时候需要与这个类型的PLC类型一致,否则程序下载不到PLC上。 2、创建虚拟串口 首先安装,这个用来创建虚拟串口来模拟真实的串口,也就是上位机上有那种COM口&#xf…

【大数据实训】python石油大数据可视化(八)

2014到2020年石油加工产品产量数据处理分析 一、任务描述 石油是工业的命脉。 一直到2020年,我国原油产量基本处于平稳的状态,大部分原油来自国外进口;中国原油加工产量在华东、东北地区占比较大,华南地区相对较少。原油的加工…

独立站退款率太高会怎么样?如何解决独立站退款纠纷?——站斧浏览器

独立站退款率太高会怎么样? 当独立站的退款率过高时,可能会对卖家和平台产生一些负面影响: 信誉受损:退款率过高可能会导致卖家的信誉受损。买家在购物时通常倾向于选择评价好的卖家,高退款率可能会让卖家的评价下降…

二维相位展开问题(讨论针对不连续相位展开算法鲁棒性)

作者:Munther Gdeisat博士和Francis Lilley博士 先决条件:为了理解本教程,在阅读本文档之前,您必须已经学习并完成“一维相位展开问题”教程。 有许多应用程序可以生成包裹的相位图像。例如合成孔径雷达(SAR&#xf…

动态内存分配(malloc和free​、calloc和realloc​)

目录 一、为什么要有动态内存分配​ 二、C/C中程序内存区域划分​ 三、malloc和free​ 2.1、malloc 2.2、free​ 四、calloc和realloc​ 3.1、calloc​ 3.2、realloc​ 3.3realloc在调整内存空间的是存在两种情况: 3.4realloc有malloc的功能 五、常见的动…

软件工程--设计工程--学习笔记(软件设计原则、软件质量属性设计、架构风格......)

软件设计在软件工程中处于技术核心,其目的是把需求分析模型转变为设计模型,以知道软件的实现,本章讲解软件设计的基本原则和基本实践 本文参考教材:沈备军老师的《软件工程原理》 软件设计概述 软件设计分为两个阶段&#xff0…

Python之文件内容操作

文章目录 1、文件操作基本知识2、Open3、PathLib3.1、Pathlib—path.open3.2、Pathlib— pathByte.write_bytes/ pathByte.read_bytes 4、JSON5、二进制文件操作6、Excel、word 1、文件操作基本知识 按文件中数据的组织形式把文件分为文本文件和二进制文件两类。 文本文件&am…

文本生成精准图像字幕,谷歌等开源PixelLLM

传统的大语言模型可以描述、回答与图像相关的问题,甚至进行复杂的图像推理。但使用大型语言模型进行文本定位,或用图像指代准确坐标却不太行。 为了进行该技术的探索,谷歌和加州大学圣地亚哥分校的研究人员开发了像素对齐大语言模型——Pixe…

65 数学游戏

动态规划 #include <iostream> #include <vector>using namespace::std; using std::cout; using std::cin; vector<int> use;int dfs(int now,int maxChoosableInteger,int desiredTotal) {if(use[now] ! 0) {return use[now]1;}int res0;for(int imax…

代码审查工具FishEye详细使用教程

1. Git代码仓库设置 1、登录并进入到FishEye主页面&#xff0c;点击Repositories进入仓库管理页面&#xff0c;如下图&#xff1a; 2、填写仓库信息&#xff0c;如下图&#xff1a; 3、填写Git地址 http://gitAccount:gitPwd118.24.231.166:8080/git/git/iot-lvdao/iot-dhcc.…

TCAX特效字幕保姆入门教程+效果演示+软件源码自取

目录 介绍 下载链接 初步使用 软件使用 tcc文件介绍 tcc文件版本 模式设置 ​编辑 k值提供方式举例 特效脚本设置 主要设置 ass全局风格设置 额外设置 常见问题 编码使用 使用其他tcax博主的进行编码测试 介绍 TCAX是一款专门用于制作特效字幕的软件。通过TCAX…

【计算机网络】TCP协议——1.报文格式详解

前言 上篇讲解了UDP报文格式。TCP和UDP是同层协议&#xff0c;都属于传输层&#xff0c;数据来源于上层——应用层 目录 一. TCP协议概述 二. TCP报文格式 1. 两个问题 2. 确认号和序列号 3. 标志位字段 4. 窗口大小 5. 校验和字段 6. 紧急指针与紧急数据 7. 选项字…

secureCRT串口助手配置RS232和RS422

串口RS422配置如图 和RS422不同&#xff0c;串口RS232配置如图&#xff0c;否则会通信不正常。

Station_Map1221Update

1221 Polish 1. Transfer the road coordinates from the UE coordinates system into the CAD coordinates system by using the functions in the file INDEX2UE.py 坐标转换的时候&#xff0c;插值&#xff0c;取特征点&#xff08;交叉点&#xff09;Transfer the road c…

Nature自然杂志重磅:AI复现诺奖研究一次成功只需几分钟,Coscientist科学家的好助手

《Nature》是世界上历史悠久的、最有名望的科学杂志之一&#xff0c;首版于1869年11月4日。与当今大多数科学论文杂志专一于一个特殊的领域不同&#xff0c;其是少数依然发表来自很多科学领域的一手研究论文的杂志&#xff08;其它类似的杂志有《科学》和《美国科学院学报》等&…

ES集群G1回收器,堆空间无法被回收问题

ES堆空间不足的问题&#xff0c;困扰了我有两年的时间。dump堆去分析&#xff0c;也未能分析出来&#xff0c;堆到底是被什么占用了。 我把堆空间给了31.9G&#xff0c;这是指针压缩生效的临界值&#xff0c;如果再大就指针压缩失效了。 痛苦的是&#xff0c;随着时间的增长。堆…

uniapp-uni-icons组件@click.stop失败解决~

你们好&#xff0c;我是金金金。 场景 可以看见我右侧有两个icon&#xff0c;点击的时候 会影响到折叠面板的打开&#xff0c;这让我很是苦恼&#xff0c;然后我使用了click.stop修饰符阻止事件冒泡 排查 排查之前我先贴一下代码 报错截图 可以看到找不到属性stopPropagation&…

抖音小程序开发入门

注册账号 公司和个人的都是在同一个地方注册&#xff0c;个人开发者勾选 个人开发即可 https://developer.open-douyin.com/ 在企业号&#xff0c;账号中心&#xff0c;直接邀请开发人员 发出邀请之后&#xff0c;需要被邀请人登录账号接收 调试 开发人员调试应用&#xf…