深度观察2024中国系统架构师大会(SACC)

news2025/1/24 8:50:04

今年的中国系统架构师大会(SACC)在我所在的城市广州举办,很荣幸受邀参加。这次能接触到国内最优秀的架构师,学习他们的架构思想和行业经验。对我而言非常有意义。

在这里插入图片描述

大会分为上下午共4场,我参加了上午的多云多活架构设计专场和下午的AIGC专场。

在这里插入图片描述

本篇文章就多云多活架构设计专场,我选取几位老师的观点进行分享。(我并不是架构师,只是对架构感兴趣,如有错误,还请指正)

张晓辉 Flomesh 高级云原生架构师

在这里插入图片描述

张老师分享了混合多云架构的技术方案,这里可以体现一个企业在技术层面发展到什么样的程度,根据这张图可以看看企业架构的复杂程度。可能大部分企业还在容器化,分布式架构和单一集群的复杂程度。

在这里插入图片描述

在资源抽象层面,利用统一的K8s Api,可以实现不同云厂商的资源抽象,实现资源的复用。K8s多集群可以作为防腐层,屏蔽基础设施层差异,避免厂商锁定

在这里插入图片描述

李中原 (平安银行股份有限公司 国产数据库技术负责人 )

在这里插入图片描述

银行系统的技术架构需要满足高吞吐、低延迟要求,业务可靠性的要求,以及数据安全性的要求,同时,基于监管和法规的要求,技术架构需要自主可控。

李老师分享了银行架构的“去IOE化”的变迁。

在这里插入图片描述

对于可靠性要求,从传统的不能容许服务中断,逐渐过渡到允许服务中断但必须迅速恢复。

黄奕青 (腾讯云 技术专家)

黄老师对两位讲师做了补充,着重对异地多活架构中的问题,以及解决方案和设计要点等“三阶六要点”进行了分享。

  1. 技术架构的三个阶段
  • 第一阶段是对业务需求的解读:一个是传统的需求分析,一个是企业聘请领域专家对需求建模
  • 第二阶段是确立架构,目前较为合理的架构是标准的微服务架构,已经被广泛应用(两地三中心架构)。
  • 第三阶段是在微服务架构之上构建单元化,该阶段需要解决如下异地多活架构中的挑战。
  1. 异地多活架构的挑战
  • 因为网络基础设施的物理局限性,需要考虑异地资源使用时的延迟问题。
  • 数据访问效率问题:跨地域的数据访问速度慢会导致核心交易延迟,需要考虑数据切分和流量闭环治理。
  • 分布式事务成本问题:跨地域的分布式事务会带来高成本和复杂性。
  • 中间件的单元化考虑:在异地架构中,需要考虑中间件的单元化和调度。
  1. 六大设计要点
  • 数据切分:设计大型分布式系统时首先要考虑数据如何切分。 数据按什么维度切分最合适,(如按客户号,还是哈希,按range范围?)
  • 流量闭环与单元化架构:黄老师强调了流量闭环的重要性,特别是在单元化架构中。这意味着流量需要在特定的单元内部循环,而不是跨单元流动,以减少无效的横向流量。为了实现这一目标,网关需要具有状态感知能力,能够识别客户信息并将流量路由到正确的单元。此外,单元和上层计算资源之间的逻辑绑定也是关键。
  • 中间件单元化:在单元化架构中,中间件(如MQ、Redis等)的链路也需要考虑单元化。特别是在跨单元的场景下,如客户之间的转账,会涉及到分布式事务的问题。这种分布式事务的调度和管理在异地多活架构下会被放大,成为实现的难点。
  • 数据切分与聚合查询:数据被切分到多个库后,聚合查询变得困难。黄老师提到了从前在一个库下可以轻松进行多表的聚合查询,但现在需要访问多个库进行查询。这需要对现有的查询策略和技术进行重新的设计和优化。
  • 业务连续性保障:单元之间的互备和业务连续性保障是必要的。
  • 分布式运维:针对大型核心系统的分布式运维需要特别关注。

戴骏贤 (网易游戏资深数据库系统工程师 )

网易游戏对于RPO的要求相对苛刻(数据要求无损)。但更多是以成本最小化为考量实现双活高可用架构。因此目前仅采用同城双副本。

李运华 互联网大厂 资深技术专家

企业是否需要上云取决于成本和技术实力两个主要因素。

  1. 成本考量
  • 企业规模:一般来说,如果企业的服务器规模在一千台以下,上云通常是成本效益较高的选择。对于规模在一千到五千台之间的企业,上云可能并不一定省成本,而取决于其在云平台上的使用程度。然而,如果服务器规模超过五千台,可能会发现下云(即从云平台迁移到自建环境)会更经济合算,尤其是对于大型企业。这是因为大型企业可能会拥有足够的资源和资金来自建云或自建机房,并且会节省大量成本。
  • 全面成本考量:除了物理服务器成本之外,还需要考虑人员成本、维护成本等方面的费用。这些费用在决定是否上云时也至关重要。
  1. 技术实力
  • 企业规模与技术实力:大型企业通常拥有更多的人力资源和技术实力,因此更有能力独立管理和运维自己的服务器环境。相比之下,中小型企业可能缺乏专业技能和资源,难以应对复杂的技术挑战,因此更倾向于使用云服务提供商提供的解决方案。
  • 云产品的功能和强大程度:云服务提供商提供了丰富的云产品和服务,包括分布式一致性数据库等高级功能。然而,自行实现这些功能需要大量的时间、资源和技术实力。对于中小型企业而言,使用云平台提供的功能可能更为经济实惠和可行。(ocean base一个几百上千人的团队,从2013年开始,搞了12年)

同城双活和异地多活有哪些方案?

  1. 同城双活方案

    由于同城机房之间的网络延迟可以做到非常低,通常可以在几毫秒以内,因此同城双核在逻辑上可以看作是一个统一的机房。可以直接按照集群的方式运作,成本和复杂度会低。

  2. 近邻的异地多活
    这种方案通常是指在相邻的两个城市之间进行异地多活部署。例如,广州与深圳、杭州与上海等相邻城市之间的部署。由于网络延迟相对较低,大约在十毫秒左右,因此可以接受。近邻的异地多活方案通常可以通过分布式一致性算法来实现投票和选举,确保系统的可用性。

  3. 远端的异地多活
    在距离较远的城市之间进行异地多活部署,如广州与北京之间的部署。网络延迟可能较高(30ms以上),本质上没有办法实现这种集群的运作。

在这里插入图片描述

马洪喜(深圳行云创新科技有限公司 CEO)

马老师分享了三个不同企业的案例:

  1. 区域性银行的高可用解决方案
  • 该银行实施了同城双活的云原生高可用解决方案,这是一个强需求,因为银行业务对高可用性有极高的要求。
  • 他们的方案是基于一个调度器实现的,使得业务在发生故障时可以切换到单机群模式。
  1. 某超大型电器公司的混合云方案
  • 该公司实施了混合云,将国内业务部署在私有云上,将海外业务部署在AWS上。
  • 这是出于业务需求的考虑,例如海外业务需要在AWS上就近访问。
  1. 某锂电制造企业的工业场景需求
  • 该企业有着复杂的IT/OT融合场景,需要在制造业中实现微服务和AI的应用。
  • 他们的需求包括在本地数据中心或厂区内的小型数据中心处理数据,而不是将数据从生产线传送回总部或云平台。
  • 制造业趋向于建立一个多级算力体系,包括本地数据中心、云平台和边缘计算,而不仅仅是简单的双活或多活部署。

另外在与公有云对接的过程中,确实会遇到一些挑战和坑:比如公有云平台通常会限制用户在容器服务中运行某些特定类型的应用程序或容器镜像。以及路由设置、网络安全限制等。此外,有些云服务商在网络层面可能会实施一些特殊的技术手段,如MAC地址劫持等,导致一些不必要的麻烦和延迟。

顺炽国 (某制造集团 云平台基础服务负责人 )

常见的一些互联网应用很多只关注C端的,也就是只需要考虑北线(用户入口)入口流量一个分流跟分发或者流量管控。但是在物联网行业还需要考虑南线(设备入网)的流量管理,这两部分只有配网绑定的阶段需要打通南北两线的数据。

  1. 成本压力:集团的服务器规模正好在一千到五千个主机之间,导致了巨大的成本和运维压力。解决这个问题正在考虑下云。

  2. 业务复杂性:智能家电行业有独特的业务特点,需要同时关注北线(用户入口)和南线(设备入网)的流量管理,确保设备与用户之间的关联和通信畅通。

  3. 多云节点部署:需要根据业务需求,在各个区域部署多云节点,以提供更快的服务响应时间,降低用户体验的糟糕程度。

  4. 单元化思路:采用单元化的思路,尽量减少数据同步带来的问题,通过北线和南线的网关,将业务闭环在单元内,以降低对专线的重度依赖,提高业务稳定性。

张观石( 泰健科技 CTO)

在这里插入图片描述

张老师讲了个故事: 初始阶段,自建CDN成本高,后接入云CDN,但谈判降价困难。后期通过多云CDN架构,平衡质量和成本,使各厂商主动降价争取份额。

他从一个比较新颖的角度谈论了多云架构的优势:根据提供商的服务质量和价格,分配负载份额

另外他谈到了多云架构的优势:

  • 多云并非只为实现多活,而是为了在架构中灵活利用不同云服务的特点和价格优势(使用特定GPU型号的业务只能在相应云上部署,提高架构灵活性)
  • 利用不同云的产品优势,如低价存储,以降低整体成本。

通过多云策略,企业可以增加与云服务商的谈判地位,从而更好地争取资源、降低成本。同时,多云策略也提供了更灵活的资源供给方式,可以根据业务需求在不同云之间调度资源,确保服务的稳定性和容灾能力。

另外由于多云架构的复杂性,监控告警、排障流程等运维问题复杂度增加,需要考虑跨云沟通和统一运维平台的建设。这就引入了另一个问题:如何建立多云融合统一管理(CMDB)

CMDB的核心功能是收集和存储关于云环境中各种资源的详细信息,包括虚拟机、存储、网络设备等。管理员可以实现统一的交互界面,方便地查询、分析和修改资源的配置状态

根据企业对于多云管理的管理要求,可以采用以下几种方式:

  • 十几二十几台服务器,没有必要上CMDB系统,通过管理员登录各云的控制台进行管理

  • 资源管理型:创建虚拟机,配置网络等,基于开源的管理工具(比如rental?)二次开发较为容易,各家云厂商的API接口并不复杂。

  • 应用管理型,属于高级别应用,可以与应用交付系统结合,从应用的视角出发,自动选择合适的云资源来部署和交付应用,基本要采购商业产品。定制化开发。或寻求混合云厂商,有现有的解决方案可选。

–完结–

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1528323.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Altair® Activate® 多学科系统仿真

Altair Activate 多学科系统仿真 Altair Activate 是一个开放且灵活的集成平台,用于系统仿真综合系统。Altair Activate 基于针对信号块、面向对象的物理组件、电气和电子系统的混合框图建模环境,支持在整个开发周期中进行多物理场分析。 全面支持 数学…

目标检测——PP-YOLOE算法解读

PP-YOLO系列,均是基于百度自研PaddlePaddle深度学习框架发布的算法,2020年基于YOLOv3改进发布PP-YOLO,2021年发布PP-YOLOv2和移动端检测算法PP-PicoDet,2022年发布PP-YOLOE和PP-YOLOE-R。由于均是一个系列,所以放一起解…

针对元宇宙概念的兴起,普通人能不能参与?

元宇宙是一种虚拟现实空间,由数字技术构建,让人们可以在其中进行交互和沟通。通俗点说,元宇宙就像是一个类似于《黑镜》剧集中的“星空游乐园”的虚拟世界,我们可以在其中自由探索、玩乐、交互、创造。 在元宇宙中,我们…

【虚拟化简介】

文章目录 虚拟化简介什么是虚拟化?Hypervisor概念Hypervisor模型 虚拟化技术的分类软件虚拟化和硬件虚拟化软件虚拟化技术硬件虚拟化技术 参考资料 虚拟化简介 什么是虚拟化? CPU处理能力的飞速提升。 它的另一面也就意味着, 个人单独拥有一…

没有在中国境内注册,但是在境内开展业务,或向境内提供产品或服务的,是否属于境内运营?

没有在中国境内注册,但是在境内开展业务,或向境内提供产品或服务的,是否属于境内运营? 判断是否属于“境内运营”,不以是否在境内注册为判断依据,如果没有在我国境内注册的网络运营者,但在我国境…

基于HSV色度空间的图像深度信息提取算法FPGA实现,包含testbench和MATLAB辅助验证程序

目录 1.算法运行效果图预览 ​编辑2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 将FPGA结果导入到matlab显示结果如下: matlab的对比测试结果如下: 2.算法运行软件版本 vivado2019.2 matlab2022a…

FMEA可以应用在什么行业——FMEA软件

免费试用FMEA软件-免费版-SunFMEA FMEA,即故障模式与影响分析(Failure Modes and Effects Analysis),是一种预防性的质量工具,用于识别产品或过程中潜在的故障模式,评估其对系统的影响,并优先排…

Python对象作为参数传递到函数/方法的机制

以代码为例 class Person:name Noneage None# 分析对象作为参数传递到函数/方法的机制 def f1(person):print(f"2. person的地址:{id(person)}")person.name "james"person.age 1p1 Person()p1.name "jordan" p1.age 21 pri…

24计算机考研调剂 | 【官方】桂林理工大学(11自命题、22自命题)

桂林理工大学信息工程与科学学院招收调剂 考研调剂补充信息 一、招收专业 计算机科学与技术(学硕)、软件工程(学硕)、计算机技术(专硕)、人工智能(专硕)、软件工程(专…

使用 Python 编写网络爬虫:从入门到实战

网络爬虫是一种自动化获取网页信息的程序,通常用于数据采集、信息监控等领域。Python 是一种广泛应用于网络爬虫开发的编程语言,具有丰富的库和框架来简化爬虫的编写和执行过程。本文将介绍如何使用 Python 编写网络爬虫,包括基本原理、常用库…

C语言之我对结构体与联合体的认识

c语言中的小小白-CSDN博客c语言中的小小白关注算法,c,c语言,贪心算法,链表,mysql,动态规划,后端,线性回归,数据结构,排序算法领域.https://blog.csdn.net/bhbcdxb123?spm1001.2014.3001.5343 给大家分享一句我很喜欢我话: 知不足而奋进,望远山而前行&am…

APP广告变现初期,广告测试怎么做?

广告变现能给应用带来收入增长的一条非常有效的途径,同时可以帮助变现困难的产品类型最快实现盈利,例如付费下载、工具类产品等。 广告测试是APP广告变现中必不可少的一步,广告测试可以用来验证增减广告位会不会引起用户反感、对接广告平台能…

如何解决MySQL死锁(看懂MySQL锁日志)

有时候系统在生产运行着,会突然爆出 [40001][1213] Deadlock found when trying to get lock; try restarting transaction 这个时候每个人都会很紧张,因为死锁会影响DB性能,严重时甚至拖垮整个系统。在实际的环境中,很多服务会共…

JMeter压测SpringBoot项目

压力测试架构图如下: 配置JMeter 在JMeter的bin目录,双击jmeter.bat 新建一个测试计划,并右键添加线程组: 进行配置 一共会发生4万次请求。 ctrl + s保存; 添加http请求: 配置http请求: 配置断言,来判断当前请求是否成功: 正常响应如下:

EtherCAT开源主站 IGH 介绍及主站伺服控制过程

目录 前言 IGH EtherCAT主站介绍 主要特点和功能 使用场景 SOEM 主站介绍 SOEM 的特点和功能 SOEM 的使用场景 IGH 主站 和 SOEM对比 1. 功能和复杂性 2. 资源消耗和移植性 3. 使用场景 EtherCAT 通信原理 EtherCAT主站控制伺服过程 位置规划模式 原点复归模式…

金融知识分享系列之:ATR指标

金融知识分享系列之:ATR指标 一、ATR指标二、指标原理三、海龟交易法应用1.计算开仓数量2.制定止损/加仓规则 四、ATR指标总结 一、ATR指标 利用ATR指标计算仓位,设置止损的规则名称:平均真实波动幅度参数:(默认14)组成&#xff…

CMeet系列技术生态沙龙---《探索未来:生成式AI赋能千行百业·杭州》

当前数字化浪潮下,生成式AI技术正成为推动产业升级、提升竞争力的关键力量。为深入探索未来AI技术的赋能作用,促进技术生态的繁荣与发展,CSDN-CMeet系列沙龙活动旨在搭建一个交流与探索的平台,通过分享前沿研究成果和应用案例&…

OpenCV实现OCR图片文本检测

一、操作步骤 把左边这样的图片,通过仿射变换转换成右边那样的图片。 然后再通过pytesseract读取图片内容得到图片中的文本就好了。 需要使用到: 仿射变换ocr识别 注:本文使用现成图片,轮廓检测较为明显,若是自己拍…

Css 样式记录

实现两栏布局如图所示样式&#xff1a; 方法1&#xff1a; <div style"display: flex; justify-content: space-between; width:100%;"> <div>1</div> <div>2</div> </div> 方法2&#xff1a; <div style"display: fle…

pytest ui自动化

chromedriver.exe 要对应已安装的chrome版本号