【2022 深圳 ArchSummit 】大数据架构稳定性保障实践

news2025/1/12 18:03:38

在这里插入图片描述

文章目录

  • 一、前言
  • 二、现状
  • 三、大数据架构的历史变迁
    • (一)洪荒期&MR
    • (二)远古期&MPP
    • (四)近现代&Flink/Spark
    • (五)现如今&实时数据湖架构
  • 四、架构稳定的关键因素
    • (一)扩展性
    • (二)可用性&容灾双活
    • (三)自适性&自动化评估
    • (四)易用性&批流一体化
    • (五)先进性&数据库仓库实时化
  • 五、未来大数据架构畅想
    • (一)产业趋势
    • (二)场景趋势
    • (三)架构趋势
    • (四)关键能力

一、前言

在这里插入图片描述

2022年深圳的 ArchSummit 的主题是“数字化转型下的架构升级”,主要聚焦:云原生、研效提升、IoT 系统架构、微服务架构、低代码系统、出海业务架构、人工智能与机器学习、企业数字化转型、前端 Serverless 研发体系、金融领域数字化转型、大数据实践与应用等领域。

首先还是要感谢 ArchSummit,有这么一个非常好的机会,因为其实在疫情期间,其实有很难得这种机会,让大家线下来分享这种,就是纯技术的这种交流啊,其实非常非常难得,因为上半年本身就有很多因为疫情,取消的很多这种技术大会,所以这次的话呢,我相信 ArchSummit 是做了很多的努力啊,所以非常感谢。

看一下历史上这个大数据架构发展是怎么样的,然后我们会去看,也就是说对于我们架构师来说,或者对于我们的开发骨干来说,对于公司、对于集团来说,它的价值到底是什么?因为我们做技术的,其实不能只是盯着我的技术,可能还要看,就是说引入一个新的技术,引入一个新的架构,对公司的不管是商业增长,还是说对公司的本身这个“降本增效”到底有没有帮助,所以呢,我会从这些角度去跟大家分享一下一些经验,然后就是希望大家都能够在各自的领域能够得到公司对你价值的认可。

二、现状

大数据发展至今,已经有近10年时间,在这10年的时间里面,大数据架构发生了很多变化。而这些变化,不断冲击当前企业大数据架构,给业务部分和信息部门都带来很大的挑战。

其实今天顺丰我看了一些最新的数据,平均每天大概是有200TB,而且都是纯结构化的数据。我们还有海量视频数据,我没有把它放出来。我们目前的整个存储规模已经到了200PB,这个是我们单集群最大规模目前到了4000多个节点。

在这里插入图片描述

所以我觉得这个体量应该还是比较足够的,然后我们还是会从两方面去跟大家去分享,第一方面就是整个架构。整个架构的变迁啊,它大致是怎么样的。第二个方面就是从架构稳定性这方面,不管是扩展性也好,可用性也好,自适性、易用性、先进性也好,这一块到底有哪一些关键的点是值得大家去关注的?

然后我们也会来分享,就是说看到的目前这个大数据架构是怎么样的?然后我们未来的这个大数据架构应该是怎么样的?我们可以发挥我们的想象力去思考未来的大数据架构会怎么样?因为今天如果说我们不为未来的这个大数据这个正确的架构做准备的话,可能我们在接下来的这个转化的话,我们会硬着陆。所以我们希望的是我们这个架构是软着陆的,所以也会跟大家去畅想一下,我们未来的大数架构是怎么样的?

三、大数据架构的历史变迁

(一)洪荒期&MR

第一部分我们先分享一下大数据的整个架构的一个历史变迁。其实这个大家应该都是比较熟悉,这个就简单说一下,记得当时在2011年、2012年的时候,十几年前的时候,我们以前用的是最早用的是 Oracle。那么Oracle 其实对于日增长 100亿,每天大概有100T左右这种数据的时候,要做一个调度是非常非常困难的。我们在凌晨做的存储过程要到中午才能够出这个数据,即便是我们当时已经用了像 Oracle 一体机,用这种小型机去做这个事情,但是我们还是没办法解决这种规模下调度的一个准时性的问题,所以我们当时引入了这引入的 MR去解决这个问题,那么讲这个事情的关键点呢,就是说在于这个事情其实。可能这些架构对于大家来看的话,都是老的架构啊,待会会讲新的架构,那么这个老的架构的话,当时确实是解决了,呃,我们业务部门要在比如说每天的90点去看到这些报表的这么一个诉求,那这个诉求的话呢,也是,呃,解决了公司的这种大规模分析的问题,那么有一部分的员工,呃,因为解决了这些关键的这些问题。

MR的原理:

Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初由 Google 工程师设计并实现的,Google 已经把他完整的 MapReduce 论文公开发布了。
其中对它的定义是,Map/Reduce 是一个编程模型,是一个用于处理和生成大规模数据集的相关的实现。用户定义一个 map 函数来处理一个 key/value 对生成一批中间的 key/value 对,再定义一个reduce 函数将所有这些中间的有着相同 key 的 values 合并起来。很多现实世界中的任务都可以用这个模型表达。

在这里插入图片描述

  • 价值:Oracle、MySQL、DB2等传统数据库,无法处理海量数据,日增长 100 亿级,每天 100 PB左右的离线专题数据分析。引入Hadoop MR架构解决早期2011、2012年离线跑批的问题。

  • 变化:Oracle存储过程全部需要改为MR/HSQL,重新编写后端调度。

  • 收益:公司解决了大规模数据分析问题,一部分员工因为解决了关键业务痛点,脱颖而出,成立了最原始的大数据团队。这也是架构变化的一些机会。

(二)远古期&MPP

MPP原理:

MPP即大规模并行处理(Massively Parallel Processor )。 每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。
非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势架构相对比较简单,中下规模下比较有优势,确实也解决hardon查询响应的问题。架构迭代的一些机会。

在这里插入图片描述

  • 价值:架构简单, 端到端解决湖和仓的问题,在中小规模场景下,比较有优势,解决了原来hadoop架构响应速度和并发度问题,并且开发人员只需掌握sql即可

  • 变化:

    • 针对中小规模场景下,可以直接替换hadoop
    • 在大规模场景下,需要作为hadoop的后端输出承载,面向业务侧提供高价值数据分析
  • 收益:公司使用更加简单架构,更简单的开发模式,应对不断变化的需求,一部分员工因为对mpp熟悉,独立一个团队,专注此项工作

(三)近古期&Storm

Storm原理:
Storm采用Master/Slave体系结构,分布式计算由Nimbus和Supervisor两类服务进程实现,Nimbus进程运行在集群的主节点,负责任务的指派和分发,Supervisor运行在集群的从节点,负责执行任务的具体部分。

  • Nimbus: Storm集群的Master节点,负责资源分配和任务调度,负责分发用户代码,指派给具体的Supervisor节点上的Worker节点,去运行Topology对应组件(Spout/Bolt)的Task。
  • Supervisor: Storm集群的从节点,负责接受Nimbus分配的任务,启动和停止属于自己管理的worker进程。通过Storm的配置文件中的supervisor.slots.ports配置项,可以指定在一个Supervisor上最大允许多少个Slot,每个Slot通过端口号来唯一标识,一个端口号对应一个Worker进程(如果该Worker进程被启动)

在这里插入图片描述

  • 价值:storm没出来之前,大家主要是写后端的预警程序,实现实时预警,需求响应时间长,且大规模场景下的处理非常复杂,storm之后,有一个相对好的架构,支撑实时流处理业务,能够更快速响应业务,处理海量实时数据
  • 变化:需要把原先java、c、c++等编写的流处理程序,切换到storm,有一定的迁移工作,但是架构更稳定
  • 收益:公司有更弹性、更简单的架构处理实时流数据,能更快速应对业务需求,同时,一部分员工因为对这部分比较熟悉,成立实时数据团队不需要关注底层的通讯细节,专门的实时团队。

(四)近现代&Flink/Spark

Flink原理:

Flink 是一个流处理框架,支持流处理和批处理,特点是流处理可容错、可扩展、高吞吐、低延迟。批处理是只有处理一批完成后,才会经过网络传输到下一个节点,流处理的优点是低延迟,批处理的优点是高吞吐
相比storm吞吐性能提供3到4倍左右。

在这里插入图片描述

  • 价值:Flink比Storm的吞吐性能更强,具备一定的批处理能力,技术生态栈支持更广,架构更统一。

  • 变化:需要把基于storm编写的实时流处理程序,迁移至flink,改造量还是比较多在实时流和AI方面确实有一些生态的支撑。

  • 收益:公司具备吞吐性能更强的流处理架构,基于flink能够做更多场景,如实时预测、实时TF;由原来实时流处理团队负责这部分架构

Spark原理:

Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目
Spark基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大

在这里插入图片描述

  • 价值:Spark相比Hadoop mr架构,计算过程不需要反复落盘,减少大量IO操作,大大提高计算速度。且技术生态栈较广,很好支持ML和流处理相关板块。对AI兼容性更好。
  • 变化:从HSQL迁移至Spark SQL,最开始时,还是需要不少工作量;
  • 收益:公司离线数据湖计算能力大致提高了2~3倍;成立一个新的算法团队,承担Spark计算框架业务

(五)现如今&实时数据湖架构

实时数据湖原理:

Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案,最初是用于解决数仓中 Lambda 架构中数据一致性的问题,将增量处理模型替代流式处理模型,并提供了 Upsert 和Incremental Pull 两个非常重要的 feature
• Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录,同时还提供写操作的事务保证。查询会处理最后一个提交的快照,并基于此输出结果。
• 变更流:Hudi对获取数据变更提供了一流的支持:可以从给定的时间点获取给定表中updated/inserted/deleted的所有记录的增量流现在比较前沿的架构。大家都在往这个架构发展。

在这里插入图片描述

  • 价值:解决了lambda架构指标一致性和资源重复投入问题,同时提高了指标分析时效性,提升了管理和运营的决策效率
  • 变化:从hive/spark切换到hudi体系,会在数据接入侧需要进行调整,从overwrite切换为merge into,开发侧需要修改增量获取方式,代价不大,局部改动
  • 收益:业务指标时效,从T+1天到T+0,大大提升了指标时效,面向业务侧具备显性价值。同时,一部分员工因为比较熟悉,单独成立实时数据湖团队

在金融领域、跨国集团都在这块发力。

混合lambda解决现在的一些问题

实时湖架构在解决lambda的一些痛点

上海某公司每年10多亿的投入,主要在实时指标。

解决指标不统一,大规模降本。

四、架构稳定的关键因素

(一)扩展性

原来的扩展性:

  • 纵向扩容:小机升到大型机
  • 横向扩容:节点增加,比如100个节点增加到200个节点
  • 存算分离:按计算和存储维度分别进行扩容。
    在这里插入图片描述

顺丰财报增加20,资源消耗成本同比下降10~20%,这是一个大的趋势。

做一个调度资源引擎。在高峰时期可以用到容灾的资源。

大数据混合云发展的趋势。

弹性伸缩,跨机房

非常关键的一个点。

(二)可用性&容灾双活

怎么保证kafka偏移量不一致。通过修改开源代码来解决一些问题。

在这里插入图片描述

客户端在双活和稳定性这块是非常关键。
在这里插入图片描述

(三)自适性&自动化评估

在这里插入图片描述

(四)易用性&批流一体化

在这里插入图片描述

(五)先进性&数据库仓库实时化

在这里插入图片描述

五、未来大数据架构畅想

(一)产业趋势

传统大数据厂商

  • 核心打法:平台(私有化为主)+数据治理+定制化开发方式
  • 发展情况:基本没有太多创新,更多是项目方式, 项目毛利平均在40%左右。行业上主要聚焦在金融、政府、零售、地产、制造,平均实施周期2~3月

公有云厂商

  • 核心打法:云基础设施+生态能力
  • 发展情况:都布局云原生数据湖能力,如datalake产品,相对早期,市场感知度不强。大数据EMR的布局相对成熟些,行业打法上,目前还是以生态为主,聚焦IaaS。平均实施周期1~2天

在这里插入图片描述

新兴独角兽、科技公司 Snowflake、Databrick:

  • 核心打法:聚焦单品
  • 发展情况:商业模式就是单品,不承接数据治理和定制化开发,做好标准化(SQL)支持、接口开放性和线上运营支持。聚焦金融、互联网、零售、央国企、制造等行业,平均实施周期1~2天。

第一代云上数仓(发展期)私有化数据湖:
主要代表产品:***等厂商,相比传统oracle、db2,解决大规模OLAP分析场景Hadoop技术路线,存算一体,以私有化为主,按节点license结算,除大数据节点外,提供数据治理和定制化开发服务

第二代云上数仓(成熟期)云上数据湖:
主要代表产品:AWS EMR、Alibaba EMR、Cloudera一定程度上增加弹性能力,解放IT维护成本,Hadoop技术路线,存算一体,依托公有云IaaS资源,以EMR形式对外提供服务降低集群扩缩容和运维自动化成本

第三代云上数仓(幻灭期)云原生数据湖:
主要代表产品如:***Datalake通过存算分离、弹性伸缩等技术,实现动态伸缩和精准计费计算存储分离、精细化资源管理,具备DLF能力(元数据迁移、对象存储元数据发现、元数据管理),通过弹性伸缩,降低计算成本,同时提供DLF能力,帮助客户快速建仓

第四代云上数仓(萌芽期)云原生实时数据湖:
主要代表产品:snowflake、databricks等,通过存算分离、实时数仓、多云融合等核心技术,实现弹性伸缩和多云统一架构多云适配,AWS、Azure、GCP、alibaba cloud、tencent cloud等
支持实时数仓统一架构,实现批流合一和数仓指标实时化兼顾私有云的数据安全需求和公有云的弹性资源需求

(二)场景趋势

“实时数仓,批流合一”场景

  • 痛点:面向金融、快消零售和物流行业,以前大部分指标是T+1天,少部分T+0,客户需求大部分指标1分钟内呈现,使用离线+实时lambda架构,不仅耗费大量资源,还会出现指标不一致情况,如某垂直电商
  • 说明:目前主流实时数仓技术hudi,虽已开源但是有不少生产问题,包括性能和稳定性问题,离实际生产应用还有一段距离顺丰在这个基础上,已经解决了社区尚未解决的问题,并在内部落地,数仓计算效率提高4倍,数仓时效到1分钟以内

“存算分离,弹性伸缩”场景

  • 痛点:金融、快消零售和物流行业具备季节性属性,业务高峰时后台计算资源需求成本增长,扩充IT资源耗资巨大且浪费
    容灾机房、公有云等资源池无法充分利用,这两部分的闲置计算资源较多

  • 说明: 目前国内主流公有云云目前只聚焦在自家单朵云的弹性伸缩能力上发展,我们从客户角度出发,目前已经具备混合云弹性伸缩能力

“多云管理,跨云计算”场景:

  • 痛点:跨国企业和大型央国企,业务常涉及多朵云,比如某化妆品企业两朵云、某零售头部企业三朵云、某奶制品巨头国内三朵云等,如何解决多云环境下,统一数据湖管理和合规跨云计算,是客户最关心的问题
  • 说明:目前Snowflake和Databricks支持多云适配,但不支持跨云统一管理。顺丰已经支持多云管理和部分跨云计算。

(三)架构趋势

云原生实时数据湖,打造存算分离、实时数仓、湖仓一体三大核心能力
客户价值:T+1–>T+0
天下武功、唯快不破,谁的数据结果出得快,谁赢的可能性就越大

在这里插入图片描述

(四)关键能力

极致弹性

• 通过存算分离技术,复用容灾和公有云资源,确保了数据安全的同时,复用公有云弹性资源
在这里插入图片描述

实时数据湖

• 基于Hudi升级后大幅提升的数仓更新时效,由原来的“天”级别提升到“秒”级别

在这里插入图片描述

统一SQL
跨云、跨大数据引擎全局统一元数据管理,支持基于代价估算的全局解析执行引擎
支持的跨云、跨大数据分析引擎的融合分析
支持无感优化用户大数据架构,支撑已有技术生态,实现向云上数仓的平滑过渡
在这里插入图片描述

安全托管
确保客户对数据密钥有自主管理权,确保通信从南北向到东西向都是安全的,确保数据落地的加密程度是足够
在这里插入图片描述

数据生态

默认为每一个公有云和私有云客户部署一个联邦学习节点,数据不共享,但是模型参数共享,构建隐私计算数据交易市场

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1645155.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

经典的设计模式和Python示例(一)

目录 一、工厂模式(Factory Pattern) 二、单例模式(Singleton Pattern) 三、观察者模式(Observer Pattern) 一、工厂模式(Factory Pattern) 工厂模式(Factory Pattern…

我独自升级崛起下载教程 我独自升级崛起一键下载

动作RPG游戏基于广大喜爱的动画和在线漫画《我独自升级崛起》在5月8日,这款新的游戏首次在全球亮相,意在给那些对游戏情有独钟的玩家带来更加丰富和多种多样的游戏体验。这个网络武侠题材的游戏设计非常具有创意,其主要故事围绕着“独孤求败”…

使用CUDA的PyTorch进行张量重整化的gpu加速

使用CUDA的PyTorch进行张量重整化的gpu加速 摘要IntroductionAlgorithm and TorchTrg discussionModels and Results GPU-Acceleration of Tensor Renormalization with PyTorch using CUDA 摘要 作者展示了基于张量重整化群(TRG)方法的数值计算可以通过…

鸿蒙OpenHarmony南向:【Hi3861开发板介绍】

Hi3861开发板介绍 简介 Hi3861开发板是一片大约2cm*5cm大小的开发板,是一款高度集成的2.4GHz WLAN SoC芯片,集成IEEE 802.11b/g/n基带和RF(Radio Frequency)电路。支持,并配套提供开放、易用的开发和调试运行环境。 …

Mysql8本地安装

官网: https://www.mysql.com/ yum安装下载:https://dev.mysql.com/downloads/repo/yum/ 二进制安装下载:https://downloads.mysql.com/archives/community/ 安装包下载 yum安装下载 打开网址(https://dev.mysql.com/downloads/r…

GEE错误——image.reduceRegion is not a function

简介 image.reduceRegion is not a function 这里的主要问题是我们进行地统计分析的时候,我们的作用对象必须是单景影像,而不是影像集合 错误"image.reduceRegion is not a function" 表示你正在尝试使用reduceRegion()函数来处理图像数据&…

VastGaussian:用于大型场景重建的巨大3D高斯函数

VastGaussian:用于大型场景重建的巨大3D高斯函数 摘要IntroductionRelated WorkPreliminariesMethod VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction. 摘要 现有基于NeRF的大型场景重建方法在视觉效果和渲染速度方面往往存在限制。虽然最近的3D高斯分裂在小…

宝兰德通过广东教育行业信创适配认证,拓展教育信创生态圈

近日,由宝兰德自主研发的多款中间件产品通过广东省教育行业信创适配中心的适配测试。测试表明,宝兰德四款中间件产品(分布式缓存软件V3.0、应用服务器软件V9.5、消息中间件软件 V2.1、Web服务器软件V3.1) 与当前主流国产操作系统统…

SpringBoot集成阿里云短信验证码服务

一:前言 最近在项目开发过程中,需要去写一个发送手机短信验证码的功能。在网上查了一下,有很多服务器可供选择,本文的话是基于阿里云服务的短信验证码功能实现。 关于注册和开通服务这些需要操作的,请各位小伙伴参考官…

Flutter开发Dart中的队列(Queue)

文章目录 Dart中的队列(Queue)基本操作示例队列的类型队列的应用总结 Dart中的队列(Queue) 队列是一种抽象的数据结构,遵循“先进先出”(FIFO)的原则。这意味着最早添加的元素将首先被移除。队…

品高虚拟化后端存储的发展演进

在品高虚拟化技术不断发展的过程中,虚拟化的后端存储一直是关注的焦点之一。 本文将从最初的文件存储和NFS开始,追溯到集中式存储SAN,然后选择了Ceph的RBD方式,并最终抵达选择支持vhost协议的后端存储的现状,我们将探…

银价下跌怎么办?现货白银买卖分析方法要掌握

现货白银买卖分析是进行现货白银投资的基础,尤其是近几个交易日现货白银价格出现了下跌后,更加凸显了买卖分析能力在市场中的重要性。不光要会买,还得懂得如何卖。下面我们来介绍2个现货白银买卖分析的方法。 基于RSI指标的现货白银买卖分析。…

python+barcode快速生成条形码(电商测试小工具)

背景 需要测试自助收银机,每次都要在线生成条码,而且生成次数还有限制 需求 满足自定义条形码,可以生成条形码图片 方案 python 3.8以上 barcode 1.0.4 python-barcode 0.15.1 代码 用于生成Code128条形码…

WINDOWS配置IIS

1.安装IIS 1.1.打开启用Windows功能 打开“控制面板” > “程序和功能” > “启用或关闭 Windows 功能”。 1.2.启用IIS功能 打开“控制面板” > “程序和功能” > “启用或关闭 Windows 功能”。 勾选“Internet Information Services”,然后点击“确定…

学习中遇到的问题

1.UFUNCTION() 不是所有函数都能加UFUNCTION()修饰,涉及UE反射机制。 2.初始化用{} 初始化列表 3.创建C文件时修改了路径 这时.cpp文件会报错,只需删掉前面多余路径即可 4.函数的移除 1.虚幻5.1 UUserWidget不再包含OnLevelRemovedFromWorld() 转而使用…

ai续写软件哪个好?盘点3款经典好用的!

随着科技的不断发展,AI续写软件逐渐成为了许多内容创作者、学生、研究人员等的得力助手。这类软件能够通过机器学习和自然语言处理技术,为用户提供高质量的文本续写服务。但市场上众多的AI续写软件让人眼花缭乱,那么,究竟哪款AI续…

Nftables漏洞原理分析(CVE-2022-32250)

前言 在nftales中存在着集合(sets),用于存储唯一值的集合。sets 提供了高效地检查一个元素是否存在于集合中的机制,它可以用于各种网络过滤和转发规则。 而CVE-2022-32250漏洞则是由于nftables在处理set时存在uaf的漏洞。 环境搭建 ubuntu20 QEMU-4…

透明加密软件选哪个好?选择时一定要注意以下三点

透明加密软件哪个好? 这是许多企事业单位在面临数据防泄漏问题时经常思考的问题。随着信息技术的发展,企业的数据安全变得越来越重要。透明加密技术作为一种有效的数据保护手段,被越来越多的企业所采用。然而,市场上的透明加密软…

项目实战 | 如何恰当的处理 Vue 路由权限

前言 哈喽,小伙伴你好,我是 嘟老板。最近接了一个成本千万级的前端项目运维工作,本着 知己知彼 的态度,我将整个前端的大致设计思路过了一遍。不看不知道,一看…吓一跳。光是 路由权限 这块儿的设计,都让我…

Q1保健品线上市场分析(一):护眼需求不减,叶黄素软糖卖爆!

如今网络时代的高速发展,用眼过度逐渐成为国人的常态,无论是儿童还是青少年、成年人、老年人,都可能面临眼部健康的问题。 在这样的大环境下,预防大于治疗的概念不断深入日常生活,进而推动了护眼产品市场的高速发展&a…