软考 系统架构设计师系列知识点之大数据设计理论与实践(10)

news2025/1/12 8:02:30

接前一篇文章:软考 系统架构设计师系列知识点之大数据设计理论与实践(9)

所属章节:

第19章. 大数据架构设计理论与实践

          第3节 Lambda架构

19.3.5 Lambda架构优缺点

1. 优点

(1)容错性好

Lambda架构为大数据系统提供了更友好的容错能力。一旦发生错误,可以修复算法或从头开始重新计算视图。

(2)查询灵活度高

批处理层允许针对任何数据进行临时查询。

(3)易伸缩

所有的批处理层、加速层和服务层都很容易扩展。因为它们都是完全分布式的系统,可以通过增加新机器来轻松地扩大规模。

(4)易扩展

添加视图是容易的,只是给主数据集添加几个新的函数。

总体概括:

既有实时又有离线,对于数据分析场景涵盖得非常到位。

2. 缺点

(1)全场景覆盖带来的编码开销。

(2)针对具体场景重新离线训练一遍益处不大。

(3)重新部署和迁移成本很高。

总体概括:

离线层和实时流虽然面临的场景不同,但是其内部的处理逻辑却是相同的,因此有大量冗余和重复的模块存在。

以下引用大数据架构之– Lambda架构「建议收藏」-腾讯云开发者社区-腾讯云

给出更为详细的Lambda架构优缺点:

1. 优点

  • 职责边界清晰

Speed Layer处理数据为最近的增量数据流,Batch Layer处理的是全体数据集。Speed Layer为了效率,接收到新数据时不断更新Realtime View,而Batch Layer根据全体离线数据集直接得到Batch View。Speed Layer是一种增量计算,而非重新计算(recomputation)。

  • 容错性

Speed Layer中处理的数据也不断写入Batch Layer,当Batch Layer中重新计算的数据集包含Speed Layer处理的数据集后,当前的Realtime View就可以丢弃,这意味着Speed Layer处理中引入的错误,在Batch Layer重新计算时都可以得到修正。这点也可以看成是CAP理论中的最终一致性(Eventual Consistency)的体现。

  • 复杂性隔离

Batch Layer处理的是离线数据,可以很好地掌控。Speed Layer采用增量算法处理实时数据,复杂性比Batch Layer要高很多。通过分开Batch Layer和Speed Layer,把复杂性隔离到Speed Layer,可以很好的提高整个系统的鲁棒性和可靠性。

2. 缺点

  • 实时与批量计算结果不一致引起的数据口径问题

因为批量和实时计算走的是两个计算框架和计算程序,算出的结果往往不同,经常看到一个数字当天看是一个数据,第二天看昨天的数据反而发生了变化。

  • 批量计算在计算窗口内无法完成

在IOT时代,数据量级越来越大,经常发现夜间只有4、5个小时的时间窗口,已经无法完成白天20多个小时累计的数据,保证早上上班前准时出数据已成为每个大数据团队头疼的问题。

  • 开发和维护的复杂性问题

Lambda 架构需要在两个不同的 API(application programming interface,应用程序编程接口)中对同样的业务逻辑进行两次编程:一次为批量计算的ETL系统,一次为流式计算的Streaming系统。针对同一个业务问题产生了两个代码库,各有不同的漏洞。这种系统实际上非常难维护

  • 服务器存储大

数据仓库的典型设计,会产生大量的中间结果表,造成数据急速膨胀,加大服务器存储压力。

至此,“19.3.5 Lambda架构优缺点”的全部内容就讲解完了。更多内容请看下回。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1604248.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

你信不信,五分钟快速学习Nginx

Nginx是什么? Nginx 是一个高性能的HTTP和反向代理服务器。它是由俄罗斯程序员Igor Sysoev开发的,最初是为了解决俄罗斯大型的门户网站的高流量问题。 说到反向代理,那么有没有正向代理呢? 正向代理:客户端非常明确要…

二叉树的中序遍历 - LeetCode 热题 36

大家好!我是曾续缘😃 今天是《LeetCode 热题 100》系列 发车第 36 天 二叉树第 1 题 ❤️点赞 👍 收藏 ⭐再看,养成习惯 二叉树的中序遍历 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输…

考研数学|《1800》《660》《880》如何选择和搭配?(附资料分享)

直接说结论:基础不好先做1800、强化之前660,强化可选880/1000题。 首先,传统习题册存在的一个问题是题量较大,但难度波动较大。《汤家凤1800》和《张宇1000》题量庞大,但有些题目难度不够平衡,有些过于简单…

图神经网络推荐系统

链接(何向南教授):https://hexiangnan.github.io/papers/wsdm22-tutorial-proposal.pdf 摘要: 近年来,图神经网络(graph neural network, GNN)以其强大的结构化数据处理能力和对高阶信息的挖掘能力,成为许…

全格式播放器哪个好?分享好用的播放器

全格式播放器哪个好?在数字化时代,全格式播放器的重要性日益凸显。它们凭借强大的兼容性和高效的解码能力,让我们能够轻松应对各种音视频格式的播放需求。无论是观看高清电影、欣赏高品质音乐,还是处理工作中的多媒体文件&#xf…

idea中停止运行Vue

在里面敲入Ctrlc 输入y确定即可。

【Proteus】51单片机对直流电机的控制

直流电机:输出或输入为直流电能的旋转电机。能实现直流电能和机械能互相转换的电机。把它作电动机运行时是直流电动机,电能转换为机械能;作发电机运行时是直流发电机,机 械能转换为电能。 直流电机的控制: 1、方向控制…

中国隧道空间分布

中国隧道空间分布数据,包含2020年全国大部分地区16000余条隧道分布点位数据,数据包括市名称、区县名称、隧道名称和隧道经纬度。数据包含shp和EXCEl两种格式,部分隧道空间位置有偏移。 欢迎大家关注、收藏和留言,如果您想要什么数…

文化=知识+素质!电动车限制多!——早读(逆天打工人爬取热门微信文章解读)

你是一个有文化的人! 引言Python 代码第一篇 洞见 一个人有没有文化,就看这五点第二篇 人民日报 来啦 新闻早班车要闻社会政策 结尾 知耻近乎勇 文化教会我们自省 以羞耻心为镜 照见自我 不断向善向上。 引言 绝了 昨天晚上早早上床 10点左右就睡眠模…

【刷题笔记】第八天

文章目录 [928. 尽量减少恶意软件的传播 II](https://leetcode.cn/problems/minimize-malware-spread-ii/)方法1:dfs方法2:并查集 [GCD and LCM](https://vjudge.net.cn/problem/Aizu-0005)[Missing Bigram](https://vjudge.net.cn/problem/CodeForces-1…

三步教你怎么把icloud照片恢复至iphone!

“我手机里面照片被优化后,然后不小心把所有被优化的模糊照片从手机中删除了,但是iCloud还有,我应该怎样把iCloud的照片重新放回手机?谢谢。” 在使用iPhone时,iCloud照片库是一个非常方便的功能,它允许你在…

【SVG】从零开始绘制条形图

效果图 定义背景色和坐标轴颜色 :root {--cord-color: #2be7ca; }body {background-color: #000;}画坐标轴 画X轴 <!-- 坐标轴 --> <g id"cordinate"><!-- x轴 --><line x1"50" y1"600" x2"900" y2"600&q…

博弈论和sg函数

Nim游戏 题目链接&#xff1a;Nim游戏 先说结论&#xff1a;假设n堆石子&#xff0c;石子数分别为a1,a2,a3.....&#xff0c;则当a1^a2^a3^...^an0时先手必败&#xff0c;否则先手必胜。 因为所表示的二进制位必定是成对出现的&#xff0c;根据性质 1 ^ 1 0 &#xff0c;0 …

MyBatis 源码分析 - 缓存原理

MyBatis 源码分析 - 缓存原理 1.简介 在 Web 应用中&#xff0c;缓存是必不可少的组件。通常我们都会用 Redis 或 memcached 等缓存中间件&#xff0c;拦截大量奔向数据库的请求&#xff0c;减轻数据库压力。作为一个重要的组件&#xff0c;MyBatis 自然也在内部提供了相应的…

量子密钥分发系统的设计与实现(二):光路子系统初步讨论

通过上一篇文章&#xff0c;我们对量子密钥分发系统的基本架构、硬件结构以及密钥分发流程进行了初步的总体介绍&#xff0c;从本文开始&#xff0c;我们就基于系统顶层的架构设计&#xff0c;开始从模块到器件&#xff0c;从硬件到软件开始详细讨论QKD系统的设计与实现。本文主…

【转】这些年背过的面试题——网络和操作系统基础篇

转自&#xff1a;阿里巴巴技术质量 阿里云开发者 阿里妹导读 本文是技术人面试系列网络和操作系统基础篇&#xff0c;面试中关于网络和操作系统基础都需要了解哪些内容&#xff1f;一文带你详细了解&#xff0c;欢迎收藏&#xff01; 网络基础 TCP三次握手 三次握手过程&…

陇剑杯 ios 流量分析 CTF writeup

陇剑杯 ios 流量分析 链接&#xff1a;https://pan.baidu.com/s/1KSSXOVNPC5hu_Mf60uKM2A?pwdhaek 提取码&#xff1a;haek目录结构 LearnCTF ├───LogAnalize │ ├───linux简单日志分析 │ │ linux-log_2.zip │ │ │ ├───misc日志分析 │ │…

华为云服务镜像手动更换

操作步骤&#xff1a; 1、进入华为云首页点击云容器引擎CCE&#xff1b; 2、选择你所要更换镜像的环境【这里以dev环境演示】&#xff1b; 3、点击dev环境后选择顶部的命名空间&#xff0c;点击【工作负载】中右侧栏的【升级】按钮&#xff1b; 4、点【更换镜像】选择你在test…

压缩感知的概述梳理(1)

参考文献 An efficient visually meaningful image compression and encryption scheme based on compressive sensing and dynamic LSB embedding 基本内容 基本关系梳理 压缩感知核心元素 信号 x 长度&#xff1a;N动态稀疏或可用变换表示&#xff1a;x &#x1d74d;s …

一篇文章带你快速认识区块链(必看)

引言 区块链技术&#xff0c;这一划时代的分布式账本技术&#xff0c;正在全球范围内掀起一场深度的信任与协作模式变革。区块链如同一部由多方共同维护的公开而又安全的大账本&#xff0c;每一笔交易都被打包成一个区块&#xff0c;通过高级密码学手段确保传输和访问安全&…