软考 系统架构设计师系列知识点之大数据设计理论与实践(6)

news2025/3/12 23:53:04

接前一篇文章:软考 系统架构设计师系列知识点之大数据设计理论与实践(5)

所属章节:

第19章. 大数据架构设计理论与实践

          第3节 Lambda架构

本文部分内容参考:

Lambda架构 - 简书

特此致谢!

19.3.3 Lambda架构介绍

在讲解这一节之前要特别说明一下,这一节是去年(2023年11月)即最近一次考试下午的试题。因此,其重要性是不言而喻的。

Lambda是实时处理框架Storm的作者Nathan Marz提出的用于同时处理离线和实时数据的架构理念。Lambda架构(Lambda Architecture)旨在满足一个稳定的大规模数据处理系统所需的容错性、低延迟、可扩展的特性。LA的可行性和必要性基于如下假设和原则:

  • 任何数据系统可定义为:query=functional(all data)。
  • 人为容错性(Human Fault-Tolerance):数据是易丢失的。
  • 数据不可变形(Data Immutability):数据是只读的,不再变化。
  • 重新计算(Recomputation):因为上面两个原则,运行函数重新计算结果是可能的。

LA基本框架如图所示:

再如图19-4所示,Lambda架构可分解为三层批处理层加速层服务层

  • 批处理层(Batch Layer)

存储数据集,Batch Layer在数据集上预先计算查询函数,并构建查询所对应的ViewBatch Layer可以很好地处理离线数据,但有很多场景数据是不断实时生成且需要实时查询处理的。对于这种情况,Speed Layer更为合适。

  • 加速层(Speed Layer)

Batch Layer处理的是全体数据集,而Speed Layer处理的是最近的增量数据流。Speed Layer为了效率,在接收到新的数据后会不断更新Real-time View,而Batch Layer是根据全体离线数据集直接得到Batch View。

  • 服务层(Serving Layer)

Serving Layer用于合并Batch View和Real-time View中的结果数据集,得到最终数据集

Lambda架构具有如下特点:

  • 所有数据分别分发到批处理层和实时处理层。
  • 批处理层有两个功能:管理主要的数据(该类数据的特点是只能增加,不能更新);为下一步计算出批处理视图做预计算。
  • 服务层计算出批处理视图中的数据做索引,以提供低延时,即席查询。
  • 实时处理层仅处理实时数据,并为服务层提供查询服务。
  • 任何查询都可以通过实时处理层和批处理层的查询结果合并得到。

更多内容请看下回。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1598752.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Ansible自动化运维】Ansible入门基础信息【安装配置、常用命令与模块】

介绍安装配置注意事项yum安装验证安装配置host配置主机清单配置主控端被控端 常用模块命令组成command模块shell模块copy模块script模块 日志信息最后 介绍 Ansible 是一个开源 IT 自动化引擎,可自动执行供应、配置管理、应用程序部署、编排和许多其他 IT 流程。它可…

深入浅出学习切片LOD——ArcGIS server模拟缓存切片(影像快显)

一、第一次实践 原理 免切片实现影像服务的模拟切片,主要原理是接收前端传过来的xyz(行列层级)以及切片方案,计算出该请求的切片的四至经纬度信息,通过mapserver的exportImage接口,传入每个模拟切片的四至经纬度信息得到图片返回…

小程序视频下载器

下载高手,让小程序视频下载变得前所未有的简单!专为非编程专业人士设计,该工具免去了繁琐的抓包软件学习过程,无需深入研究Fiddler或Charles的配置。它优化了视频、图片和音频资源的下载,提供直观的操作界面&#xff0…

大世界基尼斯见证辉煌,云仓酒庄首届酒类培训新高度诞生

近日,一场规模盛大的酒类培训盛会,在云仓酒庄的精心组织下圆满落幕。此次培训活动以其卓着的成果和盛大的规模,创下了大世界基尼斯纪录,为酒类培训领域树立了新的标杆。这一成就的取得,背后是云仓酒庄团队无数的心血与…

修改taro-ui-vue3的tabs组件源码增加数字标签

需求:taro-ui-vue3的tabs组件上增加数字标记 步骤一:node_modules文件夹下找到taro-ui-vue3/lib/tabs/index.js 把173行的这一段替换成下面这段,然后写上样式 default: () > item.number ? [h(View, {class: at-tabs__item_in}, {defau…

linux应急响应基础命令

一、cpu使用率-top top -c -o %CPU -c 显示进程的命令行参数 -o 按照CPU占用从大到小排序二、用户信息 1、查看系统所有用户信息 [rootcentos7 ~]# cat /etc/passwd root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nol…

有道词典网页版接口分析与爬虫研究

说明:仅供学习使用,请勿用于非法用途,若有侵权,请联系博主删除 作者:zhu6201976 一、目标站点 有道词典网页版:网易有道 二、目标接口 url:https://dict.youdao.com/jsonapi_s?doctypejson&…

JUC专题——Java并发机制的底层实现原理

本文部分内容节选自《Java并发编程的艺术》 volatile 的应用 volatile 是轻量级的 synchronized, 它在多处理器开发中保证了共享变量的 “可见性”. 可见性的意思是当一个线程修改一个共享变量时, 另外一个线程能读到这个修改的值. 如果 volatile变量修饰符使用恰当的话, 它比…

面试算法-173-二叉树的直径

题目 给你一棵二叉树的根节点,返回该树的 直径 。 二叉树的 直径 是指树中任意两个节点之间最长路径的 长度 。这条路径可能经过也可能不经过根节点 root 。 两节点之间路径的 长度 由它们之间边数表示。 示例 1: 输入:root [1,2,3,4,…

linux的线程概念

目录 1.原理 2.线程的周边概念 3.创建线程的接口 1.pthread_create 2.pthread_join 3.pthread_detach 4.终止线程 5.C11封装的多线程库 4.线程库的大概结构 5.__thread(只能修饰内置类型) 6.线程的互斥 1.了解原理 2.加锁 1.接口 2.代码示…

护网 | 如何从蓝队初级进化到蓝队中级

了解应急响应的流程 1)首先判断服务器资产、影响范围以及严重程度,确认有没有必要将服务器下线隔离,然后根据服务器的失陷时间和态势感知的告警,判断是由什么漏洞进来的 2)其次就是取证排查阶段,如果是w…

get_program_dir() Ai回答是一个函数,用于获取当前程序.exe的目录。

#include <iostream> #include <filesystem>std::string get_program_dir() {return std::filesystem::current_path().string(); }int main() {// 调用函数获取当前程序的目录std::string program_dir get_program_dir();std::cout << "当前程序的目录…

认识一下RAG

1.RAG技术背景与挑战 2.RAG的核心概念 3.RAG的工作流程与架构 4.RAG的优化方法 RAG的提出 •Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks是一篇重要的论文(2020年5月) •REALM: Retrieval-Augmented Language Model Pre-Training (2020)就将BERT预训练模…

Go微服务: 服务限流原理, 负载均衡与API网关

微服务里面的限流 (uber/limit)概述 go 微服务保稳三剑客: 熔断&#xff0c;限流&#xff0c;负载均衡限流的作用 限制流量&#xff0c;在服务端生效 注意&#xff1a;熔断是客户端生效 保护后端服务 餐厅吃饭排队的问题&#xff0c;提供凳子&#xff0c;让等候&#xff0c;这就…

创建k8s deploy yaml文件的imagePullSecrets语句

镜像仓库是harbor kubectl create secret docker-registry key --docker-server192.168.0.190 --docker-usernameadmin --docker-passwordHarbor12345

【网络安全入门】什么是网络安全?

如今&#xff0c;组织的信息系统和数据面临着许多威胁。而人们了解网络安全的所有基本要素是应对这些威胁的第一步。 网络安全是确保信息完整性、机密性和可用性(ICA)的做法。它代表了应对硬盘故障、断电事故&#xff0c;以及来自黑客或竞争对手攻击等防御和恢复能力。而后者包…

解析数据科学,探索ChatGPT背后的奥秘

在当今这个由数据驱动和AI蓬勃发展的时代&#xff0c;数据科学作为一门融合多种学科的综合性领域&#xff0c;对于推动各行各业实现数字化转型升级起着至关重要的作用。近年来&#xff0c;大语言模型技术发展态势强劲&#xff0c;为数据科学的进步做出了巨大贡献。其中&#xf…

如何保护企业邮箱数据安全?看这里

在数字化时代&#xff0c;电子邮件已成为日常生活和商务交流的重要工具。然而&#xff0c;随着网络威胁的日益严峻&#xff0c;确保电子邮件通信的安全性至关重要。在此背景下&#xff0c;电子邮件SSL证书&#xff08;Secure Sockets Layer Certificate&#xff09;作为一项关键…

面试算法-175-将有序数组转换为二叉搜索树

题目 给你一个整数数组 nums &#xff0c;其中元素已经按 升序 排列&#xff0c;请你将其转换为一棵 平衡 二叉搜索树。 示例 1&#xff1a; 输入&#xff1a;nums [-10,-3,0,5,9] 输出&#xff1a;[0,-3,9,-10,null,5] 解释&#xff1a;[0,-10,5,null,-3,null,9] 也将被视…

架构设计-灰度发布系统架构设计

灰度发布的定义 互联网产品需要快速迭代开发上线&#xff0c;又要保证质量&#xff0c;保证刚上线的系统&#xff0c;一旦出现问题可以很快控制影响面&#xff0c;就需要设计一套灰度发布系统。 灰度发布系统的作用&#xff0c;可以根据配置&#xff0c;将用户的流量导到新上…