【大数据架构(3)】Lambda vs. Kappa Architecture-选择你需要的架构

news2024/9/30 23:35:21

文章目录

  • 一. Data Processing Architectures
    • 1. Lambda Architecture
      • 1.1. 架构说明
        • a. Data Ingestion Layer
        • b. Batch Layer (Batch processing)
        • c. Speed Layer (Real-Time Data Processing)
        • d. Serving Layer
      • 1.2. Lambda Architecture的优缺点
      • 1.3. 使用案例
    • 2. Kappa Architecture
      • 2.1. Kappa Architecture特点
        • Speed Layer (Stream Layer)
      • 2.2. 优缺点
      • 2.3. 使用场景
        • a. 大量实时场景
        • b. 实时数仓
  • 二. Comparison of Lambda and Kappa Architectures
    • 1. Data Processing Systems
    • 2. Data Storage
    • 3. Complexity
  • 三. The Importance of Choosing the Right Data Processing Architecture for a Business

比较总览

  • Lambda architecture uses separate batch and stream processing systems, making it scalable and fault-tolerant but complex to set up and maintain (as it duplicates processing logic).
  • Kappa architecture simplifies the pipeline with a single stream processing system as it treats all data as streams, providing flexibility and ease of maintenance, but requires experience in stream processing and distributed systems.

Lambda architecture is well-suited when companies have mixed requirements for stream and batch processing, e.g., for real-time analytics and multiple batch processing tasks or data lakes, while Kappa architecture is ideal for continuous data pipelines, real-time data processing, and IoT systems.

一. Data Processing Architectures

数据处理架构被设计为处理数据摄入、处理、以及存储大数据量。这使得组织可以从数据中分析、抽取出有价值的洞察,这帮助他们提高决策,优化操作以及驱动生长。

如下有lamba和kappa架构,都可用于处理不同类型的数据。企业需要考虑他们的数据处理需求,以便找到合适的架构来实现他们的目标和需求。

 

1. Lambda Architecture

1.1. 架构说明

lambda架构提供了一个用于处理大数据的可拓展、容错和灵活的系统,这是Nathan Marz在2011提出的,主要用于解决处理实时需求。

lamba架构使用两个处理系统来处理实时和离线任务。离线系统处理批数据,并存储在例如数据仓库,或分布式文件系统中。实时系统用于处理实时数据,并存储在分布式数据层。

在这里插入图片描述

 

lamba架构中,有四层,用于处理和存储大数据,如下:

a. Data Ingestion Layer

这层用于收集和存储数据,比如log日志,传感器、消息队列和API等。数据通常是实时摄取的,并同时被送入批处理层和速度层。

 

b. Batch Layer (Batch processing)

批处理层用于处理大数据并存储到数据仓库、或分布式文件系统中。此层可以使用hadoop或spark来处理数据。批处理层用于处理大数据,并提供所有数据的完整视图。

 

c. Speed Layer (Real-Time Data Processing)

速度层用于处理实时数据,并存储到例如消息队列或者NoSQL数据库中。此层可以使用FLink或storm。流数据层用于处理大数据流,并提供最新的数据视图。

d. Serving Layer

服务层是 Lambda 架构的一个组件,负责实时向用户提供查询结果。通常作为批处理层和流处理层之上的一层实现。它通过查询层访问,该层允许用户使用查询语言(例如 SQL 或 Apache Hive 的 HiveQL)查询数据。

服务层旨在提供快速可靠的访问查询结果的能力,无论数据是从批处理还是流处理层访问。它通常使用分布式数据存储,如 NoSQL 数据库或分布式缓存,来存储查询结果并实时向用户提供。

服务层是 Lambda 架构的重要组成部分,因为它允许用户以一致的方式访问数据,而不受底层数据处理架构的影响。它还在支持实时应用程序方面发挥着关键作用,例如需要快速访问最新数据的仪表板和分析应用程序。

 

1.2. Lambda Architecture的优缺点

优点:

  • 可伸缩性:Lambda 架构被设计用于处理大量数据,并且可以水平扩展,以满足业务的需求。
  • 容错性:Lambda 架构被设计为容错性强,具有多个层和系统共同工作,以确保数据可靠地处理和存储。
  • 灵活性:Lambda 架构灵活,可以处理各种数据处理工作负载,从历史批处理到流式架构。

 

缺点:

  • 复杂性:
    Lambda架构是一个复杂的系统,使用多个层和系统来处理和存储数据。对于不熟悉分布式系统和数据处理框架的企业来说,建立和维护它可能具有挑战性。尽管其层被设计用于不同的流水线,但底层逻辑存在重复部分,这会给程序员带来不必要的编码开销。

  • 错误和数据不一致性:
    由于不同工作流程的实现被复制了两次(尽管遵循相同的逻辑,实现方式不同),您可能会遇到批处理和流处理引擎产生不同结果的问题。这很难发现,很难调试。(所以使用同一个架构去处理任务、或合并需求(比如:整表同步+增量同步)到同一个任务中,对于系统和数据维护很重要

  • 架构锁定:
    重新组织或迁移存储在 Lambda 架构中的现有数据可能非常困难。

 

1.3. 使用案例

Lambda 架构是一种适用于各种数据处理工作负载的数据处理架构。

  • 它特别适用于处理大量数据并提供低延迟的查询结果,因此非常适用于实时分析应用程序,如仪表板和报告。
  • Lambda 架构还非常适用于批处理任务,例如数据清洗、转换和聚合,以及流处理任务,例如事件处理、机器学习模型、异常检测和欺诈检测。
  • 此外,Lambda 架构通常用于构建数据湖,这是集中存储结构化和非结构化静态数据的存储库,并且非常适合处理物联网设备生成的高容量数据流。

 

2. Kappa Architecture

2.1. Kappa Architecture特点

Kappa 架构是一种数据处理架构,旨在为实时处理大量数据提供可伸缩、容错和灵活的系统。它作为 Lambda 架构的一种替代方案而开发,Lambda 架构使用两个独立的数据处理系统来处理不同类型的数据处理工作负载。

In contrast to Lambda, Kappa architecture uses a single data processing system to handle both batch processing and stream processing workloads, as it treats everything as streams. This allows it to provide a more streamlined and simplified data processing pipeline while still providing fast and reliable access to query results.

与 Lambda 不同,Kappa 架构使用单一的数据处理系统来处理批处理和流处理工作负载,因为它将所有内容都视为流。这使其能够提供更简化、更流畅的数据处理管道,同时仍然能够快速可靠地访问查询结果。

在这里插入图片描述

 

Speed Layer (Stream Layer)

在 Kappa 架构中,只有一个主要层:流处理层。该层负责收集、处理和存储实时流数据。

您可以将其视为 Lambda 方法的演进,去除了批处理系统。通常使用流处理引擎实现,如 Apache Flink、Apache Storm、Apache Kinesis、Apache Kafka(或许多其他流处理框架),旨在处理高容量的数据流并快速可靠地提供。

在 Kappa 架构中,流处理层分为两个主要组件:摄取组件和处理组件。

  • 摄取组件:
    该组件负责收集传入数据并存储来自各种来源的原始数据,例如日志文件、传感器和 API。数据通常是实时摄取的,并存储在分布式数据存储中,如消息队列或 NoSQL 数据库中。

  • 处理组件:
    该组件负责在数据到达时进行处理,并将结果存储在分布式数据存储中。通常使用流处理引擎实现,例如 Apache Flink 或 Apache Storm,并设计用于处理高容量数据流并快速可靠地提供对查询结果的访问。在 Kappa 架构中,没有单独的服务层。相反,流处理层负责实时向用户提供查询结果。

在这里插入图片描述

 

2.2. 优缺点

优点:

  1. 简洁和流畅的流水线:
    Kappa 架构使用单一的数据处理系统来处理批处理和流处理工作负载,相较于 Lambda架构,这使得其建立和维护更为简单。通过减少编码开销,这可以使数据处理流水线更容易管理和优化。

  2. 支持对历史数据进行高吞吐量的大数据处理:
    尽管可能感觉 Kappa 架构并非专为这类问题设计,但它能够优雅地支持这些用例,允许直接从流处理作业进行数据重新处理。

  3. 迁移和重组的便利性:
    由于只有一个流处理流水线,可以通过从规范数据存储中创建新数据流(比如flink任务进行集群数据迁移ing)来执行迁移和重组。

  4. 分层存储:

  • 分层存储是一种根据数据的访问模式和性能需求将数据存储在不同存储层中的方法。分层存储的思想是通过将不同类型的数据存储在最合适的存储层上,优化存储成本和性能。
  • 例如,企业可能选择将历史数据存储在更低成本、容错性强的分布式存储层,如对象存储中,同时将实时数据存储在性能更高的存储层,如分布式缓存或 NoSQL 数据库中。分层存储使 Kappa 架构成为一种具有成本效益和弹性的数据处理技术,无需传统数据湖(ing)。

缺点:

  • 复杂性:
    尽管 Kappa 架构比 Lambda更简单,但对于那些不熟悉流处理框架的企业来说,建立和维护仍然可能很复杂(回顾流处理中的常见挑战)。

  • 高昂的基础设施费用和可伸缩性问题(当设置不当时):
    在事件流平台中存储大数据可能成本高昂。为了使其更具成本效益,可以使用云提供商的数据湖方法(如 AWS S3 或 GCP Google Cloud Storage)。另一种常见的大数据架构方法是使用 Apache Kafka 作为流层构建“流式数据湖”,(ing)并使用对象存储来实现长期

在这里插入图片描述

 

2.3. 使用场景

a. 大量实时场景

Kappa 架构是一种数据处理架构,旨在为实时处理大量数据提供灵活、容错和可扩展的架构。它非常适用于各种实时数据处理、机器学习模型和实时数据分析、物联网系统等许多使用情况,都可以通过单一技术堆栈实现。

在这里插入图片描述
 

b. 实时数仓

111

和lambda架构相比,kappa架构没有离线数仓,通过kafka实现了实时数仓。kafka的存储代替了lambda架构中的批处理部分。

此架构优点:

  • Kafka可以保存更长时间的历史数据,它不仅起到消息队列的作用,也可以存储数据,替代数据库。
  • Flink流处理引擎解决了事件乱序下计算结果的准确性问题。
  • Kappa架构相对更简单,实时性更好,所需的计算资源远小于Lambda架构,随着实时处理需求的不断增长,更多的企业开始使用Kappa架构。

 

此架构缺点:

  1. kappa架构中用的kafka,本身kafka只是一个消息中间件,对于长周期历史的存储还是不行。
  2. 没有血缘关系管理
    里面的数据都是以topic的形式存储,无法像离线数仓一样,通过schema和表名来确定数据血缘。比如一个数据有问题,你不知道下游收到的影响范围,也不知道受影响的严重性,只能广而告之。对于一些损失无法做到及时的发现及阻断就很被动。
  3. 不支持update
    这个是kappa架构最严重的问题。举个例子,实时数仓里有个5分钟的窗口,假设有一条数据发生时延,没有按时到达,那么5分钟后就会按照逻辑完成计算。因为没有update,这条数据没有被计算,结果也就从这时候开始出错。

 

二. Comparison of Lambda and Kappa Architectures

1. Data Processing Systems

  • Lambda 架构使用两个独立的数据处理系统来处理不同类型的数据处理工作负载:一个批处理系统和一个流处理系统。
    在 Lambda 架构中,程序员需要学习和维护两个处理框架,并以加倍的方式支持任何日常代码更改。这种分离(如果没有以相同的方式实现)可能导致流处理与批处理产生不同的结果,从而可能引发进一步的业务问题
  • 相比之下,Kappa架构则通过单一的流处理引擎(流层)来处理完整的数据处理。
    Kappa 架构在实时处理数据时使用相同的代码,消除了为批处理和流处理维护单独代码库的额外工作的需要。这使其成为一种更高效、不易出错的解决方案。

 

2. Data Storage

  • Lambda 架构具有单独的长期数据存储层,用于存储历史数据并执行复杂的聚合操作。
  • 而 Kappa 架构则没有单独的长期数据存储层,所有数据都由流处理系统处理和存储

 

3. Complexity

  • 与 Kappa 架构相比,Lambda 架构通常更复杂,设置和维护都需要更多的工作,因为它需要两个独立的数据处理系统,并且需要持续的维护来确保批处理和流处理系统的正常高效运行。
  • Kappa 架构通常更简单,因为它使用单一的数据处理系统来处理所有数据处理工作负载。

然而,Kappa 架构需要一种思维方式的转变,将所有数据都视为流,并且需要对流处理和分布式系统有丰富的经验

 

三. The Importance of Choosing the Right Data Processing Architecture for a Business

数据处理架构的选择对企业至关重要,因为它影响数据处理管道的可伸缩性、性能和灵活性。企业选择一种满足其特定需求的大数据架构,并在做出决策之前仔细考虑每种选择的优缺点是非常重要的。

  • 通常情况下,如果您正在构建一个需要实时数据访问的系统,那么首选 Kappa 架构。随着经验的积累,您将能够掌握流式处理的方式,从而支持所有工作流程。
  • 当业务量不大,实时业务需求并没有那么明显,也可以选择Lambda架构。

 

参考:
https://nexocode.com/blog/posts/lambda-vs-kappa-architecture/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1485025.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【风格迁移】StyTr2:引入 Transformer 解决 CNN 在长距离依赖性处理不足和细节丢失问题

StyTr2:引入 Transformer 解决 CNN 在长距离依赖性处理不足和细节丢失问题 提出背景StyTr2 组成StyTr2 架构 提出背景 论文:https://arxiv.org/pdf/2105.14576.pdf 代码:https://github.com/diyiiyiii/StyTR-2 问题: 传统的神经…

NOC2023软件创意编程(学而思赛道)python初中组初赛真题

软件创意编程 一、参赛范围 1.参赛组别:小学低年级组(1-3 年级)、小学高年级组(4-6 年级)、初中组。 2.参赛人数:1 人。 3.指导教师:1 人(可空缺)。 4.每人限参加 1 个赛项。 组别确定:以地方教育行政主管部门(教委、教育厅、教育局) 认定的选手所属学段为准。 二、…

云主机和传统主机到底有什么区别呢?

随着信息技术的快速发展,企业对IT基础设施的要求越来越高,许多问题等待解决:政府传统部署扩容升级麻烦、公司服务器维护周期长、建设和维护成本低等。运营成本高; 安全稳定性差、数据易丢失等问题亟待解决。 云主机的出现很大程度…

蓝桥杯集训·每日一题2024 (前缀和)

笔记&#xff1a; 例题&#xff1a; #include<bits/stdc.h> using namespace std; const int N 5000010; char str[N]; int s[N]; int main(){int t;cin>>t;for(int a1;a<t;a){int n;cin>>n;scanf("%s",str1);for(int i1;i<n;i){s[i]s[i-1]…

【教学类-36-12】20240302对称画右脸或左脸(中班《幼儿园里朋友多》)(midjounery-v 5.1 Python图片切割)

作品展示&#xff1a; 背景需求&#xff1a; 中班《幼儿园里朋友多》操作材料包——画对称脸 尝试用midjounery获得更多幼儿正脸图形&#xff0c;切割一半&#xff0c;制作相似的学具 一、MJ获取简笔画图案 风变编程——MJ 第1个关键词 Childrens face, front, simple stro…

switch开关语句

定义 单条件多分支的开关语句。 格式定义 switch(表达式) { case 常量值1: 若干个语句 break; ... case 常量值n: 若干个语句 break; default: 若干语句 } ★注意★&#xff1a; ① 表达式的值必须与int兼容类型&#xff1a; byte&#xff0c;short&#xff0c;int&#xff…

CI/CD笔记.Gitlab系列.`gitlab-ci.yml`中的头部关键字

CI/CD笔记.Gitlab系列 gitlab-ci.yml中的头部关键字 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.ne…

解读OWASP应用安全验证标准ASVS

OWASP应用程序安全验证标准&#xff08;OWASP Application Security Verification Standard&#xff0c;ASVS&#xff09;为测试web应用程序技术安全控制提供了基础&#xff0c;还为开发人员提供了安全开发的要求列表。 1. 简介 OWASP应用安全验证标准&#xff0c;是一份测试应…

二维码门楼牌管理系统:城市数字化管理的新里程碑

文章目录 前言一、二维码门楼牌管理系统的构成二、二维码门楼牌管理系统的功能三、二维码门楼牌管理系统的应用四、二维码门楼牌管理系统的未来发展 前言 随着城市管理的数字化、智能化水平不断提升&#xff0c;二维码门楼牌管理系统作为一种创新的城市管理方法&#xff0c;正…

面试复盘——14

前言 无锡的一家企业&#xff0c;但是看Boss上面给的薪资不高还是要求硕士…面试体验很棒&#xff0c;hr、技术、三个人一起的。 一面 问技术栈&#xff0c;接触了Go多久&#xff0c;先前是用什么的。 Golang的切片、特点。 切片赋值的时候如果使用&#xff0c;是什么拷贝…

Java面试——Redis

优质博文&#xff1a;IT-BLOG-CN 一、Redis 为什么那么快 【1】完全基于内存&#xff0c;绝大部分请求是纯粹的内存操作&#xff0c;非常快速。数据存在内存中。 【2】数据结构简单&#xff0c;对数据操作也简单&#xff0c;Redis中的数据结构是专门进行设计的。 【3】采用单线…

Linux——进程控制(二)进程等待

目录 前言 一、进程等待 二、如何进行进程等待 1.wait 2.waitpid 2.1第二个参数 2.2第三个参数 3. 等待多个进程 三、为什么不用全局变量获取子进程的退出信息 前言 前面我们花了大量的时间去学习进程的退出&#xff0c;退出并不难&#xff0c;但更深入的学习能为本…

【深度优先搜索】【树】【C++算法】2003. 每棵子树内缺失的最小基因值

作者推荐 动态规划的时间复杂度优化 本文涉及知识点 深度优先搜索 LeetCode2003. 每棵子树内缺失的最小基因值 有一棵根节点为 0 的 家族树 &#xff0c;总共包含 n 个节点&#xff0c;节点编号为 0 到 n - 1 。给你一个下标从 0 开始的整数数组 parents &#xff0c;其中…

AI Earth数据集——中国10米地物分类数据集(AIEC)

AIEarth中国10米地物分类数据集(AIEC) 简介与Notebook示例 达摩院AI Earth团队自研的中国区10m分辨率地物分类产品&#xff0c;数据包含2020-2022年中国逐年土地覆盖信息。研究团队利用Sentinel-2 数据集&#xff0c;借助深度学习方法&#xff0c;融合了多时序、多模态、Low L…

2024真正有效的苹果mac电脑清理工具CleanMyMac X

一、前言 对于Mac用户来说&#xff0c;电脑卡顿、运行缓慢无疑是一件令人头疼的事情。而市面上的清理软件又五花八门&#xff0c;效果参差不齐&#xff0c;如何才能找到一款真正有效的清理工具呢&#xff1f;今天&#xff0c;我们为大家推荐一款实力派电脑清理软件——CleanMy…

Tomcat基础及与Nginx实现动静分离,搭建高效稳定的个人博客系统

目录 引言 一、TOMCAT基础功能 &#xff08;一&#xff09;自动解压war包 &#xff08;二&#xff09;状态页 1.登录状态页 2.远程登录 &#xff08;三&#xff09;服务管理界面 &#xff08;四&#xff09;Host虚拟主机 1.设置虚拟主机 2.建立站点目录与文件 二、实…

Github配置SSH免密认证

以Ubuntu Server为例 生成SSH ssh-keygen -t ed25519 -C "your_emailexample.com" 如果系统不支持Ed25519算法&#xff0c;使用旧的命令&#xff1a; ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 根据提示生成公私钥文件&#xff0c;记下位置…

ABAP - SALV教程05 添加页眉和页脚

先看看效果叭CL_SALV_TABLE提供了SET_TOP_OF_LIST方法设置页眉显示和SET_TOP_OF_LIST_PRINT方法设置页眉打印来实现添加页眉的目的。CL_SALV_TABLE提供了SET_END_OF_LIST方法设置页脚显示和SET_END_OF_LIST_PRINT方法设置页脚打印来实现添加页脚的目的。这个四个方法的传入参数…

mitmproxy代理

文章目录 mitmproxy1. 网络代理2. 安装3. Https请求3.1 启动mitmproxy3.2 获取证书3.3 配置代理3.4 运行测试 4. 请求4.1 读取请求4.2 修改请求4.3 拦截请求 5. 响应5.1 读取响应5.2 修改响应 6. 案例&#xff1a;共享账号6.1 登录bilibili获取cookies6.2 在代理请求中设置cook…

车灯修复UV胶的优缺点有哪些?

车灯修复UV胶的优点如下&#xff1a; 优点&#xff1a; 快速固化&#xff1a;通过紫外光照射&#xff0c;UV胶可以在5-15秒内迅速固化&#xff0c;提高了修复效率。高度透明&#xff1a;固化后透光率高&#xff0c;几乎与原始车灯材料无法区分&#xff0c;修复后车灯外观更加…