大数据基础:实时数仓发展趋势

news2024/9/23 1:26:05

文章目录

实时数仓发展趋势

一、​​​​​​​实时数仓现状

二、​​​​​​​​​​​​​​批流一体


实时数仓发展趋势

一、​​​​​​​​​​​​​​实时数仓现状

当前基于Hive的离线数据仓库已经非常成熟,随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于实时数仓建设。根据数仓架构演变过程,在Lambda架构中含有离线处理与实时处理两条链路,其架构图如下:

正是由于两条链路处理数据导致数据不一致等一些列问题所以才有了Kappa架构,Kappa架构如下: 

Kappa架构可以称为真正的实时数仓,目前在业界最常用实现就是Flink + Kafka,然而基于Kafka+Flink的实时数仓方案也有几个非常明显的缺陷,所以在目前很多企业中实时数仓构建中经常使用混合架构,没有实现所有业务都采用Kappa架构中实时处理实现。Kappa架构缺陷如下:

  • Kafka无法支持海量数据存储。对于海量数据量的业务线来说,Kafka一般只能存储非常短时间的数据,比如最近一周,甚至最近一天。
  • Kafka无法支持高效的OLAP查询,大多数业务都希望能在DWD\DWS层支持即席查询的,但是Kafka无法非常友好地支持这样的需求。
  • 无法复用目前已经非常成熟的基于离线数仓的数据血缘、数据质量管理体系。需要重新实现一套数据血缘、数据质量管理体系。
  • Kafka不支持update/upsert,目前Kafka仅支持append。实际场景中在DWS轻度汇聚层很多时候是需要更新的,DWD明细层到DWS轻度汇聚层一般会根据时间粒度以及维度进行一定的聚合,用于减少数据量,提升查询性能。假如原始数据是秒级数据,聚合窗口是1分钟,那就有可能产生某些延迟的数据经过时间窗口聚合之后需要更新之前数据的需求。这部分更新需求无法使用Kafka实现。

所以实时数仓发展到现在的架构,一定程度上解决了数据报表时效性问题,但是这样的架构依然存在不少问题,随着技术的发展,相信基于Kafka+Flink的实时数仓架构也会进一步往前发展,那么到底往哪些方向发展,我们可以结合大公司中技术选型可以推测实时数仓的发展大致会走向“批流一体”。

 

二、​​​​​​​​​​​​​​批流一体

最近一两年中和实时数仓一样火的概念是“批流一体”,那么到底什么是“批流一体”?在业界中很多人认为批和流在开发层面上都统一到相同的SQL上处理是批流一体,也有一些人认为在计算引擎层面上批和流可以集成在同一个计算引擎是批流一体,比如:Spark/SparkStreaming/Structured Streaming/Flink框架在计算引擎层面上实现了批处理和流处理集成。

以上无论是在业务SQL使用上统一还是计算引擎上的统一,都是批流一体的一个方面,除此之外,批流一体还有一个最核心的方面就是存储层面上的统一。这个方面上也有一些流行的技术:delta/hudi/iceberg,存储一旦能够做到统一,例如:一些大型公司使用Iceberg作为存储,那么Kappa架构中很多问题都可以得到解决,Kappa架构将变成个如下模样:

这条架构中无论是流处理还是批处理,数据存储都统一到数据湖Iceberg上,这一套结构将存储统一后,解决了Kappa架构很多痛点,解决方面如下:

  • 可以解决Kafka存储数据量少的问题。目前所有数据湖基本思路都是基于HDFS之上实现的一个文件管理系统,所以数据体量可以很大。
  • DW层数据依然可以支持OLAP查询。同样数据湖基于HDFS之上实现,只需要当前的OLAP查询引擎做一些适配就可以进行OLAP查询。
  • 批流存储都基于Iceberg/HDFS存储之后,就完全可以复用一套相同的数据血缘、数据质量管理体系。
  • 实时数据的更新。

上述架构也可以认为是Kappa架构的变种,也有两条数据链路,一条是基于Spark的离线数据链路,一条是基于Flink的实时数据链路,通常数据都是直接走实时链路处理,而离线链路则更多的应用于数据修正等非常规场景。这样的架构要成为一个可以落地的实时数仓方案、可以做到实时报表产生,这得益于Iceberg技术:

  • 支持流式写入-增量拉取

流式写入其实现在基于Flink就可以实现,无非是将checkpoint间隔设置的短一点,比如1分钟,就意味每分钟生成的文件就可以写入到HDFS,这就是流式写入。但是这里有两个问题,第一个问题是小文件很多,但这不是最关键的,第二个问题才是最致命的,就是上游每分钟提交了很多文件到HDFS上,下游消费的Flink是不知道哪些文件是最新提交的,因此下游Flink就不知道应该去消费处理哪些文件。这个问题才是离线数仓做不到实时的最关键原因之一,离线数仓的玩法是说上游将数据全部导入完成了,告诉下游说这波数据全部导完了,你可以消费处理了,这样的话就做不到实时处理。

数据湖就解决了这个问题。实时数据链路处理的时候上游Flink写入的文件进来之后,下游就可以将数据文件一致性地读走。这里强调一致性地读,就是不能多读一个文件也不能少读一个文件。上游这段时间写了多少文件,下游就要读走多少文件。我们称这样的读取叫增量拉取

  • 解决小文件多的问题

数据湖实现了相关合并小文件的接口,Spark/Flink上层引擎可以周期性地调用接口进行小文件合并。

  • 支持批量以及流式的Upsert(Delete)功能

批量Upsert/Delete功能主要用于离线数据修正。流式upsert场景上文介绍了,主要是流处理场景下经过窗口时间聚合之后有延迟数据到来的话会有更新的需求。这类需求是需要一个可以支持更新的存储系统的,而离线数仓做更新的话需要全量数据覆盖,这也是离线数仓做不到实时的关键原因之一,数据湖是需要解决掉这个问题的。

  • 支持比较完整的OLAP生态

比如支持Hive/Spark/Presto/Impala等OLAP查询引擎,提供高效的多维聚合查询性能。

目前Iceberg部分功能还在开发中,有一些功能还不完善,但是整体实时数仓的发展会大致朝着这个方向行进。目前业界大多数公司还是处于Lambda架构,使用Kappa架构的公司一般都是实时业务居多的公司,随着数据湖技术的发展,这些公司实时数仓的构建慢慢会走向最终的“批流一体”。


  • 📢博客主页:https://lansonli.blog.csdn.net

  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!

  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉

  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2094188.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

oracle11g常用基本字典和动态性能字典

文章目录 Oracle11g的动态性能视图1、动态性能视图:2、常用的Oracle 11g动态性能视图:V$SESSION:V$SQL:V$SQL_PLAN:V$SYSSTAT:V$SQLSTAT:V$SESSION_EVENT:3、基本数据字典4、动态性能…

MongoDB-副本集-Replica Sets

(一) 副本集-Replica Sets 1. 简介 MongoDB中的副本集(Replica Set)是一组维护相同数据集的mongod服务。 副本集可提供冗余和高 可用性,是所有生产部署的基础。也可以说,副本集类似于有自动故障恢复功能的主从集群。通俗的讲就…

Linux系统性能调优全面指南

目录 一、了解系统资源 二、CPU优化 三、内存管理 四、磁盘IO优化 五、网络优化 六、监控和自动化 技巧总结表格 结语 Linux系统的性能调优是系统管理员和开发者必备的技能之一,用以确保服务器和应用运行的高效和稳定。本文将全面探讨Linux性能调优的各个方面…

Git之2.13版本重要特性及用法实例(五十九)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者. 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列…

【时间盒子】-【2.准备】HarmonyOS 开发前需要准备什么?

零基础新手或转行进入鸿蒙生态应用的开发者,请提前准备以下内容: 一、注册华为帐号 此帐号在华为官方各平台通用,比如:华为手机、华为商城、华为云、华为开发者联盟等等。 https://id1.cloud.huawei.com/CAS/portal/userRegist…

网络基础+Socket

目录 下图为数据分用的过程 认识IP地址 认识MAC地址 认识端口号 网络字节序 sockaddr结构 Makefile新写法 下图为数据分用的过程 认识IP地址 IP协议有两个版本, IPv4和IPv6. 我们整个的课程, 凡是提到IP协议, 没有特殊说明的, 默认都是指IPv4 IP地址是在IP协议中, 用来…

jmeter同步定时器、固定定时器、统一随机定时器详解

一、同步定时器 可以让多个线程同时向服务器发送请求,实现瞬间并发(相当于现实中同步秒杀商品)类似于集合点 例如:10个人约定去旅游,出发前提前会在某一个地方等到10个人同时都到了约定地点之后再一同排队上车 在任意接口下添加同步定时器模…

AWS MySQL 升级(二)—— MySQL API逻辑同步升级操作步骤

接上一篇 AWS MySQL 升级(一)—— 对比各类方案及原理_pg跨库查询-CSDN博客,由于操作步骤太多,单独拆出来一份。 零、 预检查 主库event_scheduler参数,应该为0 show variables like %event_scheduler%; binlog保留…

【荒原之梦考研数学】考研没有人支持,怎么办?

一部分考研的同学可能会发现,当我们上小学、初中和高中的时候,无论家里人还是亲戚朋友,都会非常支持我们的学习。 但到了考研的时候,我们获得的支持可能就会变得稍微小一些,因为这个时候,家里人可能想着&a…

Java 集合之List

一、集合常用API 1.添加相关的方法 add(E e) 确保此collection包含指定的元素&#xff08;可选操作&#xff09; addAll(Collection<? extends E> c) 将指定集合中的元素都添加到此集合中&#xff08;可选操作&#xff09; 2.删除相关的方法 clear() 移除这个…

MongoDB之MongoDB Compass工具

MongoDB Compass 是 MongoDB 官方提供的一款图形化用户界面 (GUI) 工具&#xff0c;用于与 MongoDB 数据库进行交互和管理。Compass 提供了丰富的功能&#xff0c;能够帮助开发者、数据库管理员以及数据分析师轻松管理和分析 MongoDB 数据。以下是对 MongoDB Compass 的详细介绍…

英特尔Arrow Lake和Lunar Lake不受Vmin Shift不稳定性影响

近日&#xff0c;英特尔在其官方博客中发布了一篇关于Vmin Shift不稳定性问题的文章&#xff0c;该问题已知影响到了第13代&#xff08;Raptor Lake&#xff09;和第14代&#xff08;Raptor Lake Refresh&#xff09;酷睿处理器。根据英特尔的确认&#xff0c;其下一代Core Ult…

最长公共子序列补充题型:判断是否是子字符串

&#x1f9ca;&#x1f9ca;&#x1f9ca;新题型 最长公共子序列是基于动态规划思想&#xff0c;判断子序列长度的&#xff0c;这种方法的弊端就是dp需要很大&#xff0c;如果字符串长度很长就会超出内存限制。这里我们补充一种字符串很长的题型&#xff1a;给出字符串s和字符…

【 html+css 绚丽Loading 】 000029 三元化虚阵

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享htmlcss 绚丽Loading&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495…

VMware15安装教程(Pro版)

[VMware Workstation Pro 15.5下载链接]: https://ga90eobypbb.feishu.cn/docx/Jg2AdvMukowUVyxaCI8co2RfnGh 1.选中下载的压缩包&#xff0c;鼠标右键解压到”VMware Workstation Pro 15.5“文件夹 2.双击打开解压出来的文件夹&#xff0c;选中“VMware-workstation-full-15…

LVGL 控件之矩阵按钮(lv_buttonmatrix)

目录 一、矩阵按键1、组成2、创建矩阵3、按钮宽度4、按键属性5、按钮互斥6、按钮文本重着色7、按钮矩阵部件的事件8、API 函数二、例程 一、矩阵按键 1、组成 按钮矩阵部件由两个部分组成&#xff1a;主体背景和按钮&#xff0c;示意图如下&#xff1a; LV_PART_MAIN&#xf…

DiskCache:Python开发者的磁盘缓存利器

什么是DiskCache&#xff1f; DiskCache是一个用纯Python编写的轻量级缓存库&#xff0c;它利用磁盘空间来存储缓存数据。与传统的内存缓存相比&#xff0c;DiskCache可以利用磁盘上未被充分利用的空间&#xff0c;为需要大量缓存数据的应用程序提供支持。它的核心是基于SQLite…

C++创建并初始化对象

文章目录 一、对象的创建1.1 定义类1.2 创建对象 二、对象的初始化2.1 默认构造函数2.2 带参数的构造函数2.3 初始化列表 三、拷贝构造函数四、对象的销毁五、总结 视频讲解笔记在栈上创建在堆上创建new 在C中&#xff0c;创建并初始化对象是面向对象编程&#xff08;OOP&#…

基于yolov8的驾驶员行为检测疲劳检测系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv8的驾驶员行为检测疲劳检测系统是一种创新的驾驶安全解决方案。该系统利用YOLOv8这一先进的目标检测算法&#xff0c;结合驾驶员疲劳驾驶数据集&#xff0c;能够实时、准确地监测并分析驾驶员的面部表情和行为模式&#xff0c;从而快速识别疲劳状态。 …

关于分布式数据库缓存设计的那点事和实践

目录 案例 【题目】 【问题 1】(9 分) 【问题 2】(8 分) 【问题 3】(8 分) 【答案】 【问题 1】答案 【问题 2】解析 【问题 3】解析 相关推荐 案例 阅读以下关于分布式数据库缓存设计的叙述&#xff0c;在答题纸上回答问题 1 至问题 3。 【题目】 某企业是为城市高…