StreamingWarehouse的一些思考和未来趋势

news2024/10/6 1:34:41

5781db0dd7bd0ce57bf6a93af7544c36.png300万字!全网最全大数据学习面试社区等你来!

一篇笔记。

以Hudi、Iceberg、Paimon这几个框架为例,它们支持高效的数据流/批读写、数据回溯以及数据更新。具备一些传统的实时和离线数仓不具备的特性,主要有几个方面:

  1. 这些存储引擎是天然统一的批流一体存储。既支持批式访问完整Table数据,也支持先全量处理Table数据,然后对Changelog进行增量的流式处理;

  2. 支持UPSERT流,这个很重要;文件组织形式也更高效(LSM);

  3. 支持TimeTravel,理论上可以从任意时间点就行批或者流处理;

  4. 还有一些其他的离线数仓的操作

如果我们基于湖框架构建出了新的数仓体系Streaming Warehouse,这样我们所有的开发都会面向Table,纯SQL操作。

这样的架构解决了核心问题:

  1. 如果性能足够,可以达到媲美实时链路的延迟;

  2. 天然的批流一体,口径一致,计算语义天然对齐,保证数据一致性;

  3. 中间结果落地可查,这是相比当前非常火的实时数仓的极大的优势;

  4. 很方便的进行历史数据修复;

  5. 开发、存储成本低

这也是很多文章中提到的:实现批流一体计算和存储,同时支持流、批以及OLAP处理,实现了以 "Table"的形式进行数据处理。

目前可以替代的一些场景:例如可以接受端到端延迟在分钟级别,数据逻辑复杂希望离线、实时强一致,传统的以数据库为核心通过创建物化视图、存储过程等在线Serving场景等。

但是我们必须得说,上面都是未来的理想设想,当前阶段很多问题没有解决,例如端到端延迟相比纯实时场景要大很多,取决于CheckPoint的时间间隔等。

不过随着这些框架的不断迭代和发展,未来可能会不一样。

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

961b57e38463f75e3152fee67a17c887.png

56575fe54d4f8d873b6fcb63ebedf953.jpeg

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学,大数据专业

我们在学习Flink的时候,到底在学习什么?

193篇文章暴揍Flink,这个合集你需要关注一下

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

我们在学习Spark的时候,到底在学习什么?

在所有Spark模块中,我愿称SparkSQL为最强!

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半,社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/910641.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【30天熟悉Go语言】10 Go异常处理机制

作者:秃秃爱健身,多平台博客专家,某大厂后端开发,个人IP起于源码分析文章 😋。 源码系列专栏:Spring MVC源码系列、Spring Boot源码系列、SpringCloud源码系列(含:Ribbon、Feign&…

2023国赛数学建模A题B题C题D题资料思路汇总 高教社杯

本次比赛我们将会全程更新思路模型及代码,大家查看文末名片获取 之前国赛相关的资料和助攻可以查看 2022数学建模国赛C题思路分析_2022年数学建模c题思路_UST数模社_的博客-CSDN博客 2022国赛数学建模A题B题C题D题资料思路汇总 高教社杯_2022国赛a题题目_UST数模…

三维模型OSGB格式轻量化的数据压缩与性能平衡分析

三维模型OSGB格式轻量化的数据压缩与性能平衡分析 在三维模型应用中,OSGB格式轻量化处理是一种常见的技术手段,它可以通过数据压缩、简化、滤波等操作,降低三维模型数据的存储空间和传输带宽需求,提高应用程序的性能和用户体验。但…

python35种绘图函数总结,3D、统计、流场,实用性拉满

文章目录 基础图误差线三维图等高线图场图统计图非结构坐标图 基础图 下面这8种图像一般只有两组坐标,直观容易理解。 函数坐标参数图形类别plotx,y曲线图stackplotx,y散点图stemx,y茎叶图scatterx,y散点图polarx,y极坐标图stepx,y步阶图barx,y条形图barhx,y横向条…

中国社科院大学-美国杜兰大学能源管理硕士招生信息详情

中国社科院大学-美国杜兰大学能源管理硕士招生信息详情 金融硕士 中国社科院大学-美国杜兰大学能源管理硕士招生信息详情 能源与气候是21世纪人类所面临的最严峻挑战,当今世界能源格局面临深度调整,全球应对气候变化行动加速,国家间科技竞争…

三维模型OSGB格式轻量化的纹理压缩和质量保持分析

三维模型OSGB格式轻量化的纹理压缩和质量保持分析 在三维模型应用中,纹理数据是一个重要的部分,可以为模型增加更多的真实感和细节。但是,由于纹理数据通常会占用大量的存储空间和传输带宽,因此,在OSGB格式轻量化处理中…

LeetCode.141,142——环形链表,环形链表Ⅱ

LeetCode.141——环形链表: 题目如下: 通过题目中对于环形链表的大体描述,可以知道,环形链表最后一个结点保存了一个地址,用于返回链表中某个结点。并且。这个返回的结点并不是返回图中保存数据的结点。而是返回链表…

0603-指针和函数

函数形参改变实参的值 值传递,形参不影响实参的值 地址传递,形参可以改变实参的值 数组名做函数参数 数组名做函数参数,函数的形参会退化为指针。这里的数组名不仅仅指一维数组的数组名,也包括多维数组的数组名,它们…

数据结构算法--4堆排序

堆排序过程: >建立堆(大根堆) >得到堆顶元素,为最大元素 >去掉堆顶,将堆最后一个元素放到堆顶,此时可通过一次调整使堆重新有序 >堆顶元素为第二大元素 >重复步骤3,直到堆变空 此时是建立堆后的大根堆模型 将…

ssl卸载原理

SSL卸载,也称为SSL解密,是一种将SSL加密数据流卸成非加密的明文数据流的过程。SSL卸载通常在负载均衡器、代理服务器、WAF等设备中实现,可以提高传输效率和安全性。 SSL卸载的原理是将SSL数据流拦截下来,通过设备内置的证书进行解…

行为型(二) - 模板模式

一、概念 模板模式(Template Pattern):模板方法模式在一个方法中定义一个算法骨架,并将某些步骤推迟到子类中实现。模板方法模式可以让子类在不改变算法整体结构的情况下,重新定义算法中的某些步骤。 二、实现 这里…

Fastadmin框架 聚合数字生活抵扣卡系统v2.8.6

【2.8.6更新公告】 1.【优化】优化已知问题。 2.【新增 】新增区县影院。

Nest(2):Nest 应用目录结构和脚手架命令介绍

Nest 应用目录结构和脚手架命令介绍 在正式使用 NestJS 进行开发之前,先来了解下 Nest 应用的目录结构,和一些常用的脚本命令。 工程目录 下面是使用 nest/cli 创建的 Nest 项目的目录结构。 上篇文章中介绍了 src 目录以及目录下各个文件的作用。下面…

胜者打仗,就像高山上决开积水,势不可挡

胜者打仗,就像高山上决开积水,势不可挡 【安志强趣讲《孙子兵法》16讲】 【原文】 是故胜兵先胜而后求战,败兵先战而后求胜。善用兵者,修道而保法,故能为胜败之政。 【注释】 修道:指从各方面修治“先立于不…

罗勇军 →《算法竞赛·快冲300题》每日一题:“超级骑士” ← DFS

【题目来源】http://oj.ecustacm.cn/problem.php?id1810http://oj.ecustacm.cn/viewnews.php?id1023https://www.acwing.com/problem/content/3887/【题目描述】 现在在一个无限大的平面上,给你一个超级骑士。 超级骑士有N种走法,请问这个超级骑士能否…

「我的编程笔记」——记录学习中的代码、函数、概念等

文章目录 每日一句正能量前言常用的代码登录存储 特定函数MD5加密 复杂概念1. 多线程2. 集合类3. 异常处理4 泛型5 反射 特定功能1. 文件操作2. 网络通信3. 图形绘制4. 数据库操作5. 多媒体处理 后记 每日一句正能量 不管昨天、今天、明天,能豁然开朗就是最美好的一…

Hugging News #0821: 新的里程碑:一百万个代码仓库!

每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息&#xff0…

Mysql系列 - 第2天:详解mysql数据类型(重点)

这是mysql系列第2篇文章。 环境:mysql5.7.25,cmd命令中进行演示。 主要内容 介绍mysql中常用的数据类型 mysql类型和java类型对应关系 数据类型选择的一些建议 MySQL的数据类型 主要包括以下五大类 整数类型:bit、bool、tinyint、smal…

「对冲」布局?激光雷达行业大佬「个人投资」4D毫米波雷达

随着高阶智驾从高端车型逐步下沉中低价位市场,核心传感器,尤其是激光雷达和4D成像毫米波雷达的目标市场也在寻求分层和融合。 “激光雷达是在自动驾驶出现后才崭露头角。在这些系统开发的早期阶段,很多公司不惜一切代价使传感器尽可能强大。但…

Profibus在工业通讯中的应用案例

Profibus总线是现代自动化中应用非常广泛的一种标准网络通信方案,它具有高效、可靠、灵活等优势,可以实现设备之间的通信和数据交换。下面我们就来为大家介绍几个Profibus在工业通讯中的应用案例。 Profibus在工业通讯中的应用案例 1、汽车制造 在汽车…