Hudi（1）：Hudi概述

news2026/2/18 18:14:44

目录

0. 相关文章链接

1. Hudi简介

2. 发展历史

3. Hudi特性

4. 使用场景

4.1. 近实时写入

4.2. 近实时分析

4.3. 增量 pipeline

4.4. 增量导出

0. 相关文章链接

Hudi文章汇总

1. Hudi简介

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数据的开源文件格式。

Apache Hudi不仅非常适合于流工作负载，而且还允许创建高效的增量批处理管道。

Apache Hudi可以轻松地在任何云存储平台上使用。Hudi的高级性能优化，使分析工作负载更快的任何流行的查询引擎，包括Apache Spark、Flink、Presto、Trino、Hive等。

2. 发展历史

2015 年：发表了增量处理的核心思想/原则（O'reilly 文章）。
2016 年：由 Uber 创建并为所有数据库/关键业务提供支持。
2017 年：由 Uber 开源，并支撑 100PB 数据湖。
2018 年：吸引大量使用者，并因云计算普及。
2019 年：成为 ASF 孵化项目，并增加更多平台组件。
2020 年：毕业成为 Apache 顶级项目，社区、下载量、采用率增长超过 10 倍。
2021 年：支持 Uber 500PB 数据湖，SQL DML、Flink 集成、索引、元服务器、缓存。

3. Hudi特性

可插拔索引机制支持快速Upsert/Delete。
支持增量拉取表变更以进行处理。
支持事务提交及回滚，并发控制。
支持Spark、Presto、Trino、Hive、Flink等引擎的SQL读写。
自动管理小文件，数据聚簇，压缩，清理。
流式摄入，内置CDC源和工具。
内置可扩展存储访问的元数据跟踪。
向后兼容的方式实现表结构变更的支持。

4. 使用场景

4.1. 近实时写入

减少碎片化工具的使用。
CDC 增量导入 RDBMS 数据。
限制小文件的大小和数量。

4.2. 近实时分析

相对于秒级存储（Druid, OpenTSDB），节省资源。
提供分钟级别时效性，支撑更高效的查询。
Hudi作为lib，非常轻量。

4.3. 增量 pipeline

区分arrivetime和event time处理延迟数据。
更短的调度interval减少端到端延迟（小时 -> 分钟） => Incremental Processing。

4.4. 增量导出

替代部分Kafka的场景，数据导出到在线服务存储 e.g. ES。

注：其他Hudi相关文章链接由此进 -> Hudi文章汇总

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/117539.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

servlet(三)文件的下载

servlet(三)文件的下载

主要有几个步骤: 1、获取要下载的文件名 2、读取要下载的文件内容 (通过 ServletContext 对象可以读取,这个也是 ServletContext的应用) 3、获取要下载的文件类型 4、在回传前，通过响应头告诉客户端返回的数据类型 5、还要告诉客户端收到的数据是用于下载使用&#…

阅读更多...

Web APIs 简介、DOM

Web APIs 简介、DOM

文章目录一、Web APIs 简介1、Web APIs 和 JS 基础关联性2、API 和 Web API二、DOM1、DOM简介2、获取元素（1）根据ID获取（2）根据标签名获取（3）通过HTML5新增的方法获取（4）获取特殊元素…

阅读更多...

【数据库数据恢复】oracle数据库执行truncate table的数据恢复案例

【数据库数据恢复】oracle数据库执行truncate table的数据恢复案例

数据库恢复环境： 操作系统：windows server； 数据库：win_oracle_x64。数据库故障&分析： oracle数据库误truncate table，备份无法使用。 oracle数据库误操作导致数据丢失是比较常见的一种故障&#xf…

阅读更多...

《Linux运维总结：Centos7.6二进制安装Mysql8.0.30》

《Linux运维总结：Centos7.6二进制安装Mysql8.0.30》

一、安装Mysql服务 1.1、下载二进制安装包官方：二进制安装包下载 [rootlocalhost ~]# cd /data/pkgs [rootlocalhost pkgs]# wget https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.30-linux-glibc2.12-x86_64.tar.xz [rootlocalhost pkgs]# tar a…

阅读更多...

启动报异常：org.yaml.snakeyaml.parser.ParserException: while parsing a block mapping

启动报异常：org.yaml.snakeyaml.parser.ParserException: while parsing a block mapping

目录异常信息异常原因解决结果异常信息 17:20:38.414 [main] ERROR o.s.b.SpringApplication - [reportFailure,870] - Application run failedorg.yaml.snakeyaml.parser.ParserException: while parsing a block mapping in reader, line 4, column 3: name: R…

阅读更多...

JMeter分布式部署

JMeter分布式部署

目录一、JMeter分布式执行原理二、jmeter分布式部署三、jmeter分布式执行 X、常见问题 1、Cannot start. localhost.localdomain is a loopback address 一、JMeter分布式执行原理 1、jmeter分布式压测时，选择其中一台作为调度机(master)，其他机…

阅读更多...

密码技术学习二：认证

密码技术学习二：认证

1、单向散列函数概念：单向散列函数有一个输入和一个输出，其中输入称为消息，输出称为散列值。单向散列函数可以根据消息的内容计算出散列值，而散列值就可以被用来检查消息的完整性； 单向散列函数输出的散列值也称为消…

阅读更多...

ArcGis制作深度学习标签

ArcGis制作深度学习标签

项目场景： 在导入的tif文件上制作深度学习标签文件问题描述 cv2读取导出标签tif文件是出现错误： imread_(/kaggle/input/a-small-jpg/headwrong.tif): cant read header: OpenCV(4.5.4) /tmp/pip-req-build-jpmv6t9_/opencv/modules/imgcodecs/src/grf…

阅读更多...

independent watchdog 独立看门狗 window watchdog 窗口看门狗

independent watchdog 独立看门狗 window watchdog 窗口看门狗

看门狗（watchdog） 防止硬件因外界电磁场干扰或其他导致不能正常工作的，导致不可预料后果，对芯片进行实时检测的模块或芯片称为看门狗。看门狗工作过程启动看门狗后，有一个计数器从最大值递减，计数器减…

阅读更多...

双层pdf-不用手动添加目录超链接教程

双层pdf-不用手动添加目录超链接教程

双层pdf最大的特点是文件既可以是文本型的（比如由word生成的文件），也可以是图像型的，既可以100%保留原始版面效果，又便于建立索引数据库，进行科学的管理。在标书中应用广泛。使用软件：wordAdo…

阅读更多...

Linux文件操作（基础IO）

Linux文件操作（基础IO）

在C、C、Python等语言中存在对文件操作的接口，通过这些接口我们可以创建文件，并实现文件内容的写入和读取，本文将介绍Linux下我们是如何进行文件操作的，并且深入底层的解析文件操作的原理。文章目录一、C语言中的文件接口1.1 fop…

阅读更多...

【pandas】教程：1-处理什么样的数据

【pandas】教程：1-处理什么样的数据

pandas 处理什么样的数据？ pandas 数据表格的表示想存储一些 Titanic 乘客数据，知道姓名，年龄，性别等； df pd.DataFrame({"Name": ["Braund, Mr. Owen Harris","Allen, Mr. William Henry…

阅读更多...

仪表板工具Stimulsoft Dashboards仪表板中的数据筛选元素介绍

仪表板工具Stimulsoft Dashboards仪表板中的数据筛选元素介绍

Stimulsoft Ultimate是用于创建报告和仪表盘的通用工具集，包含九种产品，可以为任何受支持的平台创建报告和仪表板，适用于WinForms，ASP.NET，.NET Core，JavaScript，WPF，PHP&#xff0c…

阅读更多...

Java EE 期末复习提纲【太原理工大学】

目录一、题型二、考点 1. MyBatis 2. Spring 3. Spring MVC 一、题型 1. 选择题 20 个，每个 1 分，共 20 分。 2. 填空题 20 个，每个 1 分，共 20 分。 3. 判断题 10 个，每个 1 分，共 10 分。 4. 程…

阅读更多...

SSM1---MyBatis

SSM1---MyBatis

MyBatis MyBatis环境搭建我这个是使用IDEA，基于Maven搭建的首先建立一个空的Maven项目或者模块在pom.xml中引入所需依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"…

阅读更多...

技术分享| 复盘一起看球场景

技术分享| 复盘一起看球场景

卡塔尔世界杯已经落幕，作为“后新冠时代”的首个大型全球体育赛事，也同时被多个“史上首次”与“历史之最”所装点，但同时也是国内疫情的高峰期，相信大多数人都是顶着高烧咳嗽跟好友线上看完了总决赛，对于线上互动一起…

阅读更多...

民锋国际期货：期货交易 | 博弈之道，遵守法则

民锋国际期货：期货交易 | 博弈之道，遵守法则

期货交易 | 博弈之道，遵守法则对于一些好的书籍我会阶段性复读，因为每一次阅读都会有新的收获和更深的理解。这么做的目的是经过反复的咀嚼消化将其运用到交易实践中，为己所用。最近重温了《海龟交易法则》，而第一次读这本书应…

阅读更多...

C++TensorRT | TensorRT模型编译流程

C++TensorRT | TensorRT模型编译流程

tensorrt的工作流程如下图：首先定义网络优化builder参数通过builder生成engine,用于模型保存、推理等 engine可以通过序列化和逆序列化转化模型数据类型（转化为二进制byte文件，加快传输速率）再进一步推动模型由输入张量到输出张量的推理代码结构：定义 builder, con…

阅读更多...

由手机号正则引发的思考，正则属性 lastIndex

由手机号正则引发的思考，正则属性 lastIndex

问题： let reg /^1[3456789]\d{9}$/g 正则是验证手机号的证，为何突然不能验证正确的手机号了呢？其中有何蹊跷？ 解决方案：底部有3种解决方案，方案3解决最稳妥先来看一段正则： let reg /^1[3…

阅读更多...

物联网架构实例—部标过检工具使用（物联网套件压测）

物联网架构实例—部标过检工具使用（物联网套件压测）

1.安装包下载 2.安装MySQL数据库如果安装时提示缺少C 2015的组件，需要执行vc_redist.x64.exe进行修改，直接双击执行vc_redist.x64.exe即可。安装到这里，除了root账户外，另外需要增加一个gps账户，这个是过检工具连…

阅读更多...

推荐文章

最新文章