尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】

news2025/4/19 0:17:12

大数据新风口：Hudi数据湖（尚硅谷&Apache Hudi联合出品）

B站直达：https://www.bilibili.com/video/BV1ue4y1i7na 尚硅谷数据湖Hudi视频教程
百度网盘：https://pan.baidu.com/s/1NkPku5Pp-l0gfgoo63hR-Q?pwd=yyds
阿里云盘：https://www.aliyundrive.com/s/uMCmjb8nGaC（教程配套资料请从百度网盘下载）

001

第1章 Hudi概述

002

003

004

第2章编译安装

005

006

007

008

009

001

教程详细讲解了Hudi与当前最流行的三大大数据计算引擎：Spark、Flink和Hive的对接过程，内容包括环境准备、多种对接方式、重点配置参数分析、进阶调优手段讲解等，从入门到精通，学习后即可快速投入实际生产使用！

Apache Hudi 课程介绍

一、Apache Hudi 是什么
由 Uber 开发并开源的 Data Lakes 解决方案
下一代数仓解决方案，提供高效的 upsert 和近实时更新
核心特性
开放性：上游支持多种数据源格式，下游查询端支持多种查询引擎
丰富的事务支持：支持在文件存储布局上做更新
基于 ACID 语义的增量处理：增量ETL处理，分钟级别
智能化调度：自动管理小文件
使用场景
近实时摄取
近实时分析
增量处理管道
增量导出
二、课程特色
尚硅谷 & Apache Hudi 官方联合推出
基于最新 0.12.0 版本
保姆级教程，手把手解决各种疑难杂症
三、资料获取方式
关注尚硅谷教育公众号：回复大数据
老学员谷粒学院免费观看
B站免费观看

尚硅谷大数据技术之Apache Hudi

第1章 Hudi概述

002

第1章 Hudi概述

1.1 Hudi简介

hudi

.parquet：列式存储
.avro：行式存储

003

1.2 发展历史

自动管理小文件，数据聚簇，压缩，清理。

004

1.4 使用场景

第2章编译安装

005

第2章编译安装

2.1 编译环境准备

maven修改为阿里镜像

（1）修改setting.xml，指定为阿里仓库地址

vim /opt/module/maven-3.6.1/conf/settings.xml



<mirror>

        <id>nexus-aliyun</id>

        <mirrorOf>central</mirrorOf>

        <name>Nexus aliyun</name>

        <url>http://maven.aliyun.com/nexus/content/groups/public</url>

</mirror>

006

2.2 编译Hudi

2.2.1 上传源码包

007

2.2.4 手动安装Kafka依赖

008

2.2.5 解决spark模块依赖冲突

009

2.2.6 执行编译命令

mvn clean package -DskipTests -Dspark3.2 -Dflink1.13 -Dscala-2.12 -Dhadoop.version=3.1.3 -Pflink-bundle-shade-hive3

[atguigu@node001 hudi-0.12.0]$ mvn clean package -DskipTests -Dspark3.0 -Dflink1.17 -Dscala-2.12 -Dhadoop.version=3.1.3 -Pflink-bundle-shade-hive3