spark集成hudi

news2025/1/18 20:14:14

启动spark-shell

spark-shell \
> --jars /opt/software/hudi-spark3.1-bundle_2.12-0.12.0.jar \
> --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer'\
>   --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

2

hudi内置数据生成器,生成10条json数据

scala> :paste
// Entering paste mode (ctrl-D to finish)

import org.apache.hudi.QuickstartUtils._
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._
import org.apache.hudi.common.model.HoodieRecord

val tableName="hudi_trips_cow"
val basePath ="file:///tmp/hudi_trips_cow"
val dataGen = new DataGenerator

val inserts=convertToStringList(dataGen.generateInserts(10))

3加载到DF,写入hudi,实现简单etl处理

scala> :paste
// Entering paste mode (ctrl-D to finish)

val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2))
df.write.format("hudi").
  options(getQuickstartWriteConfigs).
  option(PRECOMBINE_FIELD_OPT_KEY, "ts").
  option(RECORDKEY_FIELD_OPT_KEY, "uuid").
  option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
  option(TABLE_NAME, tableName).
  mode(Overwrite).
  save(basePath)

4读取存储数据及注册临时表

scala> :paste
// Entering paste mode (ctrl-D to finish)

val tripsSnapshotDF = spark.read.format("hudi").load(basePath + "/*/*/*/*")
tripsSnapshotDF.createOrReplaceTempView("hudi_trips_snapshot")
spark.sql("select fare, begin_lon, begin_lat, ts from  hudi_trips_snapshot where fare > 20.0").show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/991832.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

腾讯云AI绘画:探究AI创意与技术的新边界

目录 一、2023的“网红词汇”——AI绘画二、智能文生图1、智能文生图的应用场景2、风格和配置的多样性3、输入一段话,腾讯云AI绘画给你生成一张图4、文本描述生成图像,惊艳全场 三、智能图生图:重新定义图像美学1、智能图生图的多元应用场景2…

Nginx 解析漏洞

文章目录 Nginx 解析漏洞1. 空字节漏洞1.1 漏洞描述1.2 漏洞复现1.3 修复方案 2. Nginx 解析漏洞复现2.1 漏洞描述2.2 漏洞复现2.3 获取GetShell2.4 修复方案 3. Nginx 文件名逻辑漏洞3.1 漏洞描述3.2 漏洞原理3.3 漏洞复现3.3.1 环境启动3.3.2 漏洞验证 3.4 漏洞利用3.5 修复方…

X(推特)“鸡贼”手段曝光:这些广告并没有标注,你知道吗?

在使用推特的时候,有些人可能会注意到,一些广告并没有正确地标注,看起来很像普通的内容,十分难以区分。美国的联邦贸易委员会(FTC)和欧盟的欧洲广告标准局(EASA)等机构都对广告标签有…

WhatsApp的两个商业模式该如何选择

WhatsApp Business 是什么 目前 WhatsApp 提供两种商业模式,企业应根据自身需求选择相应版本。 第一个版本是 WhatsApp Business:初创企业只需一个手机应用程序,便可以个体单位与客户轻松互动; 另一个版本是 WhatsApp Business API&#xff…

如何优雅地实现接口防刷

背景 最近在学习redis,想到了之前的写的一个案例demo,实现了接口的流量防刷。主要是为了防止爬虫爬取接口,当然可以适用于那些需要进行流控的系统,shigen画了一张草图展示主要的原理和过程: 首先用户请求系统的接口&a…

一篇文章教会你如何降低代码的冗余度——探索指针数组,数组指针,函数指针,函数指针数组,回调函数的奥妙

前言:人们总说指针是c语言的灵魂,是因为指针的使用技巧是“千姿百态”的,程序员可以通过指针来直接访问内存,这就赋予了它功能的多样性以及更多意想不到的编程技巧与方式,在本篇文章中,笔者就给大家带来指针…

同时安装python2和3解决方案

我先安装python3后,按照网上步骤,继续安装好python2,直接运行python -v只能显示python2,运行python3找不到此命令,通过https://blog.csdn.net/qq_64409509/article/details/131514944这篇文章找到了解决方案&#xff0…

MindFusion.Diagramming for ASP.NET MVC 4.2 Crack

ASP.NET MVC 4.2 的 MindFusion.Diagramming 添加对多个图表页面和选项卡式图表视图的支持。 2023 年 9 月 8 日 - 16:57新版本 特征 多个图表页面-添加了DiagramDocument 类,它表示图表页面或工作表的集合。 可以将新页面添加到文档中,并且可以删除或重…

功率放大器主要用作什么用途

功率放大器是一种用于增大输入信号功率的器件,有着广泛的应用。其主要作用是提供足够的功率输出,以满足各种系统和设备对信号放大的需要。下面西安安泰电子详细介绍功率放大器的主要应用领域。 音频放大:功率放大器在音频领域有着广泛的应用。…

9.8day58 单调栈

739. 每日温度 - 力扣(LeetCode) 知识点:1.建栈 2.如果后面要加入的数小于栈顶元素就把数组的下标压进栈里 3.反之 就让该数于栈顶元素进行比较 如果该数大于栈顶元素(while) 就把栈顶元素下表对应的arr数组的值进行…

创建n维空间每个维度(轴)的刻度值numpy.ogrid[]

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 创建n维空间每个维度(轴)的刻度值 numpy.ogrid[] [太阳]选择题 下列代码y[1].shape输出的结果是? import numpy as np x np.ogrid[1:5:1] print("【显…

沿着管道或者巷道流动的烟雾或者液体的Shader参考

这个Shader正确其作用的前提是管道或者巷道和周围的物体要拉开一定距离,如果和周围的物体紧挨着是不行的。 首先看液体: 使用的贴图参考: 然后是气体: 使用的贴图参考:

如何将WPS设置为默认的办公软件

很多小伙伴的电脑中有好几种办公软件,每次打开文档表格都要进行选择,有小伙伴想要将WPS设置成默认的办公软件该怎么操作呢,下面小编就给大家详细介绍一下将WPS设置为默认的办公软件的方法,有需要的小伙伴快来和小编一起看一看吧。…

Tableau自学四部曲_Part3:基础图表制作

文章目录 一、 对比分析:比大小1. 柱状图2. 条形图3. 热力图(突出显示表)4. 气泡图5. 词云 二、变化分析:看趋势1. 折线图2. 基于连续时间序列的折线图预测接下来的数据走向3. 面积图 三、构成分析:看占比1. 饼图2. 【…

Unity 之 定时调用函数的方法

文章目录 1. **Invoke方法:**2. **InvokeRepeating方法:**3. **协程(Coroutines):**4. **Time.deltaTime:**5. **使用Invoke延迟执行方法并取消:** 在Unity中,你可以使用多种方式来实…

基于Java+SpringBoot+Vue前后端分离餐饮管理系统设计和实现

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

c++ 学习之 静态成员变量和静态成员函数

文章目录 前言正文静态成员变量初始化操作如何理解共享一份数据访问权限 静态成员函数访问方式静态成员函数只能访问静态成员变量访问权限 前言 静态成员分为 1)静态成员变量 所有对象共享一份数据在编译阶段分配空间类内声明,类外初始化 2&#xff09…

C++编译底层

C/C编译底层 C内存管理LINUX进程区分段及存储数据GCC编译流程动态库静态库区别及LINUX加载库extern C的结果和CPP编译的区别重载的底层原理编译性语言和解释性语言的本质区别和优缺点 C内存管理 栈 存储函数的返回地址、参数、局部变量、返回值,从高地址向低地址增长…

Linux ifconfig只显示 lo 网卡,没有ens网卡解决方案

项目场景: 虚拟机中linux无网络问题 问题描述 之前在调试linux的时候,由于一些不太清楚的误操作,导致ubuntu linux出现无网络问题,现象如下 ifconfig 只显示了 lo 网卡 lo 网卡:它是本地环回接口。 这意味着您的虚…

Ubuntu系统下安装常用软件

安装MySQL 1、卸载清理残余 dpkg --list|grep mysqlsudo apt-get remove mysql-common2、升级apt sudo apt-get update3、安装MySQL sudo apt-get install mysql-server4、启动和关闭mysql的命令如下 #启动: sudo service mysql start#重启: sudo service mysql restart #…