入门大纲我为什么使用delta-io 数据湖替代hive

news2026/2/12 3:14:20

1 大厂背书

databricks宣布把delta-io共享给apache基金会并且delta-io从以前打杂的0.x版本升级为1.x 随后就是bug的各种修复和新功能的增加.

release note可以看: Releases · delta-io/delta · GitHub

2 并发控制(解决了多任务并发读写表时的读写冲突)

hive/spark 如果多个任务同时读写hive表会导致报错或者丢数据.

Concurrency Control — Delta Lake Documentation

3 支持幂等写入

Table streaming reads and writes — Delta Lake Documentation

4 支持update delete merge

如果是hive 更新一条数据需要覆盖写入全表或者整个分区,操作成本极高,耗时很长,但是delta-io因为支持ACID,就很方便和轻量化.

5 方便集成

好烦啊我怎么把delta-io和hive整合起来(delta-io的元数据存储在hive metastore中)?

Apache Hive to Delta Lake integration — Delta Lake Documentation

按照官网配置,如果你嫌麻烦,甚至可以不需要,delta-io支持基于hdfs目录建表,即你只要maven中加入delta-io的依赖,并且spark版本对应(新版delta-io2.x需要spark3.3左右版本),并且有个hdfs,那么你可以直接把你的delta表存储在指定的hdfs路径上

6 方便调试/测试

spark-shell:

Quickstart — Delta Lake Documentation

Quickstart — Delta Lake Documentation

spark-sql:

Quickstart — Delta Lake Documentation

pySpark shell:

Quickstart — Delta Lake Documentation

scala/java项目的maven:

Quickstart — Delta Lake Documentation

2023-05-02 主流数据湖对比

delta-io

hudi

iceberg

支持ACID不太好的hive

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/482592.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Android DownloadManager 下载安装App功能实现

Android DownloadManager 下载安装App功能实现

@[DownlaodManager 实战] 升级功能是APP必备功能，本文以下载安装APP的完整流程来说明DownlaodManager的基本使用方法。前提准备下载需要互联网权限，需要申请<uses-permission android:name="android.permission.INTERNET" />权限；安装APP，需要申请<…

阅读更多...

【微机原理】8088/8086CPU引脚

【微机原理】8088/8086CPU引脚

8086是16位微处理器数据线有16根；8088是准16位微处理器，它对外的数据线是8位的。他们的地址线都是20位的，8088/8086均为40条引线、双列直插式封装地址线决定了访问主存的容量，数据线决定了CPU的运输能力为了能在有限的40条引线范…

阅读更多...

【C语言】十大经典排序代码及GIF演示

【C语言】十大经典排序代码及GIF演示

🔥🔥🔥专栏推荐：C语言基础语法🔥🔥🔥 十大经典排序代码 1. 冒泡排序2. 选择排序3. 插入排序4. 快速排序5. 归并排序6. 堆排序7. 希尔排序8. 计数排序9. 桶排序10. 基数排序 1. 冒泡排序通过依次…

阅读更多...

MQ 服务占用 CPU 太高

MQ 服务占用 CPU 太高

文章目录 MQ 服务占用 CPU 太高1. 出现问题2. 分析过程1. 通过日志定位问题服务2. 查询异常服务进程、CPU、内存、IO、锁和网络3. CPU 占用过高分析 3. 解决方案 MQ 服务占用 CPU 太高 1. 出现问题测试环境中，匹配业务运行时会出现响应缓慢或超时失败的情况 2. …

阅读更多...

继承的相关介绍---C++

继承的相关介绍---C++

一、概念及定义概念： 继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段，它允许程序员在保持原有类特性的基础上进行扩展，增加功能，这样产生新的类，称派生类。继承呈现了面向对象程序设计的层次结…

阅读更多...

复现CVE-2023-21839

复现CVE-2023-21839

攻击机安装jdk1.8 下载jdk1.8 https://www.azul.com/downloads/?versionjava-8-lts&osubuntu&architecturex86-64-bit&packagejdk#zulu 或 wget https://cdn.azul.com/zulu/bin/zulu8.60.0.21-ca-jdk8.0.372-linux_x64.tar.gz tar -zxvf zulu8.60.0.21-ca-jdk8.…

阅读更多...

GB/T 28181-2011、2016、2022变更对比

GB/T 28181-2011、2016、2022变更对比

一、GB/T 28181-2016与GB/T 28181-2011变更对比 GB/T 28181-2016与GB/T 28181-2011相比， 除编辑性修改外主要技术变化如下： ----(1) 修改了标准名称； ----(2) 增加了媒体流TCP传输要求(见4.3.1， 5.2，附录F&#xff…

阅读更多...

Ubuntu磁盘和目录和文件的相关操作

Ubuntu磁盘和目录和文件的相关操作

目录 1、目录的切换 2、查看目录及文件 3、目录的常见操作 4、文件的常见操作 5、查看文件及目录大小 6、命令查看硬盘信息 1、目录的切换打开终端窗口（”ctrlaltt“） 一般使用（”pwd“）显示当前所在的目录比如&#x…

阅读更多...

【用python的QT做信号处理的界面】

【用python的QT做信号处理的界面】

文章目录入口文件界面参数调整数据从dat解析出来的文件从界面点击打开文件夹的功能实现主要功能代码网络参数存图替换功能，比如把倒频谱替换成倒频谱2 入口文件入口文件，主要用来实例化窗口（不重要），只要知道从这里…

阅读更多...

电脑中病毒了怎么修复，计算机Windows系统预防faust勒索病毒方法

电脑中病毒了怎么修复，计算机Windows系统预防faust勒索病毒方法

随着计算机系统的不断发展，我们所面对的网络安全威胁也变得越来越严重。其中，较为常见且危险的威胁就是勒索病毒。随着勒索病毒加密算法的不断升级，最近faust勒索病毒开始流行。Faust勒索病毒主要的攻击目标是Windows操作系统，一旦…

阅读更多...

SpringBoot手册

SpringBoot手册

目录依赖管理关于各种的 start 依赖关于自动配置关于约定大于配置中的配置SpringBoot 整合 SpringMVC定制化 SpringMVC静态资源处理对上传文件的处理对异常的处理Web原生组件注入（Servlet、Filter、Listener）Interceptor 自定义拦截器DispatcherServlet…

阅读更多...

【iOS】GCD学习

【iOS】GCD学习

GCD的概念 GCD（Grand Central Dispatch），是有Apple公司开发的一个多核编程的解决方案，用以优化应用程序支持多核处理器，是基于线程模式之上执行并发任务。 GCD的优点利用设备多核进行并行运算GCD自动充分使用设备的…

阅读更多...

C语言-学习之路-03

C语言-学习之路-03

C语言-学习之路-03 程序流程结构选择结构if语句if...else...语句三目运算符switch语句循环结构while语句do...while语句for语句嵌套循环跳转语句break、continue、gotobreak语句continue语句goto语句程序流程结构 C语言支持最基本的三种程序流程结构：顺序结构、…

阅读更多...

三、SpringMVC

三、SpringMVC

三、SpringMVC 1、SpringMVC简介 1.1、什么是MVC MVC是一种软件架构的思想，将软件按照模型、视图、控制器来划分 M：Model，模型层，指工程中的JavaBean，作用是处理数据 JavaBean分为两类： 一类称为实体…

阅读更多...

REST API 详解

REST API 详解

REST API REST（Representational State Transfer，表述性状态转移）是一种用于构建分布式系统的架构风格。REST API（Application Programming Interface，应用程序接口）是一种基于REST风格的网络API&#xff…

阅读更多...

Filter 过滤器

Filter 过滤器

Filter过滤器介绍这里我们讲解Filter的执行流程，从下图可以大致了解到，当客户端发送请求的时候，会经过过滤器，然后才能到我们的servlet，当我们的servlet处理完请求之后，我们的response还是先经过过滤器才…

阅读更多...

Packet Tracer - 配置交换机端口安全

Packet Tracer - 配置交换机端口安全

Packet Tracer - 配置交换机端口安全地址分配表设备接口 IP 地址子网掩码 S1 VLAN 1 10.10.10.2 255.255.255.0 PC1 NIC 10.10.10.10 255.255.255.0 PC2 NIC 10.10.10.11 255.255.255.0 非法笔记本电脑 NIC 10.10.10.12 255.255.255.0 目标第 1 部…

阅读更多...

MySQL监控告警及可视化：Zabbix+Percona PMP实现（Part I）

MySQL监控告警及可视化：Zabbix+Percona PMP实现（Part I）

MySQL监控告警及可视化：ZabbixPercona PMP实现（Part I） 准备工作Zabbix Server安装Zabbix Server配置conf文件配置系统服务配置Web服务配置 Zabbix Agent安装Zabbix Agent配置conf文件配置系统服务配置准备工作 🐬软件下载&#…

阅读更多...

ChatGPT提示词工程（五）：Transforming转换

ChatGPT提示词工程（五）：Transforming转换

目录一、说明二、安装环境三、转换（Transforming）1. 翻译 Translation2. 语气转换 Tone Transformation3. 格式转换 Format Conversion4. 拼写或语法检查 Spellcheck/Grammar check 一、说明这是吴恩达《ChatGPT Prompt Engineering for Developers》…

阅读更多...

kubernetes安全框架RBAC

kubernetes安全框架RBAC

目录一、Kubernetes 安全概述二、鉴权、授权和准入控制 2.1 鉴权(Authentication) 2.2 授权(Authorization) 2.3 准入控制三、基于角色的权限访问控制： RBAC 四、案例：为指定用户授权访问不同命名空间权限一、Kubernetes 安全概述 K8S安全控…

阅读更多...

推荐文章

最新文章