大数据Doris（三十二）：HDFS Load和Spark Load的基本原理

news2026/2/8 20:10:32

文章目录

HDFS Load和Spark Load的基本原理

一、HDFS Load

二、 Spark Load的基本原理

HDFS Load和Spark Load的基本原理

一、HDFS Load

HDFS Load主要是将HDFS中的数据导入到Doris中，Hdfs load 创建导入语句，导入方式和Broker Load 基本相同，只需要将 WITH BROKER broker_name语句替换成 With HDFS即可。

HDFS Load 与Broker Load 一样，并且底层就是转换成Broker Load进行导入数据。

除了有HDFS Load外，还有S3 Load ,两者都是将外部存储数据导入到Doris中。使用方式参考官网：

https://doris.apache.org/zh-CN/docs/dev/data-operate/import/import-scenes/external-storage-load、https://doris.apache.org/zh-CN/docs/dev/data-operate/import/import-way/s3-load-manual

二、 Spark Load的基本原理

Spark load 通过外部的 Spark 资源实现对导入数据的预处理，提高 Doris 大数据量的导入性能并且节省 Doris 集群的计算资源。Spark Load 最适合的场景就是原始数据在文件系统（HDFS）中，数据量在几十 GB 到 TB 级别，主要用于初次迁移，大数据量导入 Doris 的场景。

Spark load 是利用了 spark 集群的资源对要导入的数据的进行了排序，Doris be 直接写文件，这样能大大降低 Doris 集群的资源使用，对于历史海量数据迁移降低 Doris 集群资源使用及负载有很好的效果。

小数据量还是建议使用 Stream Load 或者 Broker Load。如果大数据量导入Doris，用户在没有 Spark 集群这种资源的情况下，又想方便、快速的完成外部存储历史数据的迁移，可以使用 Broker load ，因为 Doris 表里的数据是有序的，所以 Broker load 在导入数据的时是要利用doris 集群资源对数据进行排序，对 Doris 的集群资源占用要比较大。如果有Spark 计算资源建议使用 Spark load。

基本原理：

Spark load 是一种异步导入方式，用户需要通过 MySQL 协议创建 Spark 类型导入任务，并通过 SHOW LOAD 查看导入结果。当用户通过 MySQL 客户端提交 Spark 类型导入任务，FE记录元数据并返回用户提交成功，Spark load 任务的执行主要分为以下5个阶段

FE 调度提交 ETL 任务到 Spark 集群执行。
Spark 集群执行 ETL 完成对导入数据的预处理。包括全局字典构建（ BITMAP 类型）、分区、排序、聚合等。
ETL 任务完成后，FE 获取预处理过的每个分片的数据路径，并调度相关的 BE 执行 Push 任务。
BE 通过 Broker 读取数据，转化为 Doris 底层存储格式。
FE 调度生效版本，完成导入任务。

架构图：

📢博客主页：https://lansonli.blog.csdn.net
📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！
📢本文由 Lansonli 原创，首发于 CSDN博客🙉
📢停下休息的时候不要忘了别人还在奔跑，希望大家抓紧时间学习，全力奔赴更美好的生活✨

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/600083.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

(字符串 ) 剑指 Offer 05. 替换空格 ——【Leetcode每日一题】

(字符串 ) 剑指 Offer 05. 替换空格 ——【Leetcode每日一题】

❓剑指 Offer 05. 替换空格难度：简单请实现一个函数，把字符串 s 中的每个空格替换成 “%20”。示例 1： 输入：s “We are happy.” 输出：“We%20are%20happy.” 限制： 0 < s 的长度 < 10000 …

阅读更多...

第四章 Electron 使用SQLite3数据库

第四章 Electron 使用SQLite3数据库

一、SQLite是什么 👇 👇 👇 SQLite是一种嵌入式关系型数据库管理系统，是一个零配置、无服务器的、自给自足的、事务性的SQL数据库引擎。SQLite是一个轻量级的数据库，可以在各种操作系统上使用，并且支持SQL…

阅读更多...

区间预测 | MATLAB实现基于QRCNN-LSTM-Multihead-Attention多头注意力卷积长短期记忆神经网络多变量时间序列区间预测

区间预测 | MATLAB实现基于QRCNN-LSTM-Multihead-Attention多头注意力卷积长短期记忆神经网络多变量时间序列区间预测

区间预测 | MATLAB实现基于QRCNN-LSTM-Multihead-Attention多头注意力卷积长短期记忆神经网络多变量时间序列区间预测目录区间预测 | MATLAB实现基于QRCNN-LSTM-Multihead-Attention多头注意力卷积长短期记忆神经网络多变量时间序列区间预测效果一览基本介绍模型描述程序设计…

阅读更多...

【最小生成树模型】

【最小生成树模型】

最小生成树（Minimum Spanning Tree）模型原理与应用引言最小生成树（Minimum Spanning Tree，简称MST）是图论中的经典问题之一，它在实际应用中有着广泛的应用。本文将介绍最小生成树模型的原理和应用&…

阅读更多...

导致无人机倾斜摄影免像控点三维重建中出现模型高程偏差大原因及解决方法探讨

导致无人机倾斜摄影免像控点三维重建中出现模型高程偏差大原因及解决方法探讨

导致无人机倾斜摄影免像控点三维重建中出现模型高程偏差大原因及解决方法探讨无人机倾斜摄影是一种高效的三维测量技术，可用于建筑物、地形和基础设施等场景的快速、精确测量。然而，在进行无人机倾斜摄影时，出现模型高程偏差大的问题是很常…

阅读更多...

梅西生涯数据管理系统（Python+数据库）

梅西生涯数据管理系统（Python+数据库）

文章目录前言MySQL部分1. 导入数据2. 演示说明 Python部分1. 连接数据库2. 登录界面3. 注册4. 主界面5. 查询用户信息6. 修改密码7. 梅西生涯数据分析8. 主函数尾声前言用 Python MySQL 实现简单的数据分析系统，一起来看看吧！ 本篇博客主要分为两…

阅读更多...

Protobuf快速入门

Protobuf快速入门

Protobuf入门 Protobuf介绍 Protobuf (Protocol Buffers) 是谷歌开发的一款无关平台，无关语言，可扩展，轻量级高效的序列化结构的数据格式，用于将自定义数据结构序列化成字节流，和将字节流反序列化为数据结构。所以很…

阅读更多...

chatgpt赋能python：Python关联规则——挖掘数据中的隐藏关系

chatgpt赋能python：Python关联规则——挖掘数据中的隐藏关系

Python关联规则——挖掘数据中的隐藏关系在数据分析和挖掘中，我们经常需要找到数据集中的关联规则，以便更好地理解数据背后的隐藏关系和趋势。Python关联规则是一种经典的关联规则挖掘算法，它能够识别和发现数据中的有意义的关联性&#xf…

阅读更多...

延迟队列的三种实现方案

延迟队列的三种实现方案

延迟任务定时任务：有固定周期的，有明确的触发时间延迟队列：没有固定的开始时间，它常常是由一个事件触发的，而在这个事件触发之后的一段时间内触发另一个事件，任务可以立即执行，也可以延迟应用…

阅读更多...

chatgpt赋能python：Python关联性分析：介绍及应用案例

chatgpt赋能python：Python关联性分析：介绍及应用案例

Python 关联性分析：介绍及应用案例在数据分析和机器学习领域中，关联性分析是一种经常被使用的工具。通过分析不同特征之间的相关性，可以获取大量有价值的信息，如客户行为模式、产品关联性等等。Python作为一种高效而简洁的编程语…

阅读更多...

SpringCloud（2）

SpringCloud（2）

服务拆分和远程调用任何分布式架构都离不开服务的拆分，微服务也是一样。 2.1.服务拆分原则这里我总结了微服务拆分时的几个原则： 不同微服务，不要重复开发相同业务微服务数据独立，不要访问其它微服务的数据库微服务可以将自…

阅读更多...

【生物力学】《人体骨肌系统生物力学》- 王成焘老师 - 第1章 - 总论

【生物力学】《人体骨肌系统生物力学》- 王成焘老师 - 第1章 - 总论

目录回到目录第2章文章目录 1.1 人体骨肌系统1.1.1 人体骨骼系统1. 骨骼的功能2. 骨骼的构造3. 骨组织的构成1. 骨细胞与骨基质2. 成骨细胞3. 破骨细胞4. 骨原细胞 4. 皮质骨与松质骨的构造1. 皮质骨2. 松质骨 1.1.2 关节与骨连接1. 运动关节2. 局部活动关节3. 微动关节与固定…

阅读更多...

chatgpt赋能python：Python中点的SEO

chatgpt赋能python：Python中点的SEO

Python中点的SEO 在Python编程中，点（.）是一个非常重要的语法符号，可以用于访问对象属性、调用方法、导入模块等。但是，在SEO优化中，点也有着特殊的含义。什么是点的SEO含义？ 在URL地址中&am…

阅读更多...

chatgpt赋能python：Python关联规则代码：优化你的数据分析策略

chatgpt赋能python：Python关联规则代码：优化你的数据分析策略

Python关联规则代码：优化你的数据分析策略数据分析是当今商业竞争中的重要环节之一。随着数据量的不断增长，为了更好地发现数据之间的关系和规律，数据分析师需要采用一些有效的工具和技术。Python是一种强大的编程语言，可以用于…

阅读更多...

白天过节，晚上了解了下 Threejs3D

白天过节，晚上了解了下 Threejs3D

文章目录 I. 介绍Three.js 3DA. 什么是Three.jsB. Three.js的历史C. Three.js的应用领域 II. 开始使用Three.js 3DA. 安装和引入Three.jsB. 创建Three.js场景C. 添加3D对象到场景D. 控制相机和灯光E. 渲染场景 III. Three.js 3D中的基本概念A. 坐标系统和变换B. 材质和纹理C. 几…

阅读更多...

分布式存储Ceph的部署及应用（创建MDS、RBD、RGW 接口）

分布式存储Ceph的部署及应用（创建MDS、RBD、RGW 接口）

目录一、存储基础1.1 单机存储设备1.2 单机存储的问题二、分布式存储（软件定义的存储 SDS）2.1 分布式存储的类型三、Ceph 简介3.1 Ceph 优势3.2 Ceph 架构3.3 Ceph 核心组件3.4 Pool、PG 和 OSD 的关系3.5 OSD 存储后端3.6 Ceph 数据的存储过程3.7 Ce…

阅读更多...

音视频基础及海思sample_venc解读

音视频基础及海思sample_venc解读

1、sample的整体架构 (1)sample其实是很多个例程，所以有很多个main (2)每一个例程面向一个典型应用，common是通用性主体函数，我们只分析venc (3)基本的架构是：venc中的main调用venc中的功能函数，再调用common中的功…

阅读更多...

chatgpt赋能python：关于Python关联数组

chatgpt赋能python：关于Python关联数组

关于Python关联数组 Python是一种高级编程语言，具有简单、易懂的语法和丰富的功能。其中一项强大的特性是Python关联数组，也称为字典。在本文中，我们将探讨什么是Python关联数组、为什么它们很有用、如何使用它们以及应该使用哪种类型的关联…

阅读更多...

了解FFmpeg音频通道布局结构：AVChannelLayout结构体解析

了解FFmpeg音频通道布局结构：AVChannelLayout结构体解析

1. 引言（Introduction） 1.1 FFmpeg简介（Brief Introduction to FFmpeg） FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。它提供了录制、转换以及流化音视频的完整解决方案。它包含…

阅读更多...

计算机网络，期末大题整理part1

计算机网络，期末大题整理part1

1.要发送的数据1010001，采用CRC生成多项式是P(X)X4X2X1，试求应添加在数据后面的余数。接收端接收到的PPP帧的数据部分是0001110111110111110110，问删除发送端加的零比特后变成怎样的比特串答：00011101111111111110 &#xff0…

阅读更多...

推荐文章

最新文章