大数据Spark（五十七）：Spark运行架构与MapReduce区别

大数据Spark（五十七）：Spark运行架构与MapReduce区别

news2025/4/6 7:33:37

文章目录

Spark运行架构与MapReduce区别

一、Spark运行架构

二、Spark与MapReduce区别

Spark运行架构与MapReduce区别

一、Spark运行架构

Master:Spark集群中资源管理主节点，负责管理Worker节点。
Worker:Spark集群中资源管理的从节点，负责任务的运行。
Application：Spark用户运行程序，包含Driver端和在各个Worker运行的Executor端。
Driver：用来连接Worker的程序，Driver可以将Task发送到Worker节点处理这些数据。每个Spark Application都有独立的Driver，Driver负责任务（Tasks）的分发和结果回收。如果task的计算结果非常大就不要回收了，可能会造成oom。
Executor：Worker节点上运行的进程，负责执行Task，将数据存储在内存或者磁盘中，并将结果返回给Driver。每个Application都有各自独立的一批Executors。
Task:被发送到某个Executor上的工作单元。

二、Spark与MapReduce区别

Apache Spark 和 Hadoop MapReduce 都是用于大规模数据处理的分布式计算框架，但它们在架构设计、数据处理方式和应用场景等方面存在显著差异。以下是两者的主要区别：

1) 数据处理方式

MapReduce：采用基于磁盘的处理方式，每个任务的中间结果需要写入磁盘，然后再读取进行下一步处理。这种方式增加了磁盘 I/O 操作，导致处理速度较慢。

Spark：利用内存进行数据处理，将中间结果存储在内存中，减少了磁盘读写操作，从而显著提高了处理速度。特别是在需要多次迭代计算的场景下，Spark 的性能优势更加明显。

2) 编程模型

MapReduce：提供了相对低级的编程接口，主要包含 Map 和 Reduce 两个操作，开发者需要编写较多的代码来实现复杂的数据处理逻辑。

Spark：提供了更高级的编程接口，如 RDD（弹性分布式数据集）和 DataFrame，支持丰富的操作算子，使得开发者可以以更简洁的方式编写复杂的处理逻辑。此外，Spark支持SQL处理批/流数据。

3) 任务调度

MapReduce：采用多进程模型，每个Task任务作为一个独立的JVM进程运行。

Spark：采用多线程模型，在同一个进程中管理多个Task任务，资源调度更为高效。

4) 资源申请

MapReduce：采用细粒度资源调度，每个 MapReduce Job 运行前申请资源，Job运行完释放资源。如果一个Application中有多个 MapReduce Job，每个Job独立申请和释放资源。

Spark：采用粗粒度资源调度。Application运行前，为所有的Spark Job申请资源，所有Job执行完成后，统一释放资源。

5) 数据处理能力

MapReduce：主要用于批处理任务，不适合实时数据处理。

Spark：适用于批量/实时数据处理。通过 SparkStreaming 和 StructuredStreaming 模块，支持实时数据流处理。

6) 容错机制

MapReduce：通过将中间结果写入磁盘，实现任务失败后的重试和恢复。

Spark：采用 RDD 的血统（lineage）机制，记录数据集的生成过程。当节点发生故障时，Spark 可以根据血统信息重新计算丢失的数据分区，实现高效的容错。

📢博客主页：https://lansonli.blog.csdn.net
📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！
📢本文由 Lansonli 原创，首发于 CSDN博客🙉
📢停下休息的时候不要忘了别人还在奔跑，希望大家抓紧时间学习，全力奔赴更美好的生活✨

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2329058.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

道路裂缝数据集CrackForest-156-labelme

道路裂缝数据集CrackForest-156-labelme

来源于开源的数据集 https://github.com/cuilimeng/CrackForest-dataset 进行整理修改而成。文章目录 1. 介绍2. 应用场景3. 相关工具4. 下载地址 1. 介绍在现代城市管理中，道路状况的监测与维护是确保交通安全和城市基础设施健康的重要环节。 CrackForest是一个…

阅读更多...

Redis数据结构之Hash

Redis数据结构之Hash

目录 1.概述2.常见操作2.1 H(M)SET/H(M)GET2.2 HGETALL2.3 HDEL2.4 HLEN2.5 HEXISTS2.6 HKEYS/HVALS2.7 HINCRBY2.8 HSETNX 3.总结 1.概述 Hash是一个String类型的field(字段)和value(值)的映射表，而且value是一个键值对集合，类似Map<String, Map<…

阅读更多...

故障矩阵像素照片效果ps标题文本特效滤镜样机 Glitched Arcade Text Logo Effect

有时，视觉效果比文字本身更能讲述故事，因此请确保您已竭尽全力提供令人敬畏的展示。品牌标识或演示元素，该资产可以处理您的项目所涉及的任何内容。由于智能对象图层，此文本效果将为获得理想的结果铺平道路。这些允许您在指定的图…

阅读更多...

[创业之路-352]：从创业和公司经营的角度看：分析美国的三大财务报表

[创业之路-352]：从创业和公司经营的角度看：分析美国的三大财务报表

一、美国政府的财务报表如果把美国政府看成一个公司，从三大财务报表上看，美国政府资产雄厚，但利润表年年亏损，现金流量表年年为负，现金流持续吃紧，面临现金流断裂导致公司倒闭的风险。马斯克在降低公司各…

阅读更多...

【教学类-102-02】自制剪纸图案（留白边、沿线剪）02——Python+PS自动化添加虚线边框

【教学类-102-02】自制剪纸图案（留白边、沿线剪）02——Python+PS自动化添加虚线边框

背景需求： 01版本实现了对透明背景png图案边界线的扩展，黑线实线描边【教学类-102-01】自制剪纸图案（留白边、沿线剪）01-CSDN博客文章浏览阅读974次，点赞15次，收藏7次。【教学类-102-01】自制剪纸图案（留白边、沿线剪）01https://blog.csdn.net/reasonsummer/article…

阅读更多...

OFP--2018

OFP--2018

文章目录 AbstractIntroductionRelated Work2D object detection3D object detection from LiDAR3D object detection from imagesIntegral images 3D Object Detection ArchitectureFeature extractionOrthographic feature transformFast average pooling with integral imag…

阅读更多...

CentOS-查询实时报错日志-查询前1天业务报错gz压缩日志

CentOS-查询实时报错日志-查询前1天业务报错gz压缩日志

最新版本更新 https://code.jiangjiesheng.cn/article/364?fromcsdn 推荐《高并发 & 微服务 & 性能调优实战案例100讲源码下载》 1. 查询实时报错日志物理路径（带*的放在靠后，或者不用*） cd /home/logs/java-gz-log-dir &am…

阅读更多...

ETF 场内基金是什么？佣金最低又是多少呢？

ETF 场内基金是什么？佣金最低又是多少呢？

嘿，朋友们，大家好啊，我是StockMasterX，今天咱们就坐下来慢慢聊聊这个话题，ETF 场内基金到底是个啥东西，它的佣金最低能到多少，真的是个值得深挖的问题。说起ETF，我还记得刚入行那会…

阅读更多...

[论文阅读]PMC-LLaMA: Towards Building Open-source Language Models for Medicine

[论文阅读]PMC-LLaMA: Towards Building Open-source Language Models for Medicine

PMC-LLaMA：构建医学开源语言模型摘要最近，大语言模型在自然语言理解方面展现了非凡的能力。尽管在日常交流和问答场景下表现很好，但是由于缺乏特定领域的知识，这些模型在需要精确度的领域经常表现不佳，例如医学应用…

阅读更多...

26考研——线性表（2）

26考研——线性表（2）

408答疑文章目录一、线性表的定义和基本操作二、线性表的顺序表示三、线性表的链式表示四、顺序表和链表的比较五、参考资料鲍鱼科技课件26王道考研书六、总结顺序表总结顺序表特点深入掌握顺序表的管理方式单链表总结双循环链表总结一、线性表的定义和基本操作文章链…

阅读更多...

低代码开发平台：飞帆画 echarts 柱状图

低代码开发平台：飞帆画 echarts 柱状图

https://fvi.cn/711 柱状图这个控件是由折线图的控件改过来的，在配置中，单选框选择柱状图就行了。

阅读更多...

PowerPhotos：拯救你的Mac照片库，告别苹果原生应用的局限

PowerPhotos：拯救你的Mac照片库，告别苹果原生应用的局限

如果你用Mac管理照片，大概率被苹果原生「照片」应用折磨过——无法真正并行操作多个图库。每次切换图库都要关闭重启，想合并照片得手动导出导入，重复文件更是无处可逃…… 直到我发现了 PowerPhotos，这款专为Mac设计的照片库管理…

阅读更多...

Linux 下日志系统搭建全攻略

Linux 下日志系统搭建全攻略

目录一、引言二、日志系统基础日志级别日志输出格式三、创建日志所需函数认识可变参数编辑获取时间的函数小结四、创建日志一、引言在 Linux 环境中开发 C/C 程序时，日志系统是不可或缺的一部分。它不仅有助于调试程序、排查问题&#xff…

阅读更多...

Linux系统安装Postgre和Postgis教程

Linux系统安装Postgre和Postgis教程

卸载如果之前没装过可以忽略这一步卸载前记得备份数据库数据(如果还需要的话)！！！ 一、删除 Docker 安装的 PostgreSQL/PostGIS 1. 停止并删除容器 # 查看所有容器 docker ps -a | grep postgres# 停止并删除容器（替换为实际…

阅读更多...

LXC 导入多Linux系统

LXC 导入多Linux系统

前提要求 ubuntu下安装lxd 参考Rockylinux下安装lxd 参考LXC 源替换参考LXC 容器端口发布参考LXC webui 管理<

阅读更多...

6547网：蓝桥STEMA考试 Scratch 试卷（2025年3月）

6547网：蓝桥STEMA考试 Scratch 试卷（2025年3月）

『STEMA考试是蓝桥青少教育理念的一部分，旨在培养学生的知识广度和独立思考能力。考试内容主要考察学生的未来STEM素养、计算思维能力和创意编程实践能力。』一、选择题第一题运行下列哪个程序后，飞机会向左移动？ ( ) A. …

阅读更多...

使用Webpack搭建React项目：从零开始

使用Webpack搭建React项目：从零开始

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

阅读更多...

STM32提高篇: CAN通讯

STM32提高篇: CAN通讯

STM32提高篇: CAN通讯一.CAN通讯介绍1.物理层2.协议层二.STM32CAN外设1.CAN控制器的3种工作模式2.CAN控制器的3种测试模式3.功能框图三.CAN的寄存器介绍1.环回静默模式测试2.双击互发测试四.CAN的HAL代码解读一.CAN通讯介绍 CAN（Controller Area Network 控制器局域网，简称…

阅读更多...

25.Reactor

25.Reactor

预备知识 std::bind template <class Fn, class... Args>/* unspecified */ bind (Fn&& fn, Args&&... args);解释： std::bind(&TcpServer::Accepter, this, std::placeholders::_1) 这段代码使用了 C11 中的 std::bind 函数&#xff0…

阅读更多...

Linux进程间通信——有名管道

Linux进程间通信——有名管道

一.概念函数形式：int mkfifo(const char \*filename,mode_t mode); 功能：创建管道文件参数：管道文件文件名\路径，权限，创建的文件权限仍然和umask有关系。返回值：创建成功返回0，创建失败返回…

阅读更多...

推荐文章

最新文章