大数据学习(29)-Spark Shuffle

大数据学习(29)-Spark Shuffle

news2026/2/13 15:06:25

&&大数据学习&&

🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

Spark Shuffle

Map 和 Reduce

在Shuffle过程中. 提供数据的称之为Map端(Shuffle Write) 接收数据的称之为 Reduce端(Shuffle Read)

在Spark的两个阶段中, 总是前一个阶段产生一批Map提供数据, 下一阶段产生一批Reduce接收数据。

Spark 提供2种Shuffle管理器:

• HashShuffleManager

• SortShuffleManager

优化后

基本和未优化的一致,不同点在于

1. 在一个Executor内, 不同Task是共享Buffer缓冲区

2. 这样减少了缓冲区乃至写入磁盘文件的数量, 提高性能

SortShuffleManager

SortShuffleManager的运行机制主要分成两种，一种是普通运行机制，另一种是bypass运行机制。

bypass 运行机制的触发条件如下：

1)shuffle map task 数量小于

spark.shuffle.sort.bypassMergeThre

shold=200 参数的值。

2) 不是聚合类的 shuffle 算子 ( 比如

reduceByKey) 。

同普通机制基本类同 , 区别在于 , 写入磁盘临时文件的时候不会在内 存中进行排序 而是直接写 , 最终合并为一个 task 一个最终文件

所以和普通模式 IDE 区别在于 :

第一，磁盘写机制不同;

第二，不会进行排序。也就是说，启用该机制的最大好处在于， shuffle write 过程中，不需要进行数据的排序操作，也就节省掉了 这部分的性能开销。

1. SortShuffle对比HashShuffle可以减少很多的磁盘文件,以节省网络IO的开销

2. SortShuffle主要是对磁盘文件进行合并来进行文件数量的减少, 同时两类Shuffle都需要经过内存缓冲区溢写磁盘的场景。所以可以得知, 尽管Spark是内存迭代计算框架, 但是内存迭代主要在窄依赖中. 在宽依赖(Shuffle)中磁盘交互还是一个无可避免的情况. 所以, 我们要尽量减少Shuffle的出现, 不要进行无意义的Shuffle计算。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1343465.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

代码质量评价及设计原则

代码质量评价及设计原则

1.评价代码质量的标准 1.1 可维护性可维护性强的代码指的是: 在不去破坏原有的代码设计以及不引入新的BUG的前提下,能够快速的修改或者新增代码. 不易维护的代码指的是: 在添加或者修改一些功能逻辑的时候,存在极大的引入新的BUG的风险,并且需要花费的时间也很长. 代码可…

阅读更多...

winserver2008 r2服务器iis配置支持flv,f4v,mp4格式视频

winserver2008 r2服务器iis配置支持flv,f4v,mp4格式视频

很多政府单位网站一直在使用WIN服务器，大部分网站都使用多年基本使用.NET或者CMS系统建站，系统环境也一直是老版本，今天在维护过程中又出现了新问题，上传的MP4文件不支持网站上播放，顺便也分享下解决过程。当我们架设的…

阅读更多...

分布式系统架构设计之分布式系统架构演进和版本管理

分布式系统架构设计之分布式系统架构演进和版本管理

在分布式系统的生命周期中，架构演进和版本管理是很重要的两个环节。本部分会介绍分布式系统架构演进的原则、策略以及版本管理的最佳实践，以帮助研发团队更好地应对需求变化、技术发展和系统升级。架构演进演进原则渐进式演进采用渐进式演进的原…

阅读更多...

【51单片机系列】DS1302时钟模块扩展实验之与EEPROM结合使用只进行一次初始化工作

【51单片机系列】DS1302时钟模块扩展实验之与EEPROM结合使用只进行一次初始化工作

本文是关于时钟芯片DS1302的扩展实验。文章目录一、实验分析二、proteus仿真原理图三、软件设计及结果本实验实现的目的：利用AT24C02掉电不丢失的功能，存储数据用来辨别DS1302时钟是否已经初始化，如果初始化就不执行DS1302初始化函数。一…

阅读更多...

HTML实战演练之贪吃蛇美食大作战

HTML实战演练之贪吃蛇美食大作战

导入： 一 ：粉丝要求今天一位小伙伴私信我说，想玩HTML贪吃蛇美食大作战，自己也是学HTML的，希望我能安排一下，那么好它来了需知： 一：别着急先看需要知道的要用HTML开发贪吃蛇美食…

阅读更多...

腾讯云服务器租用价格表和优惠活动大全

腾讯云服务器租用价格表和优惠活动大全

腾讯云服务器租用价格表：轻量应用服务器2核2G3M价格62元一年、2核2G4M价格118元一年，540元三年、2核4G5M带宽218元一年，2核4G5M带宽756元三年、轻量4核8G12M服务器446元一年、646元15个月，云服务器CVM S5实例2核2G配置280.8元一年…

阅读更多...

Vue（二）：计算属性与 watch 监听器

Vue（二）：计算属性与 watch 监听器

03. Vue 指令拓展 3.1 指令修饰符可以通过 . 来指明一些指令的后缀，不同的后缀中封装了不同的操作，可以帮助我们简化代码，比如之前使用过的监听 enter 键的弹起，我们需要操作事件对象，来检测用户使用了哪个键&#…

阅读更多...

亚马逊云科技Amazon MSK基于S3云服务器实现导出导入、备份还原、迁移方案

亚马逊云科技Amazon MSK基于S3云服务器实现导出导入、备份还原、迁移方案

亚马逊云科技Amazon MSK是Amazon云平台提供的托管Kafka服务。在系统升级或迁移时，用户常常需要将一个Amazon MSK集群中的数据导出（备份），然后在新集群或另一个集群中再将数据导入（还原）。通常，K…

阅读更多...

【网络安全 | CTF】FlatScience

【网络安全 | CTF】FlatScience

该题考察SQL注入正文后台扫到robots.txt 页面内容如下： 进入login.php 页面源代码如图： 传参debug得到php代码： <?php if(isset($_POST[usr]) && isset($_POST[pw])){$user $_POST[usr];$pass $_POST[pw];$db new SQLite3…

阅读更多...

Linux(ubuntu)下git / github/gitee使用

Linux(ubuntu)下git / github/gitee使用

先附上git命令 linuxchenxiao:~$ cd Templates/ 先进入一个目录，也可mkdir新建一个目录：用于接下来初始化为git可以管理的仓库这个目录就是所说的工作目录，指当前正在进行开发的项目的本地目录。 linuxchenxiao:~/Templates$ git init 已…

阅读更多...

Web自动化测试：Selenium入门到精通

Web自动化测试：Selenium入门到精通

前言说到自动化测试，就不得不提大名鼎鼎的Selenium。Selenium 是如今最常用的自动化测试工具之一，支持快速开发自动化测试框架，且支持在多种浏览器上执行测试。 Selenium学习难度小，开发周期短。对测试人员来说，如果…

阅读更多...

C# 使用ZXing.Net生成二维码和条码

C# 使用ZXing.Net生成二维码和条码

写在前面条码生成是一个经常需要处理的功能，本文介绍一个条码处理类库，ZXing用Java实现的多种格式的一维二维条码图像处理库，而ZXing.Net是其.Net版本的实现。在WinForm下使用该类库需要从NuGet安装两个组件： ZXing.Net ZXing…

阅读更多...

python+django网上银行业务综合管理系统vue_bvj8b

python+django网上银行业务综合管理系统vue_bvj8b

本课题主要研究如何用信息化技术改善传统网上银行综合管理行业的经营和管理模式，简化网上银行综合管理的难度，根据管理实际业务需求，调研、分析和编写系统需求文档，设计编写符合银行需要的系统说明书，绘制数据库结构模…

阅读更多...

网络安全应急响应工具之-流量安全取证NetworkMiner

网络安全应急响应工具之-流量安全取证NetworkMiner

在前面的一些文章中，用了很多的章节介绍流量分析和捕获工具wireshark。Wireshark是一款通用的网络协议分析工具，非常强大，关于wireshark的更多介绍，请关注专栏，wireshark从入门到精通。本文将介绍一个专注于网络流量取…

阅读更多...

Ubuntu 安装MySQL以及基本使用

Ubuntu 安装MySQL以及基本使用

前言 MySQL是一个开源数据库管理系统，通常作为流行的LAMP（Linux，Apache，MySQL，PHP / Python / Perl）堆栈的一部分安装。它使用关系数据库和SQL（结构化查询语言）来管理其数据。安装…

阅读更多...

Kafka：本地设置

Kafka：本地设置

这是设置 Kafka 将数据从 Elasticsearch 发布到 Kafka 主题的三部分系列的第一部分；该主题将被 Neo4j 使用。第一部分帮助您在本地设置 Kafka。第二部分将讨论如何设置Elasticsearch将数据发布到Kafka主题。最后将详细介绍如何使用连接器订阅主题并使用数据。 Kafka Kafka 是…

阅读更多...

3.云原生之kubesphere运维

3.云原生之kubesphere运维

文章目录 k8s节点状态介绍配置宿主机使用k8s内部域名使用KubeKey 升级kubesphere使用KubeKey添加节点使用KubeKey下架节点使用k8s命令添加新节点k8s集群备份与恢复环境准备备份与还原在集群A和B中安装Velero集群A备份操作集群B还原备份操作注意：所有节点运维操作前…

阅读更多...

TON 入门之旅：从 0 到 1 探索 TON 生态钱包开发路径

TON 入门之旅：从 0 到 1 探索 TON 生态钱包开发路径

TON 区块链被设计为分布式超级计算机或“超级服务器（superserver）”，旨在提供各种产品和服务，以促进去中心化的发展。顺利从 TON 生态入门区块链开发世界需要理解哪些智能合约语言，掌握哪些应用搭建技巧？第…

阅读更多...

Apache Flink连载（二十）：Flink On Yarn运行 - Yarn Per-Job模式（弃用）

Apache Flink连载（二十）：Flink On Yarn运行 - Yarn Per-Job模式（弃用）

🏡 个人主页：IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主：加入大数据技术讨论群聊，获取更多大数据资料。 🔔 博主个人B栈地址：豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录 1. 任务提交命令 2. 任务…

阅读更多...

DM、Oracle、GaussDB、Kingbase8(人大金仓数据库)和HIVE给列增加注释

DM、Oracle、GaussDB、Kingbase8(人大金仓数据库)和HIVE给列增加注释

DM数据库给列增加注释 1、创建表 CREATE TABLE test222 ( id int NOT NULL PRIMARY KEY, name varchar(1000) DEFAULT NULL, email varchar(1000) DEFAULT NULL, phone varchar(1000) DEFAULT NULL ) 2、给列添加注释 comment on column TEST222.NAME is 这是一个列注释; 例如…

阅读更多...

推荐文章

最新文章