spark性能调优(一):Shuffle

spark性能调优(一):Shuffle

news2024/11/16 1:42:08

Shuffle

- 一、配置项调优
- 二、减少shuffle数据量
- 三、避免shuffle

何为shuffle?

集群中跨进程、跨节点的数据分发(Map的输出文件写到本地磁盘,Reducer把Map的输出文件拉到本地)

为什么要shuffle?

准确的说,shuffle是刚需(业务场景决定的),分布式环境中,不同节点不能进行内存交换,只能先落到磁盘,然后通过网络分发

一、配置项调优

在这里插入图片描述
1、Shuffle Map阶段,计算结果会以中间文件形式写入到磁盘文件系统,为了避免频繁的IO操作,spark会把中间文件写入的缓冲区,就是上述Map端的参数,可以扩大spark.shuffle.file.buffer,缓冲区越大,spark需要刷盘次数越少
2、同样地,Shuffle reduce阶段,spark会通过网络分发从不同节点中拉取中间文件,读缓冲区越大,拉取数据的网络请求就越少,可以通过设置spark.reducer.maxSizeInFight来控制Reduce端缓冲区大小
3、Spark 1.6后,spark基本不用spark shuffle,开始使用sort shuffle,这在map和reduce阶段都会产生排序,但对于一些不需要排序的场景,可以设置spark.shuffle.byPassMergeThreshold Map阶段不进行排序的分区阈值,只要reducer数量小于这个值,就可以不排序,避免额外的排序开销

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/376355.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

加快发展先进制造业势在必行！

加快发展先进制造业势在必行！

众所周知，我国是制造大国，但并非制造强国。而我们在持续发展制造业的进程中也面临着诸多实际问题，如产业发展后续乏力，环境制约异常突出，技术创新能力薄弱，结构调整任务艰巨等等。故而要实现由制造大国向制…

阅读更多...

数据结构与算法之二叉树大全

数据结构与算法之二叉树大全

目录二叉树的定义二叉树的性质(特性)满二叉树与完全二叉树链式存储的二叉树顺序存储的二叉树线索二叉树(Threaded BinaryTree)二叉排序树（Binary Sort Tree）平衡二叉树（ Balanced Binary Tree）为什么使用平衡二叉树？如…

阅读更多...

Vue中如何利用websocket实现实时通讯

Vue中如何利用websocket实现实时通讯

首先我们可以先做一个简单的例子来学习一下简单的websocket模拟聊天对话的功能原理很简单，有点像VUE中的EventBus，用emit和on传来传去首先我们可以先去自己去用node搭建一个本地服务器步骤如下 1.新建一个app.js，然后创建pagejson.js文…

阅读更多...

最简单的代码生成器，netcore平台，EF架构，smartsofthelp

最简单的代码生成器，netcore平台，EF架构，smartsofthelp

1.dbhelper 原生SQL操作类2.Model 实体层3.EF dbfirst 生成entites 实体操作类4.EF实体接口增删改查操作方法成员5.UI 展示层SQL数据脚本Model/// <summary>/// Model实体层 /// </summary>namespace Smart.Model{/// <summary>/// 数据实体层 T_Eventsmart …

阅读更多...

珠海数据智能监控器+SaaS平台轻松实现SMT生产管控

珠海数据智能监控器+SaaS平台轻松实现SMT生产管控

数据智能监控器兼容市面上99%的SMT设备直接读取设备生产数据与状态，如：计划产出、实际产出、累计产出、停机、节拍、线利用率、直通率、停产时间、工单状态、OEE…… 产品功能价值 ◎ OEE不达标报警，一手掌握生产效能 ◎ 首检/巡检/成…

阅读更多...

研发人员最希望项目经理和PMO能够做什么？看完不要惊讶

研发人员最希望项目经理和PMO能够做什么？看完不要惊讶

作为项目经理和PMO你考虑过自己在其他人眼中的形象么？知道各个环节最希望你做什么吗？对于最常打交道的研发人员，你知道他们最希望你做什么吗？ 如果不能了解其他环节对你的期望，你往往很难获得认同，为此&am…

阅读更多...

Golang实现RabbitMQ中死信队列各个情况

Golang实现RabbitMQ中死信队列各个情况

下面这段教程针对是你已经有一些基本的MQ的知识，比如说能够很清楚的理解queue、exchange等概念，如果你还不是很理解，我建议你先访问官网查看基本的教程。文章目录1、造成死信队列的主要原因2、操作逻辑图3、代码实战3.1 针对原因1&#xff1…

阅读更多...

win10下Vue环境搭建（脚手架初始化+项目启动）教程（详解多图）

win10下Vue环境搭建（脚手架初始化+项目启动）教程（详解多图）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、下载安装node.js二、node.js环境配置三、下载安装vue脚手架前言初学Vue 搭环境快把我整死了QAQ 差点入门即入土一、下载安装node.js ①下载地址&#x…

阅读更多...

bug的创建和等级

bug的创建和等级

1.如何合理的创建一个bug 创建bug的要素 ：问题的版本，发现问题的环境，发现问题的步骤，预取结果，实际结果。 eg： 1.问题的版本：谷歌浏览器108版本 2.发现问题的环境：windows11家庭版…

阅读更多...

算法训练营 day56 动态规划最长递增子序列最长连续递增序列最长重复子数组

算法训练营 day56 动态规划最长递增子序列最长连续递增序列最长重复子数组

算法训练营 day56 动态规划最长递增子序列最长连续递增序列最长重复子数组最长递增子序列 300. 最长递增子序列 - 力扣（LeetCode） 给你一个整数数组 nums ，找到其中最长严格递增子序列的长度。子序列是由数组派生而来的序列&#x…

阅读更多...

如何理解API？API 是如何工作的？（5分钟诠释）

如何理解API？API 是如何工作的？（5分钟诠释）

大家可能最近经常听到 API 这个概念，那什么是API，它又有什么特点和好处呢？ wiki 百科镇楼 …[APIs are] a set of subroutine definitions, protocols, and tools for building application software. In general terms, it’s a set of cle…

阅读更多...

Linux文件属性--软连接和硬链接

Linux文件属性--软连接和硬链接

文章目录软链接硬链接软链接和硬链接的区别软链接软链接（Soft Link）又叫符号链接（Symbolic Link ），是linux特殊文件的一种，文件类型为l,它的数据是它所链接的文件或目录的路径。软链接可以跨磁盘和分区…

阅读更多...

《数据库系统概论》学习笔记——第三章关系数据库标准语言SQL

《数据库系统概论》学习笔记——第三章关系数据库标准语言SQL

教材为数据库系统概论第五版（王珊） 最重量级的一章。从后续的学习，基本所有实验，大作业和考试都会涉及SQL，SQL实际上是有很多变化的，书上讲的只是最基本的（做了大作业才知道SQL能有这么多变化&a…

阅读更多...

移动端自动化测试（一）appium环境搭建

移动端自动化测试（一）appium环境搭建

自动化测试有主要有两个分类，接口自动化和ui自动化，ui自动化呢又分移动端的和web端的，当然还有c/s架构的，这种桌面程序应用的自动化，使用QTP，只不过现在没人做了。 web自动化呢，现在基本上都是…

阅读更多...

k8s 强制删除 namespace

k8s 强制删除 namespace

k8s 强制删除 namespace1、命名空间查看资源2、删除k8s指定命名空间3、强制删除3.1、导出命名空间jsno3.2、使用kubectl代理3.3、代理测试3.4、使用http接口进行删除1、命名空间查看资源 kubectl api-resources -o name --verbslist --namespaced | xargs -n 1 kubectl get --…

阅读更多...

jsp运动会管理系统论文

jsp运动会管理系统论文

技术：Java、JSP等摘要：运动会作为各项体育运动的基础，具有广泛的群众性。每年一度的学校运动会声势浩大，是提高、检验学生的健康水平，开展全民健身运动的有效途径。在规模上虽然不如大型运动会，但由于比赛…

阅读更多...

【Python数据挖掘入门】2.2文本分析-中文分词（jieba库cut方法/自定义词典load_userdict/语料库分词）

【Python数据挖掘入门】2.2文本分析-中文分词（jieba库cut方法/自定义词典load_userdict/语料库分词）

中文分词就是将一个汉字序列切分成一个一个单独的词。例如： 另外还有停用词的概念，停用词是指在数据处理时，需要过滤掉的某些字或词。一、jieba库安装过程见：https://blog.csdn.net/momomuabc/article/details/128198306 ji…

阅读更多...

Docker -- Docker底层原理深度剖析

Docker -- Docker底层原理深度剖析

概论谈到Docker原理，我们先来三板斧。 Linux命名空间（namespace）控制组（cgroups）联合文件系统（UnionFS） 然后我们心中要明白一件事情： 容器是一种特殊的进程。容器技术的核心功能…

阅读更多...

vue2 diff算法

vue2 diff算法

diff是什么 diff 算法是一种通过同层的树节点进行比较的高效算法其有两个特点： ♥比较只会在同层级进行, 不会跨层级比较 ♥在diff比较的过程中，循环从两边向中间比较 diff 算法的在很多场景下都有应用，在 vue 中，作用于虚拟 dom…

阅读更多...

HTML#4超链接标签,列表标签,表格标签和布局标签

HTML#4超链接标签,列表标签,表格标签和布局标签

一. 超链接标签介绍<a> 定义超链接,用于连接到另一个资源herf: 指定访问资源的URLtarget: 指定打开资源的方式代码<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>超链接标签</title> <…

阅读更多...

推荐文章

最新文章