大数据：spark内核调度，DAG，job，宽窄依赖，stage阶段，内存计算管道，并行度task数量

news2026/2/9 1:18:17

大数据：spark内核调度

2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开
测开的话，你就得学数据库，sql，oracle，尤其sql要学，当然，像很多金融企业、安全机构啥的，他们必须要用oracle数据库
这oracle比sql安全，强大多了，所以你需要学习，最重要的，你要是考网络警察公务员，这玩意你不会就别去报名了，耽误时间！
与此同时，既然要考网警之数据分析应用岗，那必然要考数据挖掘基础知识，今天开始咱们就对数据挖掘方面的东西好生讲讲最最最重要的就是大数据，什么行测和面试都是小问题，最难最最重要的就是大数据技术相关的知识笔试

文章目录

大数据：spark内核调度
@[TOC](文章目录)

大数据：spark内核调度
总结

大数据：spark内核调度

在这里插入图片描述

DAG，有方向direction ancircle 无环graph图

DAG有向无环图

action是执行开关
执行之前是有一个迭代链条哦
这个链条就是DAG有向无环图

在这里插入图片描述
就是执行流程图，不需要运行，看代码就知道你要咋运行

在这里插入图片描述

一步步走
构建DAG图
在这里插入图片描述
构建出来一个DAG
因为take启动就可以搞定所有的任务

继续需求2
在这里插入图片描述
又是跟split_rdd开始玩的

take就是触发开关
持久化了的缓存就可以直接用

在这里插入图片描述

各个action，都有各自的链条

在这里插入图片描述
一个action触发一个工作应用程序子任务job
job
一条链子就是一个job

在这里插入图片描述
懂了，action有多少个，就有多少dag
一个application包含多个action，就是多个job

懂了

在这里插入图片描述

在这里插入图片描述
分叉

在这里插入图片描述
窄依赖美滋滋
线程运行在不同的executor
之间，那传输数据，可能造成网络io性能满
怎么说呢？
所以窄依赖的阶段，全部放同一个内存中计算？是不是不要传输io了
同一个线程中处理好不好？
很好

线程1全干一条线，内存中计算的一条管子，美滋滋，叫内存计算管道，叫pipeline

在这里插入图片描述
同理，右边一样

那宽依赖就必须走网络io了
或者都在同一个executor上，也是内存内部计算了【很难做到】

不得不走网络io的就得传输了，反正计算管道内部不就是美滋滋了

当然了，spark并行的优先级，是核心
内存计算是次要的

你想要全内存，知识local模式，绝对不是yarn模式

大数据做不到全内存内部计算的

在这里插入图片描述
没事不要修改并行度
这样性能才能保证
懂了吧
不要乱

不要没事改分区数量

在这里插入图片描述
窄依赖直接做内存迭代，即内存计算管道，一个task干就完事了
不需要网络io传输，提高了性能

spark构建了DAG

DAG往后传输形成宽窄依赖

窄依赖内就是管道计算迭代

在这里插入图片描述
spark比MapReduce的好处就是算子多
spark有内存迭代管道，少了很多io网络传输，这性能一下子就高了

这就是面试的题目了，考试要区分好
在这里插入图片描述
并行度，不是分区哦
最好分区就是和并行度类似

在这里插入图片描述

shuffle是洗牌
最好别洗网络io或者太多洗牌操作
难搞

计算复杂
在这里插入图片描述

并行度是cpu数量的2–10倍

总结

提示：重要经验：

1）
2）学好oracle，即使经济寒冬，整个测开offer绝对不是问题！同时也是你考公网络警察的必经之路。
3）笔试求AC，可以不考虑空间复杂度，但是面试既要考虑时间复杂度最优，也要考虑空间复杂度最优。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/623704.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【测试开发】实训记录日志

【测试开发】实训记录日志

软件测试系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章了解测试开发和软件测试提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 …

阅读更多...

建模杂谈系列226 流程与对象

建模杂谈系列226 流程与对象

说明鲁迅说：我家门前门前有两棵树，一棵是枣树，另一棵也是枣树。从编程语言的角度，可以分为两大类（面向过程或面向对象），可以参考这篇文章文章的内容其实不多，我贴一下&#xff1…

阅读更多...

spark入门 YARN模式（六)

spark入门 YARN模式（六)

一、背景独立部署（Standalone）模式由 Spark 自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但是你也要记住，Spark 主要是计算框架，而不是资源调度…

阅读更多...

CATIA软件各版本区别

CATIA软件各版本区别

之前有个朋友问catia v5r21和catia v5-6r 2011，有什么区别，是一样的吗？ 众联亿诚才发现，很多朋友似乎看不懂CATIA各种版本各种型号，那么今天，众联亿诚就来详细解释一下，希望能帮助朋友们解答心…

阅读更多...

苹果电脑磁盘诊断工具 SMART Utility for mac

苹果电脑磁盘诊断工具 SMART Utility for mac

SMART Utility for mac是一款Mac上磁盘诊断工具，能够自动检测磁盘的状态和错误情况，分析并提供错误报告,以直观的界面让用户可明确地知道自己的磁盘状况。SMART Utilitymac版支持普通硬盘HDD和固态硬盘SSD，能够显示出详细的磁盘信息&#xff…

阅读更多...

版权中心改革之后，软著办理需要多少钱？

版权中心改革之后，软著办理需要多少钱？

版权中心改革之后，软著办理需要多少钱？ 众所周知版权中心2年改了3次，每次改革官费都会涨，最近一次是在4月份，官费涨了近一倍。其实费用涨了还不算最坏的情况，主要是每次改革办理软著的难度都会增加很多。…

阅读更多...

(antD)vue项目使用图标

(antD)vue项目使用图标

(antD)vue项目使用图标效果： <a-icon type"arrow-left" class"backBtn" v-if"cardDiv" click"backBtn" />.backBtn {color：#ccc;font-size: 20px;//图标大小 }

阅读更多...

程序员爬虫Scrapy框架知识学习

程序员爬虫Scrapy框架知识学习

Scrapy是一个Python编写的高级网络爬虫框架，它可以帮助开发者快速、高效地从网站上获取数据。以下是学习Scrapy框架的一些步骤和建议： 学习Python基础知识：Scrapy是用Python编写的，因此需要掌握Python的基础知识，包括语…

阅读更多...

利用彩虹线课程中的知识来制作精美的渐变色块和彩虹字

利用彩虹线课程中的知识来制作精美的渐变色块和彩虹字

彩虹字像这样的效果，同样我们可以使用“渐变色”的技巧。来看下面如何操作选中字体，然后鼠标右键选”设置型状格式“ 选择“渐变” 有两处决定了彩虹字的样式。拖动的箭头，这个箭头代表“每一个段”显示的色彩，如我DEMO中的字体是“两段颜色”-蓝+黄组合出来的；角度，…

阅读更多...

在本地环境搭建GPT项目

在本地环境搭建GPT项目

先看效果：在本地环境搭建gpt项目 1.简介忽略不能写 2.准备环境 Docker的介绍和安装 Docker是一个开源的容器化平台，它可以帮助开发者和运维人员轻松地构建、打包和部署应用程序。使用Docker，您可以将应用程序及其所有依赖项打包到一个称为容器的独立单元中，使其可…

阅读更多...

创新与互动的科技盛宴：探索3DVR元宇宙赛博科技世界虚拟展

创新与互动的科技盛宴：探索3DVR元宇宙赛博科技世界虚拟展

导语： 在现代科技迅猛发展的时代，3DVR元宇宙虚拟展厅为我们带来了一场前所未有的科技盛宴。特别是在赛博科技领域，它展现了一系列令人惊叹的优势、优点和实质性的作用，为客户带来了非凡的体验和无限的可能。一．创新科…

阅读更多...

在windows上用gpu训练paddleocr模型所有遇到的坑与解决办法

在windows上用gpu训练paddleocr模型所有遇到的坑与解决办法

这里写自定义目录标题 1.首先拉取paddleocr源代码下载预训练模型2.开始训练更改yml配置文件 3.遇到的报错1.ModuleNotFoundError: No module named Polygon2.最难解决的No module named lanms3.ImportError: cannot import name _print_arguments from paddle.distributed.util…

阅读更多...

利用scikit-plot可视化机器学习模型！

利用scikit-plot可视化机器学习模型！

关注“Python专栏”微信公众号，回复暗号【面试大全】，立即领取面试题简历模板。 scikit-learn (sklearn)是Python环境下常见的机器学习库，包含了常见的分类、回归和聚类算法。在训练模型之后，常见的操作是对模型进行可视化&#…

阅读更多...

这么坑？3年经验我要25K，结果只给15K····

这么坑？3年经验我要25K，结果只给15K····

2023找到一份满意的工作实在是太难了呀，面试了十几家公司，没有一个满意的offer 我的情况大概介绍一下个人情况，女，本科，三年多测试工作经验，懂python，会写脚本，会selenium&#xf…

阅读更多...

北漂5年终上岸，年薪40W并非遥不可及····

北漂5年终上岸，年薪40W并非遥不可及····

关于我，普通二本，非计算机专业，培训出身，北漂，五年多的工作经验，做过外包，中间有过频繁的跳槽经历，手工点点点为主，最近确认了新Offer，远程办公，涨…

阅读更多...

C++ Release版软件程序运行丢失MSVCR120D.dll的解决方法

C++ Release版软件程序运行丢失MSVCR120D.dll的解决方法

软件在Debug模式下运行时正常的，但是切换到Release模式下就弹出错误提示：无法启动此程序，因为计算机中丢失MSVCR120D.dll。尝试重新安装该程序以解决此问题。解决方法如下： 1、项目“属性”---->配置给为“Release”版本----&…

阅读更多...

Python数据分析——教育平台的线上课程智能推荐策略（2020泰迪杯数据分析技能赛）

Python数据分析——教育平台的线上课程智能推荐策略（2020泰迪杯数据分析技能赛）

赛题背景：近年来，随着互联网与通信技术的高速发展，学习资源的建设与共享呈现出新的发展趋势，各种网课、慕课、直播课等层出不穷，各种在线教育平台和学习应用纷纷涌现。尤其是 2020 年春季学期，受新冠疫情影…

阅读更多...

SciencePub学术 | 网络通信类重点SCIEI征稿中

SciencePub学术 | 网络通信类重点SCIEI征稿中

SciencePub学术刊源推荐: 网络通信类重点SCI&EI征稿中！稳定检索56年！信息如下，录满为止： 一、期刊概况： 网络通信类重点SCI&EI 【期刊简介】IF：1.0-1.5，JCR4区，中科院4区…

阅读更多...

metasploit-framework（msf）——学习与实践

metasploit-framework（msf）——学习与实践

MSF是Metasploit Framework的缩写，是一款广泛使用的渗透测试工具，具有强大的攻击功能。它提供了一个模块化的平台，通过将各种攻击载荷、漏洞利用和辅助工具组装在一起，可用于模拟各种攻击，测试系统安全性，也…

阅读更多...

【深度学习】日常笔记2

【深度学习】日常笔记2

一直以来其实对调参这个词不太熟悉，后面知道了比如学习率就为超参数，是被调参的对象： ↑标量方程对向量的导数大概就是↓ 在对矩阵求导时，我们需要使用矩阵微积分中的求导法则。对于一个标量函数 f(x)，它关于向量 x 的…

阅读更多...

推荐文章

最新文章