spark从0到1 基础知识一文全

spark从0到1 基础知识一文全

news2026/2/8 0:17:45

spark从0到1 基础知识一文全

1 开发前准备
2 spark架构，任务提交流程
3 开发中涉及的python知识

学习中的测试学习代码详情代码请见本人github中的sparkcp项目
https://gi@thub.com/define@qq/spa@rkcp

1 开发前准备

主要是本机使用，所以安装了个python3，装了个pyspark（pip3 install pyspark），直接装了个3.4的spark，直接命名行敲pyspark，就能以spark.submit.deployMode=client模式启动一个spark,并且自动给了UI地址http://********:4040 供测试是否正常。

2 spark架构，任务提交流程

部署方式：local / cluster(使用集群调度，分为 standalone或yarn) / 云服务（阿里maxcompute）
local: 使用单台机器部署。
cluster: 正常集群模式，其中standalone(包含 master 和 worker 两个服务，master只有一个单点故障，worker 可以运行在多台服务器上) ,standalone是spark自带的，yarn是hadoop的。
mr在调用yarn的资源时，由applicationMaster管理计算任务，所有信息都会汇报给applicationmaster。那么 spark在计算时，由driver管理计算任务，是一个计算程序进程。

spark在计算时：

由driver管理计算任务，他本质是一个计算程序的进程
spark是以线程方式进行计算代码，线程（task ）是在executor进程中进行计算，executor就是一个资源空间。

其中standalone是没有applicationMaster的，yarn模式提交会有applicationMaster.。在这里插入图片描述

spark-submit --master yarn --name cluster_demo --deploy-mode client/cluster b.py

3 开发中涉及的python知识

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1177458.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

《SpringBoot项目实战》第五篇—接口发生异常如何统一处理

《SpringBoot项目实战》第五篇—接口发生异常如何统一处理

系列文章导航第一篇—接口参数的一些弯弯绕绕第二篇—接口用户上下文的设计与实现第三篇—留下用户调用接口的痕迹第四篇—接口的权限控制第五篇—接口发生异常如何统一处理本文参考项目源码地址：summo-springboot-interface-demo 前言大家好！…

阅读更多...

开源六轴协作机械臂MechArm 拖动示教模型案例

开源六轴协作机械臂MechArm 拖动示教模型案例

介绍今天，我将向大家展示一个我独立设计并实现的机械臂模型。这个模型的核心功能是实现实时的手势追踪——只需用手轻轻拖拽，机械臂就能立即跟随你的动作进行移动。我之所以想要创造这样一个模型，是因为在一些危险环境中，我们可…

阅读更多...

搭建二维码系统，轻松实现固定资产的一物一码管理

搭建二维码系统，轻松实现固定资产的一物一码管理

固定资产管理中普遍存在盘点难、家底不清、账实不一致、权责不清晰等问题，可以在草料上搭建固定资产管理系统，通过组合功能模块实现资产信息展示、领用登记、出入库管理、故障报修等功能，对固定资产进行一物一码规范化管理。比如张掖公路事业…

阅读更多...

C++学习之map和set

C++学习之map和set

目录一，什么是map和set 二，set的使用插入键值对删除（erase）与查找 lowerbound与upperbound equal_range multiset 三，map的使用 insert 查找删除重载[ ] 编辑一，什么是map和set C中…

阅读更多...

云闪付app拉新好做吗？地推和网推百搭拉新项目申请渠道

云闪付app拉新好做吗？地推和网推百搭拉新项目申请渠道

云闪付拉新可通过”聚量推客“申请云闪付是银联出的支付平台，每年在拉新市场的预算较高，比较适合地推和网推做项目搭配，只需要完成一次动账即可结算我们上了两个版本的云闪付项目，下图展示也有更多的其它地推和网推拉新项目可…

阅读更多...

【通关选择】upload-labs通关攻略（大全）

【通关选择】upload-labs通关攻略（大全）

前提条件： 1.文件能够成功上传到服务器 2.攻击者能够知道文件的上传路径 upload-labs靶场 Pass-01（ 前端验证） 三种方法解决思路 1.禁用客户端JavaScript弹窗 2.通过burp抓包，修改后缀名 3.f12删除return filecheck&#xff0…

阅读更多...

树专题 —— 二叉搜索树和中序遍历

树专题 —— 二叉搜索树和中序遍历

大家好，我是方圆。我准备把树写成一个专题，包括二叉搜索树、前序、中序、后序遍历以及红黑树，我也想试试能不能将红黑树写好。本篇是关于二叉搜索树，也是所有后续学习的基础，其中会涉及前序、中序、后序遍历&#x…

阅读更多...

外卖系统的数据管理和隐私保护应该如何进行？

外卖系统的数据管理和隐私保护应该如何进行？

1. 数据管理外卖系统处理大量用户数据，包括个人信息、订单记录、支付信息等。以下是一些数据管理的最佳实践： 合规性与透明度：确保你的数据收集、存储和处理符合相关法规，例如GDPR（通用数据保护条例）。同…

阅读更多...

网络安全防御体系构建思路

网络安全防御体系构建思路

前言在某一天的深夜，作为安全从业人员，穿着大裤衩子，坐在门前，点燃一根烟（画面自己想象）开始思考企业如何打造自己的安全体系，虽然这不是作为月薪3k该考虑的问题，但是毕竟当初笔者…

阅读更多...

element的表单校验正常手机号码以及输入框填写“不详”的情况

element的表单校验正常手机号码以及输入框填写“不详”的情况

element的表单校验正常手机号码以及输入框填写“不详”的情况 <el-col :span"6"><el-form-item label"手机号码" prop"phoneNumber" class"grid-content bg-purple"><el-input v-model"testForm.phoneNumber&quo…

阅读更多...

Linux环境下的SVN服务器搭建并结合内网穿透实现远程连接

Linux环境下的SVN服务器搭建并结合内网穿透实现远程连接

文章目录前言1. Ubuntu安装SVN服务2. 修改配置文件2.1 修改svnserve.conf文件2.2 修改passwd文件2.3 修改authz文件 3. 启动svn服务4. 内网穿透4.1 安装cpolar内网穿透4.2 创建隧道映射本地端口 5. 测试公网访问6. 配置固定公网TCP端口地址6.1 保留一个固定的公网TCP端口地址6…

阅读更多...

第四章 Web服务器(1)

第四章 Web服务器(1)

1.www简介 Web网络服务也叫WWW(World Wide Web 全球信息广播)万维网服务，一般是指能够让用户通过浏览器访问到互联网中文档等资源的服务 Web 网络服务是一种被动访问的服务程序，即只有接收到互联网中其他主机发出的请求后才会响应，最…

阅读更多...

LINQ to SQL系列三使用DeferredLoadingEnabled，DataLoadOption指定加载选项

LINQ to SQL系列三使用DeferredLoadingEnabled，DataLoadOption指定加载选项

介绍linq to sql 的 DataContext类DeferredLoadingEnabled属性使用，以及DataLoadOptions限定加载相关表数据的LoadWith和AssociateWith方法。本文中举例用到的数据模型如下： Student和Class之间是多对一关系，Student和Course之间是多对多关系。 DataContext的DeferredLo…

阅读更多...

使用oracle虚拟机添加新硬盘

使用oracle虚拟机添加新硬盘

1、关闭运行的虚拟机后配置单击选择要配置的oracle虚拟机，单击设置–>存储—>控制器，单击添加虚拟硬盘图标。 2、配置硬盘单击“创建”，单击“下一步”，选择需要创建的虚拟硬盘大小，完成创建。完成创建后…

阅读更多...

基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖(一)

基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖(一)

熟悉项目环境 1. 苍穹外卖项目介绍1.1 项目介绍1.2 技术选型 2. 开发环境搭建2.1 前端环境2.2 后端环境搭建2.3 Git版本控制2.4 nginx反向代理和负载均衡 3.登录功能4. Swagger4.1 介绍4.2 使用步骤4.3 常用注解 1. 苍穹外卖项目介绍 1.1 项目介绍苍穹外卖是专门为餐饮企业&…

阅读更多...

SRC | CORS跨资源共享漏洞

SRC | CORS跨资源共享漏洞

CORS跨资源共享跨源资源共享 (CORS) 是一种浏览器机制，允许网页使用来自其他页面或域的资产和数据。大多数站点需要使用资源和图像来运行它们的脚本。这些嵌入式资产存在安全风险，因为这些资产可能包含病毒或允许服务器访问黑客。 CORS响应头 CORS通…

阅读更多...

C-DS二叉树_另一棵树的子树

C-DS二叉树_另一棵树的子树

Description 给你两棵二叉树tree1和tree2，检验tree1中是否包含和tree2具有相同结构和结点值的子树。如果存在，输出true；否则，输出false。 Input 第一行输入t，表示有t个测试样例。第二行首先输入n1，接着输入n1个整数，表示二叉树tree1。第三行首先输入n2，接着输入n…

阅读更多...

Keras人工智能神经网络 Classifier 分类神经网络搭建

Keras人工智能神经网络 Classifier 分类神经网络搭建

前期我们分享tensorflow以及pytorch时，分享过tensorflow以及pytorch的分类神经网络的搭建步骤，在哪里我们使用的训练集是mnist，同样Keras分类神经网络的搭建，我们同样使用mnist数据集来进行分类神经网络的搭建（有关mni…

阅读更多...

【NI-DAQmx入门】NI-DAQmx之Python

【NI-DAQmx入门】NI-DAQmx之Python

NI-DAQmx Python GitHub资源： NI-DAQmx Python 文档说明：NI-DAQmx Python Documentation — NI-DAQmx Python API 0.9 documentation nidaqmx支持 CPython 3.7和 PyPy3，需要注意的是多支持USB DAQ和PCI DAQ，cDAQ需要指定…

阅读更多...

改进的yolov5

改进的yolov5

The networkstructure of these models is constant, but the modules and con-volution kernels are scaled, which alters the complexity and sizeof each model.（这些模型的网络结构是恒定的，但模块和卷积核被缩放，这改变了每个模型的复杂…

阅读更多...

推荐文章

最新文章