pyspark

news2025/7/14 16:45:07

连接命令：

pyspark --master spark://node1:7077

一个application 大任务可以分解成多个小任务 jobs，一个job又可以分解成多个 stages 阶段，

一个stage又可以分解成多个tasks（可以认为是两个线程）

standalone Zookeeper 高可用HA，集群中存在多个master，但最先注册的成为active，其它是standby，集群包含Worker、Driver、Application

Spark on Yarn ：

master由resource manager 担任

work由node manager担任

Driver在yarn容器的内部或客户端线程中，executors也在yarn容器内，sparkContext入口环境对象是有driver构建的，

spark on yarn的两种部署模式：cluster模式【driver在yarn容器内，通讯耗损低，运行效率高】，client模式【driver在spark-submit提交的节点上，日志在客户端，调试方便】

需要：

spark客户端工具:如 spark-submit

启动命令： pyspark --master yarn

------------------------------------------------------------------------------

sparksql on hive

1.启动sparkthriftserver

./start-thriftserver.sh --hiveconf hive.server2.thrift.port=10000 --master yarn --driver-class-path /data/spark-2.2.0-bin-hadoop2.7/jars/mysql-connector-java-5.1.43-bin.jar --executor-memory 5g --total-executor-cores 5

启动sparkthriftserver后，后台默认会执行spark-sql命令，实际上是用spark-submit向yarn提交一个任务。这样就会在yarn的8088页面任务栏中起一个常驻任务，用来执行spark sql。

2、连接spark

./beeline -u jdbc:hive2://172.168.108.6:10001 -n root

3、这里的sql可以在8088页面看到执行过程

----------------------------------------------------------------------------

wordcount pyspark 实现：

result = sc.textFile("hdfs://text.txt").flatMap(lambda line : line.split(" ")).map(lambda x :(x,1)).reduceByKey(lambda x,y : a+b).collect()

print(result) --包括前面的collect（）是Driver运行的

Python on Spark 执行原理

RDD 弹性-分区可以增删和硬、内存

特性：

1.分区 --物理实体分区组合成-》逻辑对象RDD

2.计算方法作用在每个分区上

3.一系列依赖关系-依赖链条-RDD血缘关系

4.K-v型的RDD可以有分区器（涉及shuffle）-默认分区-hash分区规则

5.分区规划尽量靠近数据所在的服务器

SparkContext 是操作RDD的上下文

SparkSession 是升级版，可以控制DF和DS

sc.parallelize() 创建RDD，本地转向分布式

glom的作用是将同一个分区里的元素合并到一个array里，显示元素所在的分区

map是一个输入元素对应一个输出元素

FlatMap是一个输入元素对应多个输出元素

wholetextfile 小文件读取 API 优化

算子就是作用于分布式对象上的方法

转换算子：返回值是RDD， lazy 加载执行计划

action算子：指令，返回值根据RDD中元素的类型决定

res1=rdd.count() print(res1)

collect（）使用时需考虑Driver内存的大小

fold带有初始值的聚合，分区内和分区间都会基于初始值进行聚合 fold（10，lamdba x,y:x+y）

故分区内聚合的结果进行分区间聚合是以初始值为基础的

first take

top（N）对RDD元素进行降序排序，取最大的前N个，对象内置的比较函数

takeSample（true【允许重复采样，不是内容的重复】，抽样个数，随机数种子） collect可能把Driver撑爆，使用其代替

takeOrdered（数据的个数，对排序的数据进行更改）正反向排序

foreach（）执行我提供的逻辑（map），但没有返回值

saveAsTextFile 写出数据，本地或HDFS ，有多少个分区，结果就有多少个文件，与Driver无关，看存放的数据的executors直接写出。

mapPartitions一次操作一个分区，意味着读取的次数是分区数，明显比map按元素数读取次数要少，网络IO小，分区间

foreachPartition

partitionBy 自定义分区操作（重新分区后有几个分区，自定义分区规则，函数）

repartition（N）=coalesce（N，shuffle=true）重新分区，只修改分区数

无状态可并行

有状态串行

广播变量：序列化+网络传输

一个executor（进程）可以托管多个分区（线程）

当一个变量在一个executor接受过后，后面其它分区要就共享

使用：

b=sc.broadcast(变量)

v = b.value #取出来

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/736491.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

pyspark

RDD 弹性-分区可以增删和硬、内存

相关文章

使用Gradio库创建交互式滑块组件

QT DAY3

如何用Stable Diffusion模型生成个人专属创意名片？

光镊背后的电磁理论 | 涡旋电磁波在无线通信系统中的应用

持之以恒，安之有度 | 持安科技2周年！

经典轻量级神经网络(3)ShuffleNet V1及其在Fashion-MNIST数据集上的应用

开发uniapp苹果app，苹果签名证书的创建方法

Java小白的学习之路——day12

你真的了解JS垃圾回收机制吗？

视频转音频MP3格式怎么做？教你几种转换小妙招

SpringBoot项目多模块打包部署Docker实战

C#（五十八）之C#List

Maven工程分模块开发讲解及入门案例

开心档之CSS 测验

OpenCV 入门教程：寻找和绘制轮廓

「2024」预备研究生mem-行程问题

LeetCode[75]颜色分类

【前端面试专栏】用户输入网址到页面返回都发生了什么?

软件安全测试流程与方法分享（下）

linux 信号原理信号处理设置signal, 信号发送kill，信号等待sigsuspend，信号阻塞sigprocmask,一网打尽信号使用