七、python-PySpark篇(黑马程序猿-python学习记录)

news2025/1/12 5:02:22

1. pyspark定义

2. 下载

点击右下角版本 点击解释器设置

点击+号

搜索pyspark 选择pyspark

勾选选项 在输入框中输入

-i https://pypi.tuna.tsinghua.edu.cn/simple

点击安装软件包

提示正在安装

等一两分钟就能安装完毕

3. 获取PySpark版本号

# 导包

from pyspark import SparkConf,SparkContext

# 创建SparkConf对象

conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")

# 基于SparkConf类对象创建SparkContext对象

sc = SparkContext(conf=conf)

# 打印PySpark的运行版本

print(sc.version)

# 停止SparkContext对象的运行 (停止Spark对象)

sc.stop()

3.3.1

4. 演示pyspark加载数据

from pyspark import SparkConf,SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 通过parallelize方法将Python对象加载到Spark内 成为RDD对象

rdd1 = sc.parallelize([1, 2, 3, 4, 5])

rdd2 = sc.parallelize((1, 2, 3, 4, 5))

rdd3 = sc.parallelize("abcdefg")

rdd4 = sc.parallelize({1, 2, 3, 4, 5})

rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"})

# 如果要查看RDD里边有什么内容 需要用Collect()方法

print(rdd1.collect())

print(rdd2.collect())

print(rdd3.collect())

print(rdd4.collect())

print(rdd5.collect())

[1, 2, 3, 4, 5]

[1, 2, 3, 4, 5]

['a', 'b', 'c', 'd', 'e', 'f', 'g']

[1, 2, 3, 4, 5]

['key1', 'key2']

5. 演示pyspark读取txt文档信息

在D盘准备一个test的txt文档

from pyspark import SparkConf,SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 通过textFile方法,读取文件数据加载到Spark内,成为RDD对象

rdd = sc.textFile("D:/test.txt")

print(rdd.collect())

sc.stop()

23/01/23 23:15:35 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

['hello', 'world', 'world', '嘿嘿']

​​​​​​​6. RDD对象是什么?为什么要使用它

RDD对象称之为分布式弹性数据集,是PySpark中数据计算的载体,他可以:

  1. 提供数据存储
  2. 提供数据计算的各类方法
  3. 数据计算的方法,返回值依旧是RDD(RDD迭代计算)

后续对数据进行各类计算,都是基于RDD对象进行

​​​​​​​7. 如何输入数据到Spark(即得到RDD对象)

通过SparkContext的parallelize的成员方法,将Python数据容器转换为RDD对象

通过SparkContext的textFile成员方法,读取文本文件得到RDD对象

8. 数据计算

1. 通过map方法将全部数据乘以10

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 准备一个rdd

rdd = sc.parallelize([1,2,3,4,5])

# 通过map方法将全部数据乘以10

rdd2 = rdd.map(lambda x:x*10)

print(rdd2.collect())

sc.stop()

[10, 20, 30, 40, 50]

2. map算子概念

接受一个处理函数,可用lambda表达式快速编写

对RDD内的元素逐个处理,并返回新的RDD

3. flatMap方法

将rdd中的单词全部提取出来 解除嵌套

注意:

计算逻辑和map一样

但是比map方法多出了解除一层嵌套的功能

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 准备一个RDD

rdd = sc.parallelize(["111 222 333","444 555 666","777 888 999 000"])

# rdd中的单词全部提取出来 解除嵌套

rdd2 = rdd.flatMap(lambda x:x.split(" "))

print(rdd2.collect())

sc.stop()

['111', '222', '333', '444', '555', '666', '777', '888', '999', '000']

4. reduceByKey方法

功能:针对KV型RDD,自动按照key分组,然后根据你提供的聚合逻辑,完成组内数据(value)的聚合操作

如下案例实现了对男女两个组的分组,并且分别计算2个组的和

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 准备一个RDD

rdd = sc.parallelize([("", 99), ("",88), ("",77), ("",99), ("",66),])

# 求男生和女生两个组的成绩之和

rdd2 = rdd.reduceByKey(lambda a, b: a+b)

print(rdd2.collect())

sc.stop()

[('男', 187), ('女', 242)]

5. 练习案例1-单词计数

需求:读取txt文档信息,计算各个单词出现的次数

text.txt文档数据

hello hello

world world

啦啦 啦啦 啦啦

嘿嘿 嘿嘿 嘿嘿

代码和结果如下

# 构建执行环境入口对象

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 2.读取数据文件

rdd = sc.textFile("D:/test.txt")

# 3. 取出全部单词

word_add = rdd.flatMap(lambda x:x.split(" "))

# 4. 将所有的单词 都转成二元元组 单词为keyvalue设置成1 方便计数

word_with_one_rdd = word_add.map(lambda x:(x,1))

# 5. 分组求和

result_add = word_with_one_rdd.reduceByKey(lambda a, b:a+b)

# 6. 打印输出结果

print(result_add.collect())

sc.stop()

[('world', 2), ('啦啦', 3), ('hello', 2), ('嘿嘿', 3)]

6. filter过滤:获取想要的数据

filter算子概念:接受一个处理函数,可以用lambda快速编写

函数对RDD数据逐个处理,得到True的保留至返回值的RDD中

以下案例是:获取数组中的偶数,把奇数过滤掉

# 构建执行环境入口对象

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 准备一个rdd

rdd = sc.parallelize([1,2,3,4,5,6,7,8,9])

# RDD的数据进行过滤

rdd2 = rdd.filter(lambda num:num%2==0)

print(rdd2.collect())

sc.stop()

[2, 4, 6, 8]

7. distinct去重方法

概念:完成对RDD内数据的去重操作

# 构建执行环境入口对象

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 准备一个rdd

rdd = sc.parallelize([1,1,1,2,2,2,3,3,4,5,6,6,6])

# RDD的数据进行去重

rdd2 = rdd.distinct()

print(rdd2.collect())

sc.stop()

[1, 2, 3, 4, 5, 6]

8. sortBy排序方法

概念:接收一个处理函数,可用lambda快速编写

函数表示用来决定排序的依据

可以控制升序或降序

全局排序需要设置分区数为1

案例如下:对学生的成绩进行降序排序

第一个参数:取分数

第二个参数:设置False 说明是降序

第三个参数:设置为1

# 构建执行环境入口对象

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 准备一个rdd

rdd = sc.parallelize([('张三',99),('李四', 77),('王五', 88),('赵六', 100),('七七', 87)])

# 对结果进行排序

rdd2 = rdd.sortBy(lambda x:x[1], ascending=False, numPartitions=1)

print(rdd2.collect())

sc.stop()

[('赵六', 100), ('张三', 99), ('王五', 88), ('七七', 87), ('李四', 77)]

9. 数据输出

1. 输出为python对象

1. collect:将RDD内容转换成list

rdd.collect():返回值是一个list

2. reduce:对RDD内容进行自定义聚合

reduce算子,对RDD进行两两聚合

# 构建执行环境入口对象

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 准备一个rdd

rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10])

num = rdd.reduce(lambda a,b:a+b)

print(rdd2)

sc.stop()

55

3. take算子:取出RDD前N个元素组成list

概念:取出RDD中的前N个元素,组成list返回

# 构建执行环境入口对象

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 准备一个rdd

rdd = sc.parallelize([('张三',99),('李四', 77),('王五', 88),('赵六', 100),('七七', 87)])

# 取出rdd中前两个元素,组成list返回

rdd2 = rdd.take(2)

print(rdd2)

sc.stop()

[('张三', 99), ('李四', 77)]

4. count算子:统计RDD元素个数

# 构建执行环境入口对象

from pyspark import SparkConf,SparkContext

import os

os.environ['PYSPARK_PYTHON'] = "D:/python/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 准备一个rdd

num = sc.parallelize([('张三',99),('李四', 77),('王五', 88),('赵六', 100),('七七', 87)]).count()

print(num)

sc.stop()

5

2. 输出到文件中

saveAsTextFile算子:将RDD的数据写入到文本文件中

支持本地写出,hdfs等文件系统

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/177163.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

树,二叉树的认识

1.树概念及结构 1.1树的概念 注意:树形结构中,子树之间不能有交集,否则就不是树形结构 1.2 树的相关概念 1.3 树的表示 树结构相对线性表就比较复杂了,要存储表示起来就比较麻烦了,既然保存值域,也要保存…

(18)go-micro微服务ELK介绍

文章目录一 什么是ELK二 Beats的六种工具三 ELK系统的特点四 ELKbeats系统架构五 ELK优点六 最后一 什么是ELK ELK是三个[开源软件]的缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件,新增了一个Beats。 Elasticsearch …

几种觉排序优劣

冒泡排序 比较相邻的元素。如果第一个比第二个大,就交换他们两个。 对每一对相邻元素做同样的工作,从开始第一对到结尾的最后一对。在这一点,最后的元素应该会是最大的数。 针对所有的元素重复以上的步骤,除了最后一个。 持…

23. 异常处理机制

1. 异常 即便 python 程序的语法是正确的,在运行它的时候,也有可能发生错误。运行期检测到的错误被称为异常。 # int不能与str相加, 触发异常 print(22) # 0 不能作为除数, 触发异常 print(1/0) # sum未定义, 触发异常 print(num)异常以不同的类型出现…

【JavaSE专栏4】关键字、标识符和命名规范

作者主页:Designer 小郑 作者简介:Java全栈软件工程师一枚,来自浙江宁波,负责开发管理公司OA项目,专注软件前后端开发(Vue、SpringBoot和微信小程序)、系统定制、远程技术指导。CSDN学院、蓝桥云…

k8s部署elk+filebeat。springCloud集成elk+filebeat+kafka+zipkin实现多个服务日志链路追踪聚合到es

一、目的 如今2023了,大多数javaweb架构都是springboot微服务,一个前端功能请求后台可能是多个不同的服务共同协做完成的。例如用户下单功能,js转发到后台网关gateway服务,然后到鉴权spring-sercurity服务,然后到业务…

mysql数据库管理-GTID详解

一、GTID概述 1 sql线程执行的事件也可以通过log_slave_updates系统变量来决定是否写入自己的二进制文件中,这是可以用于级联复制的场景。 GTID是MYSQL5.6新增的特性,GTID(Global Transaction Identifier)全称为全局事务标示符…

17种编程语言实现排序算法-计数排序

开源地址 https://gitee.com/lblbc/simple-works/tree/master/sort/ 覆盖语言:C、C、C#、Java、Kotlin、Dart、Go、JavaScript(JS)、TypeScript(TS)、ArkTS、swift、PHP。 覆盖平台:安卓(Java、Kotlin)、iOS(SwiftUI)、Flutter(Dart)、Window桌面(C#)、…

力扣sql简单篇练习(五)

力扣sql简单篇练习(五) 1 游戏玩法分析 I 1.1 题目内容 1.1.1 基本题目信息 1.1.2 示例输入输出 1.2 示例sql语句 # 第一次登录平台的日期就代表是时间靠前的日期 # 窗口函数是Mysql8版本后才能使用 SELECT e.player_id,e.event_date first_login FROM (SELECT player_id,e…

五、python-地图可视化篇(黑马程序猿-python学习记录)

黑马程序猿的python学习视频:https://www.bilibili.com/video/BV1qW4y1a7fU/ 目录 1. 基础地图 2. 设置分段 1. 基础地图 from pyecharts.charts import Map # 准备地图对象 map Map() # 准备数据 data[ ("北京",99), ("上海",199), ("…

17种编程语言实现排序算法-堆排序

开源地址 https://gitee.com/lblbc/simple-works/tree/master/sort/ 覆盖语言:C、C、C#、Java、Kotlin、Dart、Go、JavaScript(JS)、TypeScript(TS)、ArkTS、swift、PHP。 覆盖平台:安卓(Java、Kotlin)、iOS(SwiftUI)、Flutter(Dart)、Window桌面(C#)、…

Maplab 2.0发布:多传感器融合的SLAM框架,支持多机器人、语义回环检测功能

摘要 将多种传感器和深度学习集成到SLAM系统中是当前研究的重要领域。多模态是一块跳板,既可以在挑战场景下增强鲁棒性,又可以解决不同传感器配置的多机系统建图问题。Maplab 2.0提供了一个更加通用的开源平台,最初的Maplab用于创建和管理视…

5-3中央处理器-数据通路的功能和基本结构

文章目录一.功能二.基本结构三.数据流向(一)内部单总线方式1.寄存器之间的数据传送2.主存与CPU之间的数据传送3.执行算术或逻辑运算(二)专用数据通路方式一.功能 数据在功能部件之间传送的路径称为数据通路。路径上的部件称为数据…

合宙ESP32C3上手使用

概述经典款是有ch343 ttl 转usb 需要安装驱动 GPIO20/21新款使用usb 直连不需要驱动 USB GPIO18/19ESP32C3 是ESP-RISC-V CPU 是基于 RISC-V ISA 的 32 位内核,包括基本整数 (I),乘法/除法 (M) 和压缩 (C) 标准扩展。ESP-RISC-V CPU 内核具有 4 级有序标…

【蓝桥杯】简单数论1——GCDLCM

GCD 最大公约数Greatest Common Divisor(GCD):整数a和b的GCD是指能同时整除a和b的最大整数,记为gcd(a,b)。由于-a的因子和a的因子相同,因此gcd(a, b) gcd(al, |bl)。编码时只关注正整数的最大公约数。 GCD性质 (1) gcd(a, b) gcd(a, ab) …

一、python准备工作篇(黑马程序猿-python学习记录)

黑马程序猿的python学习视频:https://www.bilibili.com/video/BV1qW4y1a7fU/ 目录 1. python官网 2. 检查是否安装完毕 3. pycharm官网 5. phcharm更换主题 6. 新建第一个python文件 7. pycharm字体大小设置 8. 设置快捷键 设置字体大小 ​​​​​​​9. 安装中文…

Python机器学习:假设检验

方差分析这部分内容还不是很理解,在这里先做一个笔记,以后有时间再回过头来改一改。 用到的数据集→\rightarrow→Iris 什么是假设检验? 假设检验就是利用样本数据对某个事先做出的统计假设,再按照某种方法去检验,最后…

CSS样式基础内容2

目录 Emmet语法 快速格式化代码 CSS的复合选择器 后代选择器 子选择器 并集选择器 伪类选择器 链接伪类选择器 focus伪类选择器 CSS元素显示模式 块元素 行内元素 行内块元素 元素显示模式转换 案例-简洁版侧边栏 单行文字垂直居中 CSS的背景 背景图片 方位名词…

【蓝桥云课】最大公约数与最小公倍数

一、最大公约数gcd(a,b) 引例: a24,其因子有1、2、3、4、6、8、12、24 b15,其因子有1、3、5、15 最大公约数gcd(a,b)gcd(24,15)3 欧几里得辗转算法: a max(a,b); b min(a,b); while(b>0){t a%b;a b;b t; }运算过程&…

postgresql源码学习(53)—— vacuum②-lazy vacuum之heap_vacuum_rel函数

一、 table_relation_vacuum函数 1. 函数定义 前篇最后(https://blog.csdn.net/Hehuyi_In/article/details/128749517),我们提到了table_relation_vacuum函数(tableam.h文件),本篇继续学习。 如前面所说&a…