Pyspark综合案例（pyspark安装和java运行环境配置）

Pyspark综合案例（pyspark安装和java运行环境配置）

news2026/2/11 16:46:54

一、RDD对象

PySpark支持多种数据的输入，在输入完成后，都会得到一个：RDD类的对象

RDD全称为：弹性分布式数据集（Resilient Distributed Datasets）

PySpark针对数据的处理，都是以RDD对象作为载体，即：

数据存储在RDD内
各类数据的计算方法，也都是RDD的成员方法
RDD的数据计算方法，返回值依旧是RDD对象

PySpark的编程模型可以归纳为：准备数据到RDD -> RDD迭代计算 -> RDD导出为list、文本文件等，即：源数据 -> RDD -> 结果数据

二、Python数据容器转RDD对象

PySpark支持通过SparkContext对象的parallelize成员方法，将：list、tuple、set、dict、str转换为PySpark的RDD对象

PySpark也支持通过SparkContext入口对象，来读取文件，来构建出RDD对象。

代码案例：

"""
#通过PySpark代码加载数据，即数据输入
"""
from pyspark import SparkConf,SparkContext
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf = conf)

# 通过parallelize方法将Python对象加载到Spark内，成为RDD对象
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize((1, 2, 3, 4, 5))
rdd3 = sc.parallelize("abcdefg")
rdd4 = sc.parallelize({1, 2, 3, 4, 5})
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"})

# 如果要查看RDD里面有什么内容，需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

打印结果：

pyspark安装方法：

第一种方法时命令行安装：pip install pyspark；

第二种方式是直接在Pycharm进行安装，如下图所示；

安装完成后，运行代码出现缺少Java环境依赖，需要配置java运行环境才可以运行Pyspark导入报对象，配置环境的过程可以参考博客教程：

java 环境配置(详细教程)_java环境配置_多加点辣也没关系的博客-CSDN博客

JDK 8.0 的安装包已上传资源报，希望可以帮助到大家！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1003584.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Python灰帽编程——初识Python上

Python灰帽编程——初识Python上

1. Python 简介常用安全工具语言示例perljoomscan whatwebrubymetasploit-frameworkpythonsqlmap pocsuite3gogoby 1.1 Python 起源 1.1.1 语言的作者贵铎范罗萨姆（Guido van Rossum）荷兰人于1989 年圣诞节始创了python。大神就是大神&#xff0…

阅读更多...

TypeScript 类

TypeScript 类

类在面向对象编程中起着创建对象的蓝图，描述所创建的对象共同的属性和方法的作用。创建类与JS差不多，通过 Class 关键字来定义一个类： class Greeter {// 静态属性static cname: string "Greeter";// 成员属性greeting: strin…

阅读更多...

音乐格式转换mp3怎么转？跟着步骤操作一遍

音乐格式转换mp3怎么转？跟着步骤操作一遍

音乐格式转换mp3怎么转？mp3，一种音频数据压缩格式，由于其极具优势的文件尺寸小和高质量音效，自诞生之日起就占据了主流音乐格式的头把交椅，并且至今仍然受到用户的青睐，稳居音乐领域的霸主地位。在我们繁忙…

阅读更多...

Postman接口压力测试 ---- Tests使用（断言）

Postman接口压力测试 ---- Tests使用（断言）

所谓断言，主要用于测试返回的数据结果进行匹配判断，匹配成功返回PASS，失败返回FAIL。下图方法一，直接点击右侧例子函数，会自动生成出现在左侧窗口脚本，只需修改数据即可。方法二：直接自己写脚…

阅读更多...

前端实现页面通过canvas添加全屏水印

前端实现页面通过canvas添加全屏水印

写在前面，博主是个在北京打拼的码农，从事前端工作5年了，做过十多个大大小小不同类型的项目，最近心血来潮在这儿写点东西，欢迎大家多多指教。对于文章中出现的任何错误请大家批评指出，一定及时修改。有任何…

阅读更多...

【STM32】片上ADC的初步使用

【STM32】片上ADC的初步使用

基于stm32f103系列基于《零死角玩转 STM32F103—指南者》 ADC简介 stm32f103上的ADC 数量：3 精度:12bit(4096) 通道：ADC1，ADC2均有16个通道，ADC3有8个功能: 转换结束、注入转换结束和发生模拟看门狗事件时产生中断。 …

阅读更多...

Git入门图文教程（深入浅出，详细了解Git，以及操作）

Git入门图文教程（深入浅出，详细了解Git，以及操作）

01、认识一下Git！—简介 Git是当前最先进、最主流的分布式版本控制系统，免费、开源！核心能力就是版本控制。再具体一点，就是面向代码文件的版本控制，代码的任何修改历史都会被记录管理起来，意味着可以恢复…

阅读更多...

HCS 中的一些概念

HCS 中的一些概念

一、HCS功能层 1、基础设施：服务器、存储、网络、防火墙…… 2、资源池：Fusion Sphere OpenStack资源池、虚拟化资源池、裸金属服务器池、块存储池、文件存储池、网络资源池灾备资源池…… 3、管理域：ManageOne提供多个数据中心的统一管理和调…

阅读更多...

解决：华为ensp软件中AR和AC，AP设备无法启动报错“40”的问题

解决：华为ensp软件中AR和AC，AP设备无法启动报错“40”的问题

AR为路由器设备，AC，AP为无线局域网设备。报错信息报错原因以及解决方案： 1.系统虚拟化hyper-v正在运行计算机安装过virtualBox,Vmvere之类的虚拟化软件，默认系统虚拟化安全性属于运行状态。解决方案： 1.搜索cm…

阅读更多...

数字展厅是什么，数字展厅有哪些优势？

数字展厅是什么，数字展厅有哪些优势？

引言： 随着数字化时代的到来，宣传领域也发生了巨大的变革。数字展厅是一种全新的宣传工具，正在逐渐崭露头角，作为现代宣传领域的一项重要创新，在迅速改变传统展厅的面貌。一．什么是数字展厅？ …

阅读更多...

LinkedHashMap源码分析

LinkedHashMap源码分析

特性在 HashMap 基础上维护一条双向链表支持遍历时会按照插入顺序有序进行迭代。LinkedHashMap 的迭代顺序是和插入顺序一致的,这一点是 HashMap 所不具备的。。支持按照元素访问顺序排序,适用于封装 LRU 缓存工具。因为内部使用双向链表维护各个节点，所以遍历…

阅读更多...

北峰北斗短报文在应急通信的应用

北峰北斗短报文在应急通信的应用

随着社会的发展，自然灾害、交通事故等突发事件的频繁发生，让人们知道通信设备的可靠性尤为重要。北斗短报文应急通信作为一种新型的通信方式，具有较高的可靠性和应用价值。尤其是在灾区移动通讯中断，电力中断或移动通信无法覆盖北…

阅读更多...

React 之 Hooks解析

React 之 Hooks解析

一、概念 1. class组件的优势 class组件可以定义自己的state，用来保存组件自己内部的状态函数式组件不可以，因为函数每次调用都会产生新的临时变量class组件有自己的生命周期，我们可以在对应的生命周期中完成自己的逻辑，比如在…

阅读更多...

使用Postman拦截浏览器请求

使用Postman拦截浏览器请求

项目上线之后，难免会有BUG。在出现问题的时候，我们可能需要获取前端页面发送请求的数据，然后在测试环境发送相同的数据将问题复现。手动构建数据是挺麻烦的一件事，所以我们可以借助Postman在浏览器上的插件帮助拦截请求&#xff0…

阅读更多...

2023最新PDF阅读器评测

2023最新PDF阅读器评测

评测说明本人程序员，平时阅读为主。以下为主观实际体验感受为主。软件选择以无广、可免费使用为基本要求。Adobe Reader 自不必说。体验软件 SumatraPDF 特点：简洁。开源免费的小个子软件，当前最新安装包只有7M，启动速度很…

阅读更多...

【初阶算法4】——归并排序的详解，及其归并排序的扩展

【初阶算法4】——归并排序的详解，及其归并排序的扩展

目录前言学习目标： 学习内容： 一、介绍归并排序 1.1 归并排序的思路 1.2 归并排序的代码 1.2.1 mergesort函数部分 1.2.2 process函数部分 1.2.3 merge函数部分二、AC两道经典的OJ题目题目一：逆序对问题题目二&#xff1…

阅读更多...

笔记本选购指南

笔记本选购指南

大学生笔记本电脑选购指南文章目录笔记本分类指标排行了解自身需求理工科文科艺术总结参考指标品牌CPU显卡屏幕其他购买渠道推荐游戏本Redmi G 锐龙版联想G5000惠普光影精灵9天选4锐龙版联想R7000P暗影精灵9联想拯救者R9000P 全能本华硕无畏PRO15联想小新Pro14 2023 轻薄本…

阅读更多...

react ant ice3 实现点击一级菜单自动打开它下面最深的第一个子菜单

react ant ice3 实现点击一级菜单自动打开它下面最深的第一个子菜单

1.问题默认的如果没有你的菜单结构是这样的： [{children: [{name: "通用配置"parentId: "1744857774620672"path: "basic"}],name: "系统管理"parentId: "-1"path: "system"} ]可以看到每层菜单的p…

阅读更多...

期权投资的优势有哪些方面？

期权投资的优势有哪些方面？

随着金融市场的不断演变，越来越多的金融衍生品出现在人们的视线中，特别是上证50ETF期权可以做空T0的交易模式吸引了越来越多的朋友，那么期权投资的优势有哪些方面？ 期权是投资市场中一个非常重要的投资方式，期权投资能…

阅读更多...

SOLIDWORKS装配体如何使用全局变量

SOLIDWORKS装配体如何使用全局变量

客户痛点：随着人力资源价格的增长，设计的时间需要减少时间，提高设计效率。数据问题：以前单个数据都需要建立单独的数据结构，装配体的模型都要重新建立。需要解决的问题：能够快速地完成3D模型及装配体的…

阅读更多...

推荐文章

最新文章