Pyspark综合案例(pyspark安装和java运行环境配置)

news2024/10/6 2:32:21

一、RDD对象

PySpark支持多种数据的输入,在输入完成后,都会得到一个:RDD类的对象

RDD全称为:弹性分布式数据集(Resilient Distributed Datasets

PySpark针对数据的处理,都是以RDD对象作为载体,即:

  • 数据存储在RDD
  • 各类数据的计算方法,也都是RDD的成员方法
  • RDD的数据计算方法,返回值依旧是RDD对象

        PySpark的编程模型可以归纳为:准备数据到RDD -> RDD迭代计算 -> RDD导出为list、文本文件等,即:源数据 -> RDD -> 结果数据

二、Python数据容器转RDD对象

        PySpark支持通过SparkContext对象的parallelize成员方法,将:list、tuple、set、dict、str转换为PySparkRDD对象

         PySpark也支持通过SparkContext入口对象,来读取文件,来构建出RDD对象。

代码案例:

"""
#通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf = conf)

# 通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize((1, 2, 3, 4, 5))
rdd3 = sc.parallelize("abcdefg")
rdd4 = sc.parallelize({1, 2, 3, 4, 5})
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"})

# 如果要查看RDD里面有什么内容,需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

打印结果:

pyspark安装方法 :

第一种方法时命令行安装:pip install pyspark;

第二种方式是直接在Pycharm进行安装,如下图所示;

        安装完成后,运行代码出现缺少Java环境依赖,需要配置java运行环境才可以运行Pyspark导入报对象,配置环境的过程可以参考博客教程:

java 环境配置(详细教程)_java环境配置_多加点辣也没关系的博客-CSDN博客

JDK 8.0 的安装包已上传资源报,希望可以帮助到大家!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1003584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python灰帽编程——初识Python上

1. Python 简介 常用安全工具语言示例perljoomscan whatwebrubymetasploit-frameworkpythonsqlmap pocsuite3gogoby 1.1 Python 起源 1.1.1 语言的作者 贵铎范罗萨姆(Guido van Rossum)荷兰人于1989 年圣诞节始创了python。 大神就是大神&#xff0…

TypeScript 类

类在面向对象编程中起着创建对象的蓝图,描述所创建的对象共同的属性和方法的作用。 创建类 与JS差不多,通过 Class 关键字来定义一个类: class Greeter {// 静态属性static cname: string "Greeter";// 成员属性greeting: strin…

音乐格式转换mp3怎么转?跟着步骤操作一遍

音乐格式转换mp3怎么转?mp3,一种音频数据压缩格式,由于其极具优势的文件尺寸小和高质量音效,自诞生之日起就占据了主流音乐格式的头把交椅,并且至今仍然受到用户的青睐,稳居音乐领域的霸主地位。在我们繁忙…

Postman接口压力测试 ---- Tests使用(断言)

所谓断言,主要用于测试返回的数据结果进行匹配判断,匹配成功返回PASS,失败返回FAIL。 下图方法一,直接点击右侧例子函数,会自动生成出现在左侧窗口脚本,只需修改数据即可。 方法二:直接自己写脚…

前端实现页面通过canvas添加全屏水印

写在前面,博主是个在北京打拼的码农,从事前端工作5年了,做过十多个大大小小不同类型的项目,最近心血来潮在这儿写点东西,欢迎大家多多指教。 对于文章中出现的任何错误请大家批评指出,一定及时修改。有任何…

【STM32】片上ADC的初步使用

基于stm32f103系列 基于《零死角玩转 STM32F103—指南者》 ADC简介 stm32f103上的ADC 数量:3 精度:12bit(4096) 通道:ADC1,ADC2均有16个通道,ADC3有8个 功能:   转换结束、注入转换结束和发生模拟看门狗事件时产生中断。   …

Git入门图文教程(深入浅出,详细了解Git,以及操作)

01、认识一下Git!—简介 Git是当前最先进、最主流的分布式版本控制系统,免费、开源!核心能力就是版本控制。再具体一点,就是面向代码文件的版本控制,代码的任何修改历史都会被记录管理起来,意味着可以恢复…

HCS 中的一些概念

一、HCS功能层 1、基础设施:服务器、存储、网络、防火墙…… 2、资源池:Fusion Sphere OpenStack资源池、虚拟化资源池、裸金属服务器池、块存储池、文件存储池、网络资源池灾备资源池…… 3、管理域:ManageOne提供多个数据中心的统一管理和调…

解决:华为ensp软件中AR和AC,AP设备无法启动报错“40”的问题

AR为路由器设备,AC,AP为无线局域网设备。 报错信息 报错原因以及解决方案: 1.系统虚拟化hyper-v正在运行 计算机安装过virtualBox,Vmvere之类的虚拟化软件,默认系统虚拟化安全性属于运行状态。 解决方案: 1.搜索cm…

数字展厅是什么,数字展厅有哪些优势?

引言: 随着数字化时代的到来,宣传领域也发生了巨大的变革。数字展厅是一种全新的宣传工具,正在逐渐崭露头角,作为现代宣传领域的一项重要创新,在迅速改变传统展厅的面貌。 一.什么是数字展厅? …

LinkedHashMap源码分析

特性 在 HashMap 基础上维护一条双向链表 支持遍历时会按照插入顺序有序进行迭代。LinkedHashMap 的迭代顺序是和插入顺序一致的,这一点是 HashMap 所不具备的。 。支持按照元素访问顺序排序,适用于封装 LRU 缓存工具。 因为内部使用双向链表维护各个节点,所以遍历…

北峰北斗短报文在应急通信的应用

随着社会的发展,自然灾害、交通事故等突发事件的频繁发生,让人们知道通信设备的可靠性尤为重要。北斗短报文应急通信作为一种新型的通信方式,具有较高的可靠性和应用价值。尤其是在灾区移动通讯中断,电力中断或移动通信无法覆盖北…

React 之 Hooks解析

一、概念 1. class组件的优势 class组件可以定义自己的state,用来保存组件自己内部的状态 函数式组件不可以,因为函数每次调用都会产生新的临时变量class组件有自己的生命周期,我们可以在对应的生命周期中完成自己的逻辑,比如在…

使用Postman拦截浏览器请求

项目上线之后,难免会有BUG。在出现问题的时候,我们可能需要获取前端页面发送请求的数据,然后在测试环境发送相同的数据将问题复现。手动构建数据是挺麻烦的一件事,所以我们可以借助Postman在浏览器上的插件帮助拦截请求&#xff0…

2023最新PDF阅读器评测

评测说明 本人程序员,平时阅读为主。以下为主观实际体验感受为主。 软件选择 以无广、可免费使用为基本要求。Adobe Reader 自不必说。 体验软件 SumatraPDF 特点:简洁。开源免费的小个子软件,当前最新安装包只有7M,启动速度很…

【初阶算法4】——归并排序的详解,及其归并排序的扩展

目录 前言 学习目标: 学习内容: 一、介绍归并排序 1.1 归并排序的思路 1.2 归并排序的代码 1.2.1 mergesort函数部分 1.2.2 process函数部分 1.2.3 merge函数部分 二、AC两道经典的OJ题目 题目一:逆序对问题 题目二&#xff1…

笔记本选购指南

大学生笔记本电脑选购指南 文章目录 笔记本分类指标排行 了解自身需求理工科文科艺术总结 参考指标品牌CPU显卡屏幕其他 购买渠道推荐游戏本Redmi G 锐龙版联想G5000惠普光影精灵9天选4锐龙版联想R7000P暗影精灵9联想拯救者R9000P 全能本华硕无畏PRO15联想小新Pro14 2023 轻薄本…

react ant ice3 实现点击一级菜单自动打开它下面最深的第一个子菜单

1.问题 默认的如果没有你的菜单结构是这样的: [{children: [{name: "通用配置"parentId: "1744857774620672"path: "basic"}],name: "系统管理"parentId: "-1"path: "system"} ]可以看到每层菜单的p…

期权投资的优势有哪些方面?

随着金融市场的不断演变,越来越多的金融衍生品出现在人们的视线中,特别是上证50ETF期权可以做空T0的交易模式吸引了越来越多的朋友,那么期权投资的优势有哪些方面? 期权是投资市场中一个非常重要的投资方式,期权投资能…

SOLIDWORKS装配体如何使用全局变量

客户痛点:随着人力资源价格的增长,设计的时间需要减少时间,提高设计效率。 数据问题:以前单个数据都需要建立单独的数据结构,装配体的模型都要重新建立。 需要解决的问题:能够快速地完成3D模型及装配体的…