spark==windows启动spark集群

news2024/11/7 22:40:49

下载hadoop3.0.0

https://archive.apache.org/dist/hadoop/core/hadoop-3.0.0/

下载spark3.5.3

Index of /dist/spark/spark-3.5.0

添加环境变量

HADOOP_HOME

SPARK_HOME

PATH中添加%HADOOP_HOME%\bin,%HADOOP_HOME%\sbin,

%SPARK_HOME%\bin,%SPARK_HOME%\sbin,

启动master

bin\spark-class org.apache.spark.deploy.master.Master

启动worker

bin\spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

有可能需要将localhost换成主机名

查看master UI

localhost:8080

安装python3.10

创建虚拟环境安装pyspark,

如果pip install pyspark报错了,就直接拷贝spark里自带的

将spark-3.5.3-bin-hadoop3\python\pyspark拷贝到python项目所用的解释器的LIB里

基于python3.10

编写测试代码

提交到集群执行

# Configure Python interpreter for PySpark
import os
import time

from pyspark.sql import SparkSession

os.environ['PYSPARK_PYTHON'] = "python"

if __name__ == '__main__':
    # Initialize SparkSession
    spark = SparkSession.builder.appName("Demo").master('spark://coderun:7077').getOrCreate()
    spark.sparkContext.setLogLevel("DEBUG")

    # Create sample data
    data = [
        ("Zhang San", 16, 85, 90, 78, "Beijing"),
        ("Zhang San", 16, 85, 90, 78, "Beijing"),
        ("Li Si", 17, 88, 76, 92, "Shanghai"),
        ("Wang Wu", 15, 95, 89, 84, "Guangzhou"),
        ("Wang Wu", 156, 95, 89, 84, "Guangzhou"),
        ("Wang Wu", 158, 95, 89, 84, "Guangzhou")
    ]

    # Define DataFrame column names
    columns = ["Name", "Age", "Chinese", "Math", "English", "Home Address"]

    # Create DataFrame
    df = spark.createDataFrame(data, columns)

    # Show original DataFrame
    print("Original DataFrame:")
    # df.show()

    # Register DataFrame as a temporary view
    df.createOrReplaceTempView("students")

    # Use Spark SQL to filter students with age greater than 15
    result_df = spark.sql("SELECT name,sum(Age) FROM students WHERE Age > 15 group by name ")

    # Show transformed DataFrame
    print("Transformed DataFrame ")
    result_df.show()

    # time.sleep(200)

    # spark.stop()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2229487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(实战)WebApi第10讲:Swagger配置、RESTful与路由重载

一、Swagger配置 1、导入SwashBuckle.AspNetCore包 2、在.NET Core 5框架里的startup.cs文件里配置swagger 3、在.NET Core 6框架里的Program.cs文件里配置swagger 二、RESTful风格:路由重载,HttpGet()括号中加参数 (1)原则&…

【春秋云镜】CVE-2023-27179

CVE-2023-27179 CVE-2023-27179 是一个影响 Apache Doris 的漏洞。Apache Doris 是一款用于交互式分析的高性能数据库,特别适用于处理大规模的结构化数据。该漏洞属于权限提升漏洞,允许未授权用户以管理员身份执行敏感操作。 具体细节 漏洞类型&#…

chrome编辑替换js文件的图文教程

一、找到要修改替换的js文件 二、将文件保存到本地 三、在本地新建一个文件 路径最好跟你要替换的文件的路径保持一致, 四、选中js文件替换 回到原文件右击选择保存并覆盖 点击完保存并覆盖之后回到替换的新文件中,在自动生成的webpack文件中对文件进…

​CSS之三

CSS三大特性 CSS 有三个非常重要的三个特性:层圣性、继承性、优先级 层叠性 相同选择器给设置相同的样式,此时一个样式就会覆盖(层曼)另一个冲突的样式。层曼性主要解决样式冲突的问题 层叠性原则: - 样式冲突,遵循的原则是就近原则,哪个…

Generating /run/initramfs/rdsosreport.txt

Linux中遇到Generating /run/initramfs/rdsosreport.txt 第一步:首先输入 ls /dev/mapper 第二步:输入 xfs_repair /dev/mapper/centos-root -L 第三步:重启reboot 不说原因了,直接上解决方式: 第一步:首先…

Spark,Anconda在虚拟机实现本地模式部署

如果想要了解模式的概念部分,以及作用请看: Spark学习-CSDN博客 一.在虚拟机安装spark cd /opt/modules 把Anconda和Spark安装包拖拽进去: 解压: tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs 重命名&#x…

云原生开源开发者沙龙丨AI 应用工程化专场杭州站邀您参会

云原生开源开发者沙龙 AI 原生应用架构专场,邀您一起交流,探索 AI 原生应用的工程化落地! 活动简介 AI 驱动的应用程序开发、部署和运维,给应用带来了新的生命力和想象空间。但大部分开发者对 AI 应用的编程框架、可观测体系、网…

OpenCV基本操作(python开发)——(5)轮廓处理

OpenCV基本操作(python开发)——(1) 读取图像、保存图像 OpenCV基本操作(python开发)——(2)图像色彩操作 OpenCV基本操作(python开发)——(3&…

常用的查询mysql配置命令

1. 查看数据库版本信息 SELECT VERSION();2. 查看数据库所有变量和值 SHOW VARIABLES3. 查询数据库是否区分大小写 SHOW VARIABLES LIKE lower_case_table_names;查询数据库是否支持大小写lower_case_table_names 被设置为 1,即表名不区分大小写。如果值为 1&…

企业数据泄露安全演练(分享)

该文章主要分享作者在XXX企业内部做的一次【数据泄露安全演练】,涉及演练背景、目的、演练流程、剧本设定、预期行为、结果等等。 以下是完整的演练方案,有不足的地方希望大家指出!! 需要原版方案电子版的可以联系作者获取。 演练…

品牌控价的执行技巧

在当今竞争激烈的商业世界中,品牌的发展犹如在波涛汹涌的大海中航行,而价格管控,无疑是那保驾护航的关键舵手,简称控价。这一举措,绝非仅仅着眼于品牌自身的狭隘利益,实则肩负着更为深远的使命,…

一文详解精细化工行业持续增长的策略与路径解析

随着全球经济的快速发展和科技的不断进步,精细化工行业正面临着前所未有的挑战和机遇。在这个过程中,数字化转型已成为推动行业持续增长的关键因素。精细化工行业,作为化学工业的一个重要分支,其产品广泛应用于医药、农药、涂料、…

akshare股票涨跌幅自定义范围查询:A股、港股、美股

参看:https://stock.hexun.com/2024-10-31/215251914.html 涨幅计算公式:(当前价格 - 上一个交易日收盘价) 上一个交易日收盘价 100% 。 跌幅计算公式:(上一个交易日收盘价 - 当前价格) 上一个…

基于Pycharm和Django模型技术的数据迁移

1.配置数据库 在trip_server/settings.py中修改配置: 其格式可访问官网:Settings | Django documentation | Django 1.1 配置数据库 文件地址:trip_server/settings.py 配置前需要创建(NaviCat)个人数据库 "…

linux命令行的艺术

文章目录 前言基础日常使用文件及数据处理系统调试单行脚本冷门但有用仅限 OS X 系统仅限 Windows 系统在 Windows 下获取 Unix 工具实用 Windows 命令行工具Cygwin 技巧 更多资源免责声明 熟练使用命令行是一种常常被忽视,或被认为难以掌握的技能,但实际…

C++学习路线(数据库部分)四

表的插入 插入数据记录是常见的数据操作,可以显示向表中增加的新的数据记录。在MySQL中可以通过“INSERT INTO”语句来实现插入数据记录,该SQL语句可以通过如下4种方式使用:插入完整数据记录、插入部分数据记录、插入多条数据记录和插入JSON…

供应商图纸外发:如何做到既安全又高效?

供应商跟合作伙伴、客户之间会涉及到图纸外发的场景,这是一个涉及数据安全、效率及合规性的重要环节。供应商图纸发送流程一般如下: 1.申请与审批 采购人员根据需要提出发放图纸的申请并提交审批; 采购部负责人审批发放申请,确…

代码随想录之链表刷题总结

目录 1.链表理论基础 2.移除链表元素 3.设计链表 4.翻转链表 5.两两交换链表中的节点 6.删除链表中的第N个节点 7.链表相交 8.环形链表 1.链表理论基础 链表是一种通过指针串联在一起的线性结构,每一个节点由两部分组成,一个是数据域一个是指针域…

Notepad++ 插件安装,The plugin package is not found问题

问题: 今天想用自己电脑的Notepad来分析一下几个json文件,后续工作传输都使用json通信,公司装了jsonView插件都没什么问题。自己电脑装了就问题百出: 本人版本: 揣测1: 是不是管理员权限的问题,…

【操作系统】每日 3 题(三)

✍个人博客:https://blog.csdn.net/Newin2020?typeblog 📣专栏地址:https://blog.csdn.net/newin2020/category_12820365.html 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果…