sparkSQL的使用

news2025/1/24 8:34:08

sparksql只能处理结构化数据

基于rdd构建dataframe对象

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType

if __name__ == '__main__':
    spark = SparkSession.builder.appName('test').master('local[*]').getOrCreate()

    sc = spark.sparkContext
    #基于rdd建表
    rdd = sc.textFile('../data/input/word.txt').map(lambda x:x.split(' ')).\
        map(lambda x:(x[0],int(x[1])))
        
    ### 使用rdd构建dataframe
    df = spark.createDataFrame(rdd,schema=['name','age'])
    df.printSchema()
    df.show(20,False)
    df.createOrReplaceTempView('people')
    spark.sql('select * from people where age<20').show()
    
    #使用toDF的方式构建dataframe
    df = rdd.toDF(['name','age'])
    df.printSchema()
    df.show()
    
    # 使用structType的方式构建dataframe
    schema = StructType.add('name',StringType(),nullable=True).add('age',IntegerType(),nullable=False)
    df2 = rdd.toDF(schema=schema)
    df2.printSchema()
    df2.show()


sparksql读取本地文件

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType
import pandas as pd
if __name__ == '__main__':
    spark = SparkSession.builder.appName('test').master('local[*]').config('spark.sql.shuffle.partitions',2).getOrCreate()

    sc = spark.sparkContext
    schema = StructType().add('data',StringType(),nullable=True)
    # 读取txt文件
    df = spark.read.format('text').schema(schema=schema).load('../data/input/word.txt')
	# 读取csv文件
    df = spark.read.format('csv').option('sep',',').option('header',True).load('../data/input/word.txt')

    df.printSchema()
    df.show()
    

数据的写出(text,csv,json,parqeut)

在这里插入图片描述

DSL函数用法汇总

agg,是GroupData对象的api,作用是可以写多个聚合
alias,是column对象的api,可以针对一个列,进行改名
withColumnRenamed,是DataFrame的api,可以对DF的列进行改名,一次改一列,改多列可用链式调用
orderBy,DataFrame的api,进行排序参数1是要排序的字段,参数2是升序降序
first,DataFrame的api,去除DF的第一行数据,返回值是一个Row对象.是一个数组类型,用row[‘列名’]来取出当前值
df.dropDuplicates.show() 去重函数,无参数时是对所有列去重,可以加入参数对指定列去重dropDuplicates([‘age’])
df.dropna().show() 删除空值,dropna(thresh=2,subset=[‘name’,‘age’])这两列如果数据没有两列就会被删除
df.fillna().show() 把空值填充fillna({‘name’:‘未知姓名’,‘age’:1}),把名字那栏空值填为未知姓名,age为1

spark.sql.shuffle.partitions参数的设置

    spark = SparkSession.builder.appName('test').master('local[*]').config('spark.sql.shuffle.partitions',2).getOrCreate()

设置参数的意义是提高local模式下的性能,yarn集群下要根据cpu核数的2~4倍进行设置.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/624503.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JS-Object无序问题

1、 背景 在开发图表功能时&#xff0c;由于历史原因&#xff0c;后端返回的图表数据如下&#xff1a; 是对象类型&#xff0c;键为日期&#xff0c;值为日期和当天日期的值。在H5端、微信小程序端运行结果正常&#xff0c;结果到了百度小程序突然发现&#xff0c;这个值的顺…

IDEA2021.1.3版本lombok插件--代码爆红问题解决

最近&#xff0c;突然心血来潮将自己工作中开发使用的idea升级到2021.1.3版本&#xff0c;安装成功后&#xff0c;打开代码发现有关get、set方法全部爆红&#xff0c;不用想&#xff0c;肯定是Lombok插件问题&#xff0c;通过setting->plugin里面搜索Lombok居然不存在&#…

终于有人把Linux系统收发网络数据包的过程讲清楚了!

Linux 服务器收到网络数据包&#xff0c;需要经过哪些处理&#xff0c;一步步将数据传给应用进程的呢&#xff1f;应用进程发送数据包时&#xff0c;Linux 又是如何操作将数据包发送出去的呢&#xff1f;今天我们就来聊聊这个话题。 在准备好接收网络数据包之前&#xff0c;Lin…

Mysql数据库入门基础篇--sql语句简单使用

Mysql数据库入门基础篇--sql语句简单使用 &#x1f53b;一、数据库创建、删除、选择1.1 &#x1f343; create database 创建数据库1.2 &#x1f343; 使用 mysqladmin 创建数据库1.3 &#x1f343; drop 命令删除数据库--一般不建议在数据库执行delete、drop等命令1.4 &#x…

redis入门学习

redis基本数据结构 redis的返回值 在设置一个key-value对的时候通常会返回ok告诉我们操作成功了&#xff0c;1代表成功&#xff0c;0代表失败&#xff0c;通常会根据返回值的不同处理不同的业务逻辑用redis.cn来查看命令 全局操作 flushdb清空内存数据库keys *展示所有存储…

第十八章:MySQL8其他新特性

第十八章&#xff1a;MySQL8其他新特性 18.1&#xff1a;MySQL8新特性概述 ​ MySQL从5.7版本直接跳跃发布了8.0版本 &#xff0c;可见这是一个令人兴奋的里程碑版本。MySQL 8版本在功能上做了显著的改进与增强&#xff0c;开发者对MySQL的源代码进行了重构&#xff0c;最突出…

2023-06-08 Unity AssetBundle1——AB包介绍与使用

文章目录 一、AB 包介绍二、AB 包资源打包&#xff08;一&#xff09;导入 AB 包&#xff08;二&#xff09;将资源关联 AB 包&#xff08;三&#xff09;打包参数选项&#xff08;四&#xff09;打包结果&#xff08;五&#xff09;AB 包信息 三、加载 AB 包资源&#xff08;一…

如何让访问者能更快地加载出你的网站?

​  在当今互联网时代&#xff0c;网站已成为人们获取信息、交流互动、进行商业活动等的主要场所之一。然而&#xff0c;由于网络环境的复杂性和不确定性&#xff0c;用户在访问网站时常常会遇到访问缓慢、卡顿等问题&#xff0c;从而影响了用户的使用体验。为了让用户更快地…

【数据结构】常见排序算法——快速排序的三种实现、 hoare版本、挖坑法、前后指针版本

文章目录 1.常见排序2.快速排序2.1hoare版本2.2快速排序优化2.3挖坑法实现2.4前后指针实现 1.常见排序 2.快速排序 快速排序&#xff08;Quick Sort&#xff09; 是一种常见的排序算法&#xff0c;也是一种基于分治算法的排序。该算法的基本思想是将一个数据集分成两个子集&…

实验四、shell编程

一、实验目的 1.了解shell的特点和主要种类。 2.掌握 shel1 脚本的建立和执行方式。 3.掌握bash的基本语法。 4.学会编写shell 脚本。 二、实验内容 shell 脚本的建立和执行。历史命令和别名定义。shell变量和位置参数、环境变量。bash的特殊字符。一般控制结构。算术运算及…

Redis事务和管道

一、Redis事务 1、定义 可以一次执行多个命令&#xff0c;本质上是一组命令的集合。一个事务中的所有命令都会序列化&#xff0c;按顺序的串行化执行而不会被其他命令插入&#xff0c;不能加塞。 2、作用 一个队列中&#xff0c;一次性、顺序性、排他性的执行一系列命令。 …

第Y3周:yolov5s.yaml文件解读

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊|接辅导、项目定制 ✅本周任务&#xff1a;将yolov5s网络模型中第4层的C3*2修改为C3*1&#xff0c;第6层的C3*3修改为C3*2。 简单介绍&#xff1a; YOLOv5配置了…

企业Wiki和知识库-SaaS产品运营指南

内部Wiki也叫做企业Wiki&#xff0c;是员工可以存储、共享和协作创作的地方&#xff0c;将企业内部员工知识共享集中到一个地方&#xff0c;并且相关内容与其他团队成员协作完成&#xff0c;它可以包含企业内部的各种知识&#xff0c;从操作指南到培训手册&#xff0c;再到客户…

RabbitMQ - 延迟队列

RabbitMQ - 延迟队列 延迟队列介绍RabbitMQ 中的 TTL整合 springboot队列 TTL延时队列TTL优化Rabbitmq 插件实现延迟队列总结 延迟队列介绍 延迟队列概念&#xff1a; 延时队列,队列内部是有序的&#xff0c;最重要的特性就体现在它的延时属性上&#xff0c;延时队列中的元素是…

《Lua程序设计》--学习3

输入输出 简单I/O模型 Lua 文件 I/O | 菜鸟教程 (runoob.com) 暂留 补充知识 局部变量和代码块 Lua语言中的变量在默认情况下是全局变量&#xff0c;所有的局部变量在使用前必须声明 在交互模式中&#xff0c;每一行代码就是一个代码段&#xff08;除非不是一条完整的命…

spark的高阶用法

广播变量broadcast 使用场景:本地集合变量和分布式变量(rdd)进行关联的时候使用 优点:1.可以节省io操作.2.减少executor的内存占用 #定义 map_list {(1,dawang,22),(2,xiaogou,333).....} broadcast sc..broadcast(map_list) #使用 for i in broadcast.value:print(i)累加器a…

【TA100 】 LDR与HDR

一、LDR和HDR的基本概念 1.HDR 、LDR、动态范围 ● Dynamic Range&#xff08;动态范围&#xff09;最高亮度/最低亮度 ● HDR High Dynamic Range ● LDR Low Dynamic Range ● ToneMapping&#xff1a;将超高的动态范围&#xff08;HDR&#xff09;转换到我们日常显示的屏…

指定英国名校|社会科学老师喜赴曼彻斯特大学访学研究

社会科学较理工科专业申请访问学者的难度更大&#xff0c;何况M老师还有学校、专业、时间等要求。最终我们为其落实了世界50强名校—曼彻斯特大学全球发展研究所的职位&#xff0c;专业方向高度契合。在对方行政办理流程时遇到一些阻力&#xff0c;好在有惊无险地完成了全部流程…

Simulink尝试双脉冲实验验证MOSFET二极管反向恢复的特性(附仿真模型)

目录 前言 双脉冲实验 Simulink仿真对比 总结 前言 最近在做交错串联的图腾柱单相PFC的项目&#xff0c;基于模型的开发&#xff0c;想要在仿真上实现过零点尖峰电流产生并通过软启动进行抑制&#xff0c;把整个过程都通过仿真实现出来&#xff0c;在这个过程中尝试了Simul…

深入 Synchroized 原理,从入门到精通

目录 一、倔强青铜 1.1 多线程一定快吗&#xff1f; 1.2 上下文切换 1.3 测试上下文切换次数 1.4 Java内存模型 1.5 主内存与工作内存之间的数据交互过程 二、秩序白银 2.1 多线程带来的可见性问题 2.2 多线程带来的原子性问题 2.3 多线程带来的有序性问题 三、荣耀…