repartition和partitionBy的区别

news2024/9/24 11:26:50

前言

旁边的实习生一脸困惑:我把一个dataset的数据往某个文件夹或hive表中写的时候可以用partitionBy对数据进行分区,可是repartition顾名思义也好像与分区有关,这两个究竟有啥区别?我该如何使用?

API解释

  1. repartition
    repartition是dataframe的一个方法,用来增加或减少内存中的分区;当需要将dataframe写入磁盘的时候,它会将所有part files文件写入指定的一个目录中。
  2. partitionBy
    partitionBy是DataFrameWriter类的一个方法,用于将DataFrame写入磁盘中的分区目录里,分区列中每个唯一值对应一个分区子目录
    在这里插入图片描述

详细案例讲解

测试数据:

country
China
China
China
America
America
England
England
Japan
Japan
Japan
Korea
Korea
  1. repartition 案例详解
  • repartition(numPartitions : scala.Int) 直接传入分区数量
package sparkdemo;

import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class RepPar {
    public static void main(String[] args) {
        Logger.getLogger("org").setLevel(Level.ERROR);
        SparkSession spark = SparkSession
                .builder()
                .appName("appName")
                .master("local[5]")
                .enableHiveSupport()
                .getOrCreate();
        Dataset<Row> ds = spark.read().option("header", "true").csv("./data/country.csv");
        Dataset<Row> repartition = ds.repartition(3);
        System.out.println(repartition.rdd().getNumPartitions());
        repartition.write().option("header","true").mode("overwrite").csv("./data/country1");
        spark.stop();
    }
}

案例中使用reparation将数据进行重分区,分区数量设置为3,这意味会把原始文件分为三个分区文件。当将该dataframe写入指定的./data/country1目录时,就会发现该目录下会生成三个分区文件:
在这里插入图片描述
而且分区文件中的内容是随机的:
在这里插入图片描述

注意:当要减少分区的时候,推荐使用coalesce算子,因为可以避免shuffle。

  • repartition(numPartitions : scala.Int, partitionExprs : Column*) 传入分区数量以及指定要分区的列

该方法会把每个国家的数据放入相同的分区文件中。注意:不保证每个分区文件中仅包含一个国家。

package sparkdemo;

import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Column;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class RepPar {
    public static void main(String[] args) {
        Logger.getLogger("org").setLevel(Level.ERROR);
        SparkSession spark = SparkSession
                .builder()
                .appName("appName")
                .master("local[5]")
                .enableHiveSupport()
                .getOrCreate();
        Dataset<Row> ds = spark.read().option("header", "true").csv("./data/country.csv");
        Dataset<Row> rCol = ds.repartition(3, new Column("country"));
        rCol.write().option("header", "true").mode("overwrite").csv("./data/country2");
        spark.stop();
    }
}

该操作会对country这一列的数据对3进行取模,最终形成3个分区文件(partition = hash(country) % 3)。这保证了相同的country所有数据都最终都存在同一个分区中

在这里插入图片描述
在这里插入图片描述

注意:可能会存在某个分区文件中数据多,某些少的情况。

  1. partitionBy详细案例
    测试数据为了尽可能的简单明了,因此只用了一列country列,但是使用partitionBy的时候是不能对所有列进行操作(这里的由于仅有一列,也就不能对该列进行partitionBy操作),因此增加了一列code。
code,country
1,China
1,China
1,China
2,America
2,America
3,England
3,England
4,Japan
4,Japan
4,Japan
5,Korea
5,Korea

代码:

package sparkdemo;

import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Column;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class RepPar {
    public static void main(String[] args) {
        Logger.getLogger("org").setLevel(Level.ERROR);
        SparkSession spark = SparkSession
                .builder()
                .appName("appName")
                .master("local[5]")
                .enableHiveSupport()
                .getOrCreate();
        Dataset<Row> ds = spark.read().option("header", "true").csv("./data/country.csv");
        ds.write().option("header", "true").partitionBy("country")
                .mode("overwrite").csv("./data/country3");
        spark.stop();
    }
}

我们共有五个国家,对country进行partitionBy将创建五个子目录,子目录的名称是分区列=值。在磁盘上形成分区目录可以加速对分区进行筛选的效率。

在这里插入图片描述

注意:写入磁盘文件中并不包含分区列,因此可以节省一些存储空间。

  1. repartition和partitionBy结合使用

使用repartition可以在内存中创建指定数量的分区,再用partitionBy将指定的分区列,将数据写入repartition设定数据量的分区文件中。这样的好处是,可以减少小文件的数量。

package sparkdemo;

import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class RepPar {
    public static void main(String[] args) {
        Logger.getLogger("org").setLevel(Level.ERROR);
        SparkSession spark = SparkSession
                .builder()
                .appName("appName")
                .master("local[5]")
                .enableHiveSupport()
                .getOrCreate();
        Dataset<Row> ds = spark.read().option("header", "true").csv("./data/country.csv");
        ds.repartition(2).write().option("header", "true").partitionBy("country")
                .mode("overwrite").csv("./data/country4");
        spark.stop();
    }
}

通过上面的操作,我们的数据集中有5个唯一的country,我们为每个country要求2个内存分区(通过repartition算子),因此可以看到每个country会只生成两个分区文件,总共最多(如果某个country只有1条数据那么只会生成1个小文件)创建5*2=10个磁盘小文件。
在这里插入图片描述

注意:如果设计不正确,这可能会造成数据倾斜。比如某个国家数据很多,某个很少,即某个分区文件中数据量巨大,某些分区文件中可能只有几条数据,这可能会造成严重的数据倾斜。

后记

根据上面的详细案例,相信很容易理解repartition和partitionBy的使用场景了。repartition是在内存中划分好分区文件的数量,partitionBy是在磁盘上根据分区列唯一值生成对应的分区子目录

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/488376.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT能承担哪些工作?

ChatGPT拥有高效的自然语言处理能力&#xff0c;它最容易取代的领域可能是&#xff1a;文本分类、聊天机器人、文本生成、问答系统、文字识别和自动翻译方面。最容易取代的职业可能是&#xff1a;客服人员、技术类、媒体类、教师、法律类、金融类。使相关的人员在工作生活中更加…

公务机包机攻略,揭开公务机神秘面纱

随着经济的高速发展&#xff0c;在如今的商业环境中&#xff0c;时间就是金钱&#xff0c;不少商务人士倾向于公务机包机出行&#xff0c;主要在于乘坐公务机一天之内可以到达多个地点&#xff0c;节省出许多额外的时间。并且和大型民航航班相比&#xff0c;公务机的运行成本更…

【react全家桶学习】react组件中的ref属性(详)

不管在Vue中还是React&#xff0c;如果我们想使用一个元素的DOM&#xff0c;不需要通过JS中操纵DOM的方法&#xff0c;它们提供了一个专属的API就是ref。 而Vue中的ref可能比较简单&#xff08;直接this.$refs.xxx就可以&#xff09;&#xff0c;这一篇主要讲一下如何在React中…

第04讲:Eureka

一、单机版 1.1、Server端开发 1.1.1、创建项目cloud-eureka-server7001 1.1.2、pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLS…

CNN实现手写数字识别(Pytorch)

CNN结构 CNN&#xff08;卷积神经网络&#xff09;主要包括卷积层、池化层和全连接层。输入数据经过多个卷积层和池化层提取图片信息后&#xff0c;最后经过若干个全连接层获得最终的输出。 CNN的实现主要包括以下步骤&#xff1a; 数据加载与预处理模型搭建定义损失函数、优…

SDN — OpenvSwitch 软硬件融合加速方案

目录 文章目录 目录OVS-DPDKOvS-DPDK v.s. SR-IOV东西向流量南北向流量 / 跨服务器东西流量 OVS Hardware OffloadOVS-DPDK Hardware OffloadDPDK Hardware offloadOvS-DPDK Hardware offloadOvS-DPDK Hardware offload with vDPA OVS-DPDK 上图中的深色模块就是引入 DPDK 的相…

Sublime软件及html相关软件安装

Sublime软件及html相关软件安装 下载Sublime编译器并安装下载链接: [https://www.sublimetext.com/3](https://www.sublimetext.com/3)安装emmet自动补全插件 验证 下载Sublime编译器并安装 下载链接: https://www.sublimetext.com/3 安装emmet自动补全插件 第一步&#xff1…

css分享 | 常用按钮效果记录(关注追加)

今日分享几个css样式&#xff0c;在日常业务中&#xff0c;我们会追求更友好的交互体验&#xff0c;所以记录一些业务中常用的按钮样式&#xff0c;下次遇到可以拿来即用。 目录 1.按钮水波纹点击效果 2.流光波光闪烁效果 3.按钮点击立体效果 4.按钮悬停出现箭头效果 1.按钮…

玩客云刷armbian证书错误server certificate verification failed

文章目录 前言大概操作&#xff1a;1、换http源&#xff08;感觉https应该也行&#xff09;2、修改armbian.list3、证书认证4、更新软件源、索引5、安装证书、更新证书6、禁用ssl7、手动添加网站证书&#xff08;好像失败了&#xff09;8、安装debian软件包公钥&#xff08;好像…

uni push2.0使用

uni push2.0配置 需要开通uniCloud服务&#xff08;推荐阿里云&#xff09; 生成证书&#xff1a;安卓&#xff08;https://ask.dcloud.net.cn/article/68&#xff09;&#xff0c;ios&#xff08;https://docs.getui.com/getui/mobile/ios/apns/&#xff09; 进入开发者中心…

C++ 1.基础语法

1.using namespace std; 建议a&#xff1a;项目中尽量不要用上述语句。b&#xff1a;日常练习中使用。c&#xff1a;项目中指定名空间访问展开常用。 这个语句表示标准库的东西都放到std&#xff0c;为了解决自己定义的名字和库名发生冲突。如果定义和库名冲突的名字&#xf…

基于 Docker 的 MySQL GTID 主从复制与测试

目录 一、规划1.1 基础环境1.2 应用架构1.3 路径规划 二、部署2.1 服务部署2.2 主从配置2.2.1 主从同步配置2.2.2 主主同步配置 2.3 主从验证2.3.1 主从同步验证2.3.2 主主同步验证 2.4 客户端连接2.4.1 控制台2.4.2 图形化 三、压测3.1 安装 sysbench3.2 sysbench 压测3.2.1 读…

玩具蛇+正则问题(JAVA解法)

玩具蛇&#xff1a;用户登录 题目描述 本题为填空题&#xff0c;只需要算出结果后&#xff0c;在代码中使用输出语句将所填结果输出即可。 小蓝有一条玩具蛇&#xff0c;一共有 16 节&#xff0c;上面标着数字 1 至 16。每一节都是一个正方形的形状。相邻的两节可以成直线或…

5 个冷门且实用的 Kubectl 使用技巧

kubectl 是 K8s 官方附带的命令行工具&#xff0c;可以方便的操作 K8s 集群。这篇文章主要介绍一些 kubectl 的别样用法&#xff0c;希望读者有一定基础的 K8s 使用经验。 有一篇文章也介绍了一些技巧&#xff0c;写博客的时候正好搜到了&#xff0c;正好也分享出来吧。 Ready…

【Linux】 OpenSSH_7.4p1 升级到 OpenSSH_8.7p1(亲测无问题,建议收藏❤)

&#x1f341;博主简介 &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01; 文章目录 文章声明前述安装一些必要的命令&…

细讲shell中的循环语句--for、while、until

目录 一:何为循环 1.循环概述 2.使用循环的好处 二&#xff1a;for循环语句 1.for语句的用法 ​2. 语法结构 &#xff08;1&#xff09;一般格式 &#xff08;2&#xff09;类C语言格式 &#xff08;3&#xff09;死循环 3.事例 ​4.常用转义符 ​5.制作九九乘法表 …

Winform从入门到精通(39)——ToolStrip(史上最全)更新中

1、Name获取控件对象 2、AllowDrop 3、AllowItemReorder 4、AllowMerge 5、Anchor 设置ToolStrip如何锚定父控件 6、AutoSize 设置ToolStrip的尺寸大小是否根据Font属性的变化而变化 7、BackColor 设置ToolStrip的背景色 8、BackgroundImage 设置背景图像 9、Back…

精炼计算机网络——序章(二)

文章目录 前言1.4 计算机网络在我国的发展1.5 计算机网络的类别1.5.1计算机网络的定义1.5.2 几种不同类别的计算机网络 1.6 计算机网络的性能1.6.1 计算机网络的性能指标1.6.2 计算机网络的非性能特征 1.7 计算机网络体系结构1.7.1 计算机网络体系结构的形成1.7.2 协议与划分层…

ChatExcel?

大家好&#xff0c;我是章北海mlpy 最近在浅学LangChain&#xff0c;在大模型时代&#xff0c;感觉这玩意很有前途。 LangChain是一个开源的应用开发框架&#xff0c;目前支持Python和TypeScript两种编程语言。 它赋予LLM两大核心能力&#xff1a;数据感知&#xff0c;将语言模…

5月1日起正式实施!图解《关键信息基础设施安全保护要求》

2023年5月1日&#xff0c;GB/T 39204-2022《信息安全技术 关键信息基础设施安全保护要求》将正式实施。作为我国第一项关键信息基础设施安全保护的国家标准&#xff0c;对于我国关键信息基础设施安全保护有着极为重要的指导意义。 《信息安全技术 关键信息基础设施安全保护要求…