spark03-读取文件数据分区数量个数原理

news2025/7/12 10:35:48

代码

    val conf: SparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
    val sc: SparkContext = new SparkContext(conf)
    val rdd: RDD[String] = sc.textFile("datas/1.txt",2)
    rdd.saveAsTextFile("output")

数据格式：

当texfFile可以将文件作为数据处理的数据源，默认也有设定分区

minPartitions:最小分区数量

默认的最小分区数为2，但是实际的分区数可能比2要大

比如运行脚本后最后得到的分区文件为3个文件，并不是2个文件，原因是

分区数量的计算方式，spark读取文件底层使用的是hadoop读取文件方式getSplits方法

通过源码查看使用到了totalSize，这个指的是文件的字节数

通过文件打开可以看到在1 和2 的后面有特殊字符，表示回车因此该文档并不是3个字节而是7个字节

因此 totalSize=7

long goalSize = 7 / (long)(2 == 0 ? 1 : 2)=7/2=3 表示每个分区的字节数

totalSize/goalSize=7/3=2 个分区余 1个字节，1个字节占3个字节的30%

在hadoop的切分原理（1.1）时如果剩余的数据量大于10%产生新的分区

因此最后产出的是3个分区文件

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/342581.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

spark03-读取文件数据分区数量个数原理

相关文章

Docker 部署微服务项目

【SpringBoot3.0源码】启动流程源码解析 • 上

【暴力量化】查找最优均线

Tensorflow中的多层感知器学习

【黑马SpringCloud(6)】Sentinel解决雪崩问题

ROS2+nav2+激光雷达导航实践(上)

Python 之 NumPy 切片索引和广播机制

30、基于51单片机交通灯车流量管控数码管显示系统设计

PID控制算法简介

【渝偲医药】实验室关于核磁共振波谱NMR的知识（原理、用途、分析、问题）

目标检测的旋框框文献学习

深度学习刷 SOTA 有哪些 trick？

阿里前端必会手写面试题汇总

啪，还敢抛出异常

DELL游匣ubuntu2004系统 RTX3060显卡，cuda11.4，cudnn8.2.4安装

都说爱有回音，这次情人节驱动人生宠你！

【GlobalMapper精品教程】046：空间操作(3)——并集(Union)

80 90后表示真干不过，部门新来的00后已经把我卷奔溃了，不想干了····

操作系统开发：启用内存分页机制

开发微服务电商项目演示（四）