spark04-文件读取分区数据分配原理

news2025/4/27 14:58:27

接 https://blog.csdn.net/oracle8090/article/details/129013345?spm=1001.2014.3001.5502

通过上一节知道总字节数为7 每个分区字节数为3

代码

  val conf: SparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
 
    val sc: SparkContext = new SparkContext(conf)
    val rdd: RDD[String] = sc.textFile("datas/1.txt",2)
    rdd.saveAsTextFile("output")

通过运营最终得到的输出文件为：

part-00002为空文件

1.spark读取文件采用的是Hadoop方式读取，所以一行一行读取，跟字节数没有关系

2.数据读取时以偏移量为单位，偏移量不会被重新读取

/*数据（回车占两字符）=》偏移量

1@@ =>0 1 2

2@@ =>3 4 5

3 =>6

3 数据分区的偏移量范围

0号分区 =>[0,3]=>1 2 偏移量是0-3 读取1@@ 2,但是以行为单位读取最终读取的为1@@，2@@，因此第一个分区文件分配的数字为1 2

1号分区 =>[3,6] => 3 偏移量是3-6 但是3 4 5 偏移量已经被0号分区读取过了，因此第二个分区文件分配的数字为3

2号分区 =>[6,7]

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/342940.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

spark04-文件读取分区数据分配原理

相关文章

日日顺供应链｜想要看清供应链发展趋势，先回答这三个问题

论文写作——公式编辑器、latex表格、颜色搭配器

C++之可调用对象、bind绑定器和function包装器

孙子兵法-36计

想要的古风女生头像让你快速get

【HAL库】STM32CubeMX开发----STM32F407----Uart串口接收空闲中断

设计模式C++实现11：观察者模式

Windows安装Gradle(IDEA兼容版)

Java连接Redis

在职阿里6年，一个29岁女软件测试工程师的心声

新版bing(集成ChatGPT)的申请方法

redis知识汇总（部署、高可用、集群）

03 OpenCV图像运算

JVM - 类加载，连接和初始化

c++重中之重：“换个龟壳继续套娃“：运算符重载等的学习

笑死，面试官又问我SpringBoot自动配置原理

亿级高并发电商项目-- 实战篇 --万达商城项目四（Dashboard服务、设置统一返回格式与异常处理、Postman测试接口）

Spring-事务2

2023前端面试题——JS篇

Vue原理解析