spark 内存管理机制与相关参数调优

news2025/10/18 1:41:14

spark 内存管理

文章目录

- spark 内存管理
- - spark 1.6 内存管理机制
  - spark 2.0 内存管理机制
  - spark 3.3.1 官方文档
  - spark 内存相关参数调优

spark 1.6 内存管理机制

https://0x0fff.com/spark-memory-management

统一内存管理

Spark 1.6 之后引入的统一内存管理机制，与静态内存管理的区别在于存储内存和执行内存共享同一块空间，可以动态占用对方的空闲区域

Spark 内存管理 1.6.0+

初始storage memory区域大小计算为“ Spark Memory”* spark.memory.storageFraction =（“ Java Heap ”-“ Reserved Memory ”）* spark.memory.fraction * spark.memory.storageFraction。对于默认值，这等于（“ Java 堆”– 300MB）* 0.75 * 0.5 =（“ Java 堆”– 300MB）* 0.375。对于 4GB 堆，这将在初始存储内存区域中产生 1423.5MB RAM

【注：spark 2.0+，默认spark.memory.fraction=0.6而不是0.75】

spark 2.0 内存管理机制

参考博客（好文！推荐）

统一内存管理图示（堆内）：

统一内存管理图示（堆外）：

spark 3.3.1 官方文档

https://spark.apache.org/docs/latest/tuning.html#memory-management-overview
Spark 中的内存使用主要属于两类之一：执行和存储。执行内存是指用于洗牌(shuffle)、连接、排序和聚合中的计算，而存储内存是指用于在集群中缓存和传播内部数据的内存。在 Spark 中，执行和存储共享一个统一的区域（M）。当没有使用执行内存时，存储可以获得所有可用内存，反之亦然。如有必要，执行可能会逐出存储，但只有在总存储内存使用量低于某个阈值 ® 时才会执行。换句话说，R描述了M缓存块永远不会被驱逐的子区域。由于实现的复杂性，存储可能不会驱逐执行。

spark.memory.fraction将大小表示M为 (JVM 堆空间 - 300MiB) 的一小部分（默认 0.6）。其余空间 (40%) 保留用于用户数据结构、Spark 中的内部元数据，以及在稀疏和异常大的记录情况下防止 OOM 错误。
spark.memory.storageFraction将大小表示R为分数M（默认为 0.5）。 R是M缓存块免于被执行逐出的存储空间。