Spark SQL 执行计划解析源码分析

Spark SQL 执行计划解析源码分析

news2026/2/14 6:50:48

本文用于记录Spark SQL执行计划解析的源码分析。文中仅对关键要点进行提及，无法面面具到，仅描述大体的框架。

Spark的Client有很多种，spark-sql，pyspark，spark- submit，R等各种提交方式，这里以spark.sql()方法作为源码分析入口：
SparkSession的sql方法
在介绍具体的解析流程之前，我们画了一个图，图中展示了SQL被解析的各个阶段：
Spark SQL解析流程

SQL文本会经过antlr框架执行词法解析，语法解析，随后生成一个AST树，进入后续各个阶段的执行计划解析和优化
首先是进入parsing阶段，由Parser解析LogicalPlan，生成unresolved LogicalPlan。Parser是ParserInterface的实现，具体的继承关系如下图：
接下来进入analysis阶段，有Analyzer执行一系列的rule生成analyzed LogicalPlan。Analyzer继承自RuleExecutor，是一系列analyze的rule集合
接着进入optimization阶段，负责优化的是Optimizer，它也是继承自RuleExecutor，随后生成optimized LogicalPlan。
optimized LogicalPlan会被被传递给SparkPlanner进入planning阶段，同样也是一系列的Rule，不同的是这一阶段已经到了物理计划的解析，输出结果不再是LogicalPlan，而是SparkPlan。
第一个planning阶段结束后，还会再次进去planning阶段，此时负责优化的是preparations（一些列针对SparkPlan优化的Rule），主要就是插入AQE相关的优化。此时生成的就是executedPlan。

至此，Spark SQL的执行计划（逻辑计划，物理计划）解析就告一段落，剩下的就是拿到executedPlan开始切分stage，task，申请资源进行调度，执行具体物理计划的逻辑了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2259030.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

（2）Spring Security - 了解UserDetailsService

（2）Spring Security - 了解UserDetailsService

目录 1.认识UserDetailsService1.1.认识UserDetails1.2.UserDetailsService的默认实现 -- InMemoryUserDetailsManager 2.用户信息存储在MySQL数据库中2.1.添加依赖2.2.配置MySQL和Mybatis2.3.在数据库中添加用户信息2.4.添加数据库实体类2.5.编写Mybatis代码2.6.实现UserDetai…

阅读更多...

智能设备安全-固件逆向分析

智能设备安全-固件逆向分析

固件逆向分析实验报告-20241022 使用固件常用逆向分析工具，对提供的固件进行文件系统提取，并记录逆向分析实验过程，提交实验报告（报告要求图文并茂，对涉及到的关键步骤附截图说明）。具体任务如下&#xff1…

阅读更多...

图形编辑器基于Paper.js教程17：图像转gcode前的处理，灰度，黑白，抖动

图形编辑器基于Paper.js教程17：图像转gcode前的处理，灰度，黑白，抖动

好久没有正经写博客了，前一段时间一直在备考中级项目管理，再加上项目开发只有自己一个人，每天忙的飞起。有闲暇时间也不想写，其中一部分原因也是因为很多简单问题，AI就能回答的很好。而对复杂的问题，也不是…

阅读更多...

AI大模型学习笔记｜人工智能的发展历程、智能体的发展、机器学习与深度学习的基本理论

AI大模型学习笔记｜人工智能的发展历程、智能体的发展、机器学习与深度学习的基本理论

学习链接：冒死上传！价值2W的大模型入门到就业教程分享给大家！轻松打造专属大模型助手，—多模态、Agent、LangChain、ViT、NLP_哔哩哔哩_bilibili 百度网盘自己整理的笔记： 通过网盘分享的文件：1-人工智能的…

阅读更多...

qt 设置系统缩放为150%，导致的文字和界面的问题

qt 设置系统缩放为150%，导致的文字和界面的问题

1 当我们设置好布局后，在100%的设置里面都是正常的，但是当我们修改缩放为150%后，字体图标，界面大小就出现问题了，这就需要我们设置一些参数。 QCoreApplication::setAttribute(Qt::AA_EnableHighDpiScaling);QCoreAppl…

阅读更多...

linux-15 关于shell（十四）printenv，hash，环境变量

linux-15 关于shell（十四）printenv，hash，环境变量

此前没有用过linux，可能有些觉得很奇怪，就觉得我们在这敲来敲去命令干什么？为什么不使用双击这种方式来操作？大家知道，在Windows里面，其实我们双击也无非就是告诉我们shell需要将这个命令发送在内核上启动的…

阅读更多...

虚拟机如何使用物理机的公私钥

虚拟机如何使用物理机的公私钥

一、生成公私钥（如果没有的话） 使用如下指令生成生成RSA公私钥 ssh-keygen 生成EdDSA公私钥 ssh-keygen -t ed25519 Windows目录 linux会直接生成在当前目录下。二、导出一般都是从windows系统导入到linux系统。可以直接将公私钥文件复制到虚拟机…

阅读更多...

SpringBoot【十一】mybatis-plus实现多数据源配置，开箱即用！

SpringBoot【十一】mybatis-plus实现多数据源配置，开箱即用！

一、前言🔥 环境说明：Windows10 Idea2021.3.2 Jdk1.8 SpringBoot 2.3.1.RELEASE 正常情况下我们在开发系统的时候都是使用一个数据源，但是由于有些项目同步数据的时候不想造成数据库io消耗压力过大，便会一个项目对应多个数据源…

阅读更多...

前端报错npm ERR cb() never called问题

前端报错npm ERR cb() never called问题

环境使用node版本v14.21.3，npm版本6.14.18 1.问题描述 1.1使用npm install后报错 npm ERR! cb() never called!npm ERR! This is an error with npm itself. Please report this error at: npm ERR! ? ? <https://npm.community>npm ERR! A complete log…

阅读更多...

C++ STL Cookbook STL算法

C++ STL Cookbook STL算法

目录 std::copy 将容器元素合并为一个字符串使用 std::sort 对容器进行排序使用 std::transform 修改容器在容器中查找项目使用 std::sample 采样数据集 (写在前面：笔者前段时间备战考试和比赛了，现在回来继续更新) STL实际上提供了非常非常丰…

阅读更多...

SpringBoot【十】mybatis之xml映射文件＞、＜=等特殊符号写法！

SpringBoot【十】mybatis之xml映射文件＞、＜=等特殊符号写法！

一、前言🔥 环境说明：Windows10 Idea2021.3.2 Jdk1.8 SpringBoot 2.3.1.RELEASE 在利用mybatis进行开发的时候，编写sql时可能少不了>、<等比较符号，但是在mapper映射文件中直接使用是不行的，会报错&#xff0…

阅读更多...

单元测试SpringBoot

单元测试SpringBoot

添加测试专用属性加载测试专用bean Web环境模拟测试数据层测试回滚测试用例数据设定

阅读更多...

每天40分玩转Django：简介和环境搭建

每天40分玩转Django：简介和环境搭建

Django简介和环境搭建一、课程概述学习项目具体内容预计用时Django概念Django框架介绍、MVC/MTV模式、Django特点60分钟环境搭建Python安装、pip配置、Django安装、IDE选择45分钟创建项目项目结构、基本配置、运行测试75分钟实战练习创建个人博客项目框架60分钟二、Djang…

阅读更多...

Jenkins参数化构建详解(This project is parameterized)

Jenkins参数化构建详解(This project is parameterized)

本文详细介绍了Jenkins中不同类型的参数化构建方法，包括字符串、选项、多行文本、布尔值和git分支参数的配置，以及如何使用ActiveChoiceParameter实现动态获取参数选项。通过示例展示了传统方法和声明式pipeline的语法文章目录 1. Jenkins的参数化构建1…

阅读更多...

Windows安装WSL子系统及docker，以及WSL和docker配置、使用及问题解决

Windows安装WSL子系统及docker，以及WSL和docker配置、使用及问题解决

在Windows操作系统中，Ubuntu子系统（也称为Windows Subsystem for Linux, WSL）为开发者提供了一个在Windows环境下运行Linux环境的平台。然而，有时用户在按照Ubuntu子系统或者使用WSL时，可能会遇到各种问题，下面总结一下解决方式。想要在Windows上安装Docker（实际上是基…

阅读更多...

Linux中的线程

Linux中的线程

目录线程的概念进程与线程的关系线程创建线程终止线程等待线程分离原生线程库线程局部存储自己实现线程封装线程的优缺点多线程共享与独占资源线程互斥互斥锁自己实现锁的封装加锁实现互斥的原理死锁线程同步线程的概念回顾进程相关概念 …

阅读更多...

shell编程（完结）

shell编程（完结）

shell编程（完结） 声明！ 学习视频来自B站up主泷羽sec 有兴趣的师傅可以关注一下，如涉及侵权马上删除文章笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其…

阅读更多...

ctfshow-web 151-170-文件上传

ctfshow-web 151-170-文件上传

151. 我们首先想到就是上传一句话木马。但是看源代码限制了png。 （1）改前端代码。这里是前端限制了上传文件类型，那我们就改一下就好了嘛,改成php。这里直接修改不行，给大家推荐一篇简短文章，大家就会了&#xff08…

阅读更多...

Docker的初识

Docker的初识

目录 1. 容器技术发展史1.1 Jail 时代1.2 云时代1.3 云原生时代1.3.1 Google & Docker 竞争1.3.2 k8s 成为云原生事实标准 2. 虚拟化和容器化的概念2.1 什么是虚拟化、容器化2.2 为什么要虚拟化、容器化？2.3 虚拟化实现方式2.3.1 应用程序执行环境分层2.3.2 虚拟…

阅读更多...

Jenkins流水线初体验（六）

Jenkins流水线初体验（六）

DevOps之安装和配置 Jenkins (一) DevOps 之 CI/CD入门操作 (二) Sonar Qube介绍和安装（三） Harbor镜像仓库介绍&安装（四） Jenkins容器使用宿主机Docker（五） Jenkins流水线初体验（六）一、Jenkins流水线任务介绍之前采用Jenkins的自由风格构建的项目，每个步骤…

阅读更多...

推荐文章

最新文章