spark sql 执行流程

spark sql 执行流程

news2025/7/13 3:40:38

最近学习了spark sql执行流程，从网上搜到了大都是sql解析、analyzer、optimizer阶段、sparkplan阶段，但是我比较好奇的是，这几个阶段是怎么串起来的，于是花了好几天着重从源码层面看看了看具体实现，写了几点自己认为应该注意的地方。

1、command命令的执行过程

spark sql的命令主要分为两种形式：command和普通DML操作。

command从源码测可以看到它属于logicalPlan阶段

从官方文档的解释可以看出，它处理主要是show databases；use ；create table;alter table等 DDL的操作。

它的主要继承子类为RunnableCommand，在它的子类LeafRunnableCommand的具体实现中可以看到DDL的一些命令。

但是我看这些command的时候，发现一些百思不得其解的事情。

这个RunnableCommand的核心方法为run方法，可以看到它的返回值为Seq[ROW], 并不是我所认为的sparkPlan。

不是说，所有的logicalPlan都要转为sparkPlan，然后再启动spark任务吗？这里为什么没有呢？

后来我查资料的时候，发现org.apache.spark.sql.execution.command.commands.scala文件中存在以下两个trait. ExecutedCommandExec和DataWritingCommandExec

在SparkStrategies.scala文件的BasicOperators strategy中使用了这两个类。

这个BasicOperators在sparkPlanners中进行了定义。

这里就明白了，也就是说大部分的command命令，他们使用的strategy是默认的。也就是说这里并不违背所有logicalPlan必须在sparkPlan里面才能执行的要求。

2、catalog体系

spark3当前里面分为两种catalog，sessioncatalog，v2sessioncatalog。

它们都由CatalogManager来进行管理。

v2SessionCatalog主要是为了解决multi catalog准备的，需要在配置文件中新增自定义的数据源。

用户需要实现新增的TableCatalog中提供的方法，去访问自己的表、namespace等元数据信息。

这些catalog是如何使用的？

analyzer阶段的构造函数为catalogmanager;

optimizer阶段也会使用catalogmanager;

在物理执行计划阶段也会使用catalogmanager;

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/144601.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

聊聊Mybatis的缓存

聊聊Mybatis的缓存

Mybatis缓存是内存中的数据，主要是对数据库查询结果的保存，使用缓存的好处是避免频繁与数据库进行交互，提升查询的响应速度。数据库缓存扩展聊到Mybatis缓存。我们可以扩展聊一下MySQL缓存。MySQL缓存其实与Mybatis类似，在查询…

阅读更多...

物联网架构实例—Ubuntu 安装MongoDB及完全卸载

物联网架构实例—Ubuntu 安装MongoDB及完全卸载

1.安装1.1.导入公钥wget -qO - https://www.mongodb.org/static/pgp/server-4.4.asc | sudo apt-key add -如果收到指示gnupg未安装的错误，则可以先执行：sudo apt-get install gnupg然后再执行一次导入公钥命令：wget -qO - https://www.mongo…

阅读更多...

React（coderwhy）- 08(Hooks)

React（coderwhy）- 08(Hooks)

认识和体验Hooks 为什么需要Hook? ◼ Hook 是 React 16.8 的新增特性，它可以让我们在不编写class的情况下使用state以及其他的React特性（比如生命周期）。 ◼ 我们先来思考一下class组件相对于函数式组件有什么优势？比较常见的是下…

阅读更多...

Exynos_4412——IIC总线概述

Exynos_4412——IIC总线概述

目录一、IIC总线概述 1.1IIC总线简介 1.2IIC总线通信过程 1.3IIC总线寻址方式二、IIC总线信号实现 2.1起始信号与停止信号 2.2字节传送与应答 2.3同步信号三、典型IIC时序四、小作业一、IIC总线概述 1.1IIC总线简介 IIC总线IIC总线是Philips公司在八十年代初推…

阅读更多...

[VP]河南第十三届ICPC大学生程序竞赛 L.手动计算

[VP]河南第十三届ICPC大学生程序竞赛 L.手动计算

前言传送门 : 题意 : 给定两个椭圆的方程 , 要求求出椭圆并集的面积之和思路 : 本题很显然是积分或者计算几何的问题对于积分的做法, 无非就是根据积分公式求出第一象限的面积之后拓展到后面四个象限。(奈何我懒, 连两个椭圆的焦点都不想求更别提后面的积分公式了)…

阅读更多...

Git遇到冲突？解决也太简单了

Git遇到冲突？解决也太简单了

程序员宝藏库：https://gitee.com/sharetech_lee/CS-Books-Store git冲突是开发过程中很难避免的，对很多git初学者来说也是比较有障碍和门槛的一部分知识。我认为要想彻底理解一个问题，首先要清楚这个问题是怎么产生的，然后才可以…

阅读更多...

大数据NiFi（八）：NiFi集群页面的组件工具栏介绍

大数据NiFi（八）：NiFi集群页面的组件工具栏介绍

NiFi集群页面的组件工具栏介绍一、处理器（Processor）

阅读更多...

WebLogic-执行队列

一，Tuning the Application Server 二，执行队列 Using Work Managers to Optimize Scheduled WorkThis chapter describes how WebLogic Server 12.1.3 lets you configure how your application prioritizes the execution of its work using a Work Ma…

阅读更多...

java实现pdf转word，解决个别排版错乱问题

java实现pdf转word，解决个别排版错乱问题

项目中要实现客户上传完pdf，上传成功后直接就转成word格式的，之前网上一些免费的转出来的word大致还行，但是有些排版就错乱了，如下图:下面这个是用java改造后的，效果如下，排版整齐，和pdf中的格式…

阅读更多...

[总结] DDPM Diffusion模型各阶段训练和采样过程方案细节和代码逻辑汇总

[总结] DDPM Diffusion模型各阶段训练和采样过程方案细节和代码逻辑汇总

DDPM Diffusion模型训练和采样过程细节汇总算法回顾框架理解DDPM训练过程采样过程Text-guiled DDPM训练过程采样过程Null-text guiled DDPM训练过程采样过程项目代码训练过程![在这里插入图片描述](https://img-blog.csdnimg.cn/f6213f8e584b4142b0c5a016cd23b63a.png)采样过程…

阅读更多...

c++ std::funciona代替函数指针——结合std::bind

c++ std::funciona代替函数指针——结合std::bind

一、介绍std::function std::function是函数模板类（是一个类）。包含在#include <functional> 中。以前没有这个类的时候，我们在想定义一个回调函数指针，非常的麻烦。我们通常这样的定义： typedef void&#x…

阅读更多...

智能小便冲洗器行业市场运行态势及未来发展潜力分析

智能小便冲洗器行业市场运行态势及未来发展潜力分析

2023-2029年中国智能小便冲洗器行业市场运行态势及未来发展潜力报告报告编号：1690632免费目录下载：http://www.cninfo360.com/yjbg/jdhy/cwjd/20230105/1690632.html本报告著作权归博研咨询所有，未经书面许可，任何组织和个人不得以…

阅读更多...

Python人工智能之人脸识别face_recognition安装

Python人工智能之人脸识别face_recognition安装

face_recognition 模块使用系统环境搭建系统环境 Ubuntu / deepin操作系统Python 3.6pycharm 开发工具开发环境配置，安装各种系统包人脸检测基于dlib，dlib依赖Boost和cmake 在windows中如果要使用dlib还是比较麻烦的，如果想省时间可以在…

阅读更多...

【关于Linux中----文件系统、inode、软硬链接和动静态库】

【关于Linux中----文件系统、inode、软硬链接和动静态库】

文章目录一、理解文件系统和inode二、硬链接与软链接三、动静态库3.1、静态库与动态库3.2、生成静态库3.3、生成动态库一、理解文件系统和inode 在我前几篇博客中谈到的有关文件的话题，它们统一指的都是打开的文件，那么在这里，我要谈一下没有…

阅读更多...

Java基础之《netty（22）—netty编码解码机制》

Java基础之《netty（22）—netty编码解码机制》

一、编码和解码的基本介绍 1、编写网络应用程序时，因为数据在网络中传输的都是二进制字节码数据，在发数据时就需要编码，接收数据时就需要解码 2、codec（编解码器）的组成部分有两个：decoder（解…

阅读更多...

看小红书排行榜，解构热点背后的出圈密码

看小红书排行榜，解构热点背后的出圈密码

导语： 随着消费升级，新中式茶饮也悄然“起风了”，传统茶从老一辈人的茶杯里，通过创新再造，成为年轻人的社交“新”头好，其衍生的“围炉煮茶”更成为小红书平台的热门话题。高流量曝光之路背后，…

阅读更多...

一个精美的登录界面原来是这样做的

一个精美的登录界面原来是这样做的

👨‍💻个人主页：元宇宙-秩沅 hallo 欢迎点赞👍 收藏⭐ 留言📝 加关注✅! 本文由秩沅原创收录于专栏玩归玩闹归闹，别拿java开玩笑 —————————————————— ⭐相关文章⭐ -通过窗口看…

阅读更多...

隐形纱窗行业市场经营管理及发展趋势研究分析

隐形纱窗行业市场经营管理及发展趋势研究分析

2023-2029年中国隐形纱窗行业市场经营管理及发展趋势研究报告报告编号：1690619本报告著作权归博研咨询所有，未经书面许可，任何组织和个人不得以任何形式复制、传播或输出中华人民共和国境外。任何未经授权使用本报告的相关商业行为都将违反《…

阅读更多...

【操作系统】计算机内存管理

【操作系统】计算机内存管理

1.内存管理目标rom-ram （1）为啥要做内存管理计算机不可能所以用户进程和系统所需要的全部程序和数据放入主存，所以操作系统必须对内存空间进行合理有效的分配内存管理功能内存分配回收：主存储器（物理内存&#xff…

阅读更多...

UOS系统启动盘制作

UOS系统启动盘制作

UOS系统启动盘制作一、统信启动盘制作工具1、UOS系统1）在启动器打开启动盘制作工具![在这里插入图片描述](https://img-blog.csdnimg.cn/d51bf22e25a846cdb99f7f6317e9447f.png)2）选择镜像3）选择优盘并格式化4）开始制作5&#xff…

阅读更多...

推荐文章

最新文章