Spark SQL— Catalyst 优化器

news2024/11/29 14:54:40

Spark SQL— Catalyst 优化器

1. 目的

本文的目标是描述Spark SQL 优化框架以及它如何允许开发人员用很少的代码行表达复杂的查询转换。我们还将描述Spark SQL如何通过大幅提高其查询优化能力来提高查询的执行时间。在本教程中,我们还将介绍什么是优化、为什么使用 Catalyst 优化器、其基本工作单元是什么以及 Spark 执行流程的各个阶段。

Spark SQL 优化 - 了解 Catalyst 优化器

2. Apache Spark SQL优化简介

“优化一词是指修改系统以使其工作更高效或使用更少资源的过程。”
Spark SQL是 Apache Spark 中技术含量最高的组件。Spark SQL 处理 SQL 查询和 DataFrame API。Spark SQL 的深处有一个催化剂优化器。Catalyst 优化允许一些高级编程语言功能,使您可以构建可扩展的查询优化器。
一种名为 Catalyst 的新型可扩展优化器出现了,用于实现 Spark SQL。该优化器基于**Scala中的函数式编程构造。
Catalyst Optimizer 支持
基于规则基于成本的**优化。在基于规则的优化中,基于规则的优化器使用一组规则来确定如何执行查询。而基于成本的优化则找到最合适的方式来执行SQL语句。在基于成本的优化中,使用规则生成多个计划,然后计算它们的成本。

3. Catalyst Optimizer 的需求是什么?

Catalyst 的可扩展设计背后有两个目的:

  • 我们希望添加简单的解决方案来解决**大数据**的各种问题,例如半结构化数据和高级数据分析的问题。
  • 我们想要一种简单的方法,以便外部开发人员可以扩展优化器。

4. Catalyst Optimizer 的基础知识

Catalyst 优化器利用Scala 编程的标准功能,例如模式匹配。在深度上,Catalyst 包含和操作树的规则集。有特定的库来处理关系查询。有各种规则集可以处理查询执行的不同阶段,例如分析查询优化、物理规划代码生成,以将部分查询编译为 Java 字节码。让我们详细讨论树和规则 -

4.1. 树木

树是催化剂中的主要数据类型。树包含节点对象。对于每个节点,都有一个节点。一个节点可以有一个或多个子节点。新节点被定义为 TreeNode 类的子类。这些对象本质上是不可变的。可以使用函数变换来操纵对象。
例如,如果我们有三个节点类:worthattributesub,其中 -

  • value(value: Int): 常量值
  • 属性(名称:字符串)
  • sub(左:TreeNode,右:TreeNode):两个表达式相减。

Spark-SQL-Catalyst-optimizer-tree-示例

4.2. 规则

我们可以使用规则来操纵树。我们可以将规则定义为从一棵树到另一棵树的函数。通过规则,我们可以在输入树上运行任意代码,这是使用模式匹配函数并用特定结构替换子树的常见方法。在树中,借助变换函数,我们可以在树的所有节点上递归地应用模式匹配。我们得到将每个模式与结果相匹配的模式。
例如-
tree.transform {case Sub(worth(c1),worth(c2)) =>worth(c1+c2) }
在模式匹配期间传递给transform的表达式是一个偏函数。通过部分函数,​​这意味着它只需要匹配所有可能的输入树的子集。Catalyst 将查看给定规则适用于树的哪个部分,并自动跳过不匹配的树。使用相同的转换调用,规则可以匹配多个模式。
例如 -

*tree.transform {*
*case Sub(worth(c1),worth(c2)) =>worth(c1-c2)*
*case Sub(left ,worth(0)) => left*
*case Sub(worth(0), right ) => right*
*}*

为了完全转换一棵树,规则可能需要执行多次。
催化剂通过将规则分组为批次来工作,并且执行这些批次直到达到固定点。固定点是指即使在应用规则之后树也停止变化的点。

5.Spark SQL执行计划

在详细介绍了 Apache Spark SQL 催化剂优化器之后,现在我们将讨论 Spark SQL 查询执行阶段。我们分四个阶段使用 Catalyst 的通用树转换框架:

  • 分析
  • 逻辑优化
  • 物理规划
  • 代码生成

Spark-SQL-执行-查询-计划

5.1. 分析

Spark SQL优化从要计算的关系开始。它是根据SQL 解析器返回的**抽象语法树 (AST)**或使用 API 创建的DataFrame对象计算的。两者都可能包含未解析的属性引用或关系。未解析的属性意味着我们不知道其类型或未将其与输入表匹配。Spark SQL 利用 Catalyst 规则和一个 Catalog 对象来跟踪所有数据源中的数据来解析这些属性。首先创建一个未解决的逻辑计划,然后应用以下步骤:

  • 按目录中的名称搜索关系。
  • 将名称属性(例如 col)映射到给定运算符子级提供的输入。
  • 确定哪些属性与相同的值匹配,从而为它们提供唯一的 ID。
  • 通过表达式传播和推送类型。

5.2. 逻辑优化

在 Spark SQL 优化的此阶段,标准的基于规则的优化应用于逻辑计划。它包括常量折叠谓词下推投影剪枝等规则。为各种情况添加规则变得非常容易。

5.3. 物理规划

物理规划规则大约有500行代码。在这一阶段,使用物理运算符匹配Spark执行引擎,从逻辑计划形成一个或多个物理计划。它使用成本模型选择计划。它仅使用基于成本的优化来选择连接算法。对于使用广播连接的小关系 SQL,该框架支持更广泛地使用基于成本的优化。它可以使用该规则递归地估计整个树的成本。
基于规则的物理优化,例如将投影或过滤器管道化到一个 Spark地图中操作也由物理规划器执行。除此之外,它还可以将逻辑计划中的操作推送到支持谓词或投影下推的数据源中。

5.4. 代码生成

Spark SQL 优化的最后阶段是代码生成。它涉及生成在每台机器上运行的 Java 字节码。Catalyst 使用 Scala 语言的特殊功能“ Quasiquotes ”来使代码生成变得更容易,因为构建代码生成引擎非常困难。Quasiquotes 允许以 Scala 语言以编程方式构造抽象语法树 (AST),然后可以在运行时将其提供给 Scala 编译器以生成字节码。在催化剂的帮助下,我们可以将表示 SQL 表达式的树转换为 Scala 代码的 AST,以计算该表达式,然后编译并运行生成的代码。

6. 总结

因此,Spark SQL 优化提高了开发人员的工作效率以及他们编写的查询的性能。一个好的查询优化器会自动重写关系查询以更有效地执行,使用早期过滤数据、利用可用索引等技术,甚至确保不同的数据源以最有效的顺序连接。
通过执行这些转换,优化器可以缩短关系查询的执行时间,并使开发人员不再关注应用程序的语义而不是性能。
Catalyst 利用 Scala 的强大功能(例如模式匹配和运行时元编程)来允许开发人员简洁地指定复杂的关系优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1556107.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

先进电机技术 —— 何为轮毂电机?

一、轮毂电机 轮毂电机(Hub Motor)是一种将电动机集成到车轮内部,直接驱动车轮转动的电动车驱动技术。这种设计省去了传统的传动轴、差速器、半轴等机械传动部件,使得动力传输更为直接、高效。 轮毂电机的优点: 1. 结…

elementui el-input输入框类型为textarea时,将输入的数据保存换行和空格,并展示换行和空格

el-input输入框类型为textarea时,如果不做数据处理,是不会保存换行和空格的说输入了换行,但是保存数据后不会进行换行,需要保存输入的换行。 1、效果图 输入状态: 显示时: 2、实现代码 2.1、html部分&am…

【CKA模拟题】综合案例演示如何创建pv和pvc

Useful Resources: Persistent Volumes & Claim 题干 For this question, please set this context (In exam, diff cluster name) kubectl config use-context kubernetes-adminkubernetesCreate a PersistentVolume (PV) and a PersistentVolumeClaim (PVC) using an e…

排序---数组和集合

1、数组排序 Arrays.sort(int[] a)这种形式是对一个数组的所有元素进行排序,并且是按照从小到大的排序。 public static void main(String[] args) {Integer []arr {1,2,3,4,5,6};//升序Arrays.sort(arr);for (int x:arr){System.out.print(x " ");}Sys…

【Web APIs】正则表达式

目录 1.正则表达式 2.正则表达式语法 3.元字符 3.1边界符 3.2量词 3.3字符类 4.修饰符 1.正则表达式 正则表达式(Regular Expression)是用于匹配字符串中字符组合的模式,在 JavaScript中,正则表达式也是对象。通常用来查…

数据分析之POWER Piovt的KPI设置

内容总结: 1.两个表格关联不上:需要添加辅助列,建立关联 2.添加辅助列后还关联不上:将虚线变为实线 3.根据需求要增加一些度量值 4.设置KPI后,绝对值选1后设定百分比 5.在透视表里面加入KPI状态 导入所关联的数据后建立…

取证之内存取证工具Volatility学习

一、简介 Volatility是一款开源的内存取证分析工具,支持Windows,Linux,MaC,Android等多类型操作系统系统的内存取证方式。该工具是由python开发的,目前支持python2、python3环境。 二、安装 1、下载地址 GitHub - …

Matlab之求直角坐标系下两直线的交点坐标

目的:在直角坐标系下,求两个直线的交点坐标 一、函数的参数说明 输入参数: PointA:直线A上的点坐标; AngleA:直线A的倾斜角,单位度; PointB:直线B上的点坐标&#xf…

【日常记录】【JS】@babel/core @babel/polyfill @babel/preset-env core-js 介绍

文章目录 1、介绍1.1 babel/core1.2 babel/polyfill1.3 babel/preset-env 2、基本使用3、参考链接 1、介绍 1.1 babel/core babel/core 是 Babel 编译器的核心模块,它是 Babel 工具链的核心组件之一。Babel 是一个 JavaScript 编译器,主要用于将 ECMASc…

数据结构——链表(单链表)

大家好,又是我(小锋),今天给大家带了一个比较有挑战的章节(链表),但是不用担心,小锋会陪大家一起度过。 顺序表的思考与问题 1. 中间/头部的插入删除,时间复杂度为O(N) …

rhcsa复习4

文件权限 文件的权限针对三类对象进行定义 owner 属主,缩写 u group 属组,缩写 g other 其他,缩写 o 每个文件针对每类访问者定义了三种主要权限 r : Read 读 - 文本文件 cat tac more less head tail paste d ls -l 列…

数字范围按位与

题目链接 数字范围按位与 题目描述 注意点 0 < left < right < 2^31 - 1包含 left 、right 端点 解答思路 返回区间内所有数字按位与的结果&#xff0c;所以区间内所有数字在某一位的值相同&#xff0c;则结果该位数字为该值&#xff0c;否则该位数字为0&#xf…

【漏洞复现】XETUX 系统 dynamiccontent 接口处存在远程代码执行漏洞

免责声明&#xff1a;文章来源互联网收集整理&#xff0c;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;所产生的一切不良后果与文章作者无关。该…

xftp突然无法连接虚拟机

问题描述 使用xftp连接虚拟机的时候一直显示 连接xxx.xxx.xx.xx失败 问题原因查找 首先打开本地cmd命令提示符 ping 你的虚拟机ip地址 我的是 ping 192.168.xx.xx 显示请求超时 解决方案&#xff1a; 点击打开更改适配器选项 右键vmnet 8——属性 如图前四个选项必选 单…

docker环境配置过程中的常见问题

1、pull镜像问题 docker pull jenkins/jenkins:lts Using default tag: latest Trying to pull repository docker.io/library/centos ... Get https://registry-1.docker.io/v2/library/centos/manifests/latest: Get https://auth.docker.io/token?scoperepository%3Alibr…

液体和固体介质的电气特性

本篇为本科课程《高电压工程基础》的笔记。 液体和固体介质广泛应用于高压电气设备内&#xff0c;作为设备的内绝缘。描述电介质的电气特性的四大参数是介电常数 ε \varepsilon ε、电导率 γ \gamma γ、介质损耗角正切 tan ⁡ δ \tan\delta tanδ和击穿场强 E b E_b Eb​。…

【智能家居项目】RT-Thread版本——DHT11获取温湿度 | MQTT上传到服务器 | 服务器控制外设

&#x1f431;作者&#xff1a;一只大喵咪1201 &#x1f431;专栏&#xff1a;《智能家居项目》 &#x1f525;格言&#xff1a;你只管努力&#xff0c;剩下的交给时间&#xff01; 这篇文章中&#xff0c;本喵将使用RT-Thread Studio来实现这个智能家居的项目&#xff0c;最终…

词令外卖节红包天天神券每天领取直达入口

词令外卖节红包天天领直达入口 1、打开「词令」关键词口令直达微信小程序&#xff1b; 2、输入词令「外卖红包88」关键词直达口令&#xff1b; 3、搜索直达进入外卖红包天天领入口&#xff0c;即可成功领取外卖节红包和天天神券点外卖可享受券后价优惠&#xff1b; *温馨提醒&…

故障诊断模型 | 基于多信号融合和改进的深度卷积生成对抗网络的不平衡数据故障诊断方法

文章目录 文章概述模型描述参考资料文章概述 本文提出了一种解决数据不平衡问题并提高诊断准确性的诊断方法。首先,通过小波变换处理来自多个传感器的信号,以增强数据特征,然后通过池化和拼接操作对其进行压缩和融合。随后,构建改进的对抗网络来生成新的样本进行数据增强。…

C#预处理器指令(巨细版)

文章目录 一、预处理器指令的基本概念二、预处理器指令的基本规则三、C# 预处理器指令详解3.1 #define 和 #undef3.2 #if、#else、#elif 和 #endif3.3 #line3.4 #error 和 #warning3.5 #region 和 #endregion 四、高级应用&#xff1a;预处理器指令的最佳实践4.1 条件编译的最佳…