Spark-SQL

news2025/4/17 9:45:24

Spark-SQL 概述

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块

Shark 是伯克利实验室 Spark 生态环境的组件之一,是基于 Hive 所开发的工具,它修改了内存管理、物理计划、执行三个模块,并使之能运行在 Spark 引擎上

Shark 的出现,使得 SQL-on-Hadoop 的性能比 Hive 有了 10-100 倍的提高

Spark 团队重新开发了SparkSQL代码;摆脱了对Hive的依赖性,SparkSQL 无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便

1.数据兼容方面 SparkSQL 不但兼容 Hive,还可以从 RDD、parquet 文件、JSON 文件中 获取数据,未来版本甚至支持获取 RDBMS 数据以及 cassandra 等 NOSQL 数据

2.性能优化方面 除了采取 In-Memory Columnar Storage、byte-code generation 等优化技术 外、将会引进 Cost Model 对查询进行动态评估、获取最佳物理计划等等

3.组件扩展方面无论是 SQL 的语法解析器、分析器还是优化器都可以重新定义,进行扩 展

Spark-SQL 特点

1.易整合。无缝的整合了 SQL 查询和 Spark 编程

2.统一的数据访问。使用相同的方式连接不同的数据源

3.兼容 Hive。在已有的仓库上直接运行 SQL 或者 HQL

4.标准数据连接。通过 JDBC 或者 ODBC 来连接

DataFrame

在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中 的二维表格

DataFrame 与 RDD 的区别

主要区别在于,前者带有 schema 元信息,即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型

 DataSet

DataSet 是分布式数据集合,是 DataFrame 的一个扩展,是 SparkSQL 最新的数据抽象。它提供了 RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及 Spark SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换(操作 map,flatMap,filter 等等)

Spark-SQL核心编程(一)

DataFrame

Spark SQL 的 DataFrame API 允许我们使用 DataFrame 而不用必须去注册临时表或者生成 SQL 表达式。DataFrame API 既有 transformation 操作也有 action 操作

创建 DataFrame

在 Spark SQL 中 SparkSession 是创建 DataFrame 和执行 SQL 的入口,创建 DataFrame

有三种方式:通过 Spark 的数据源进行创建;从一个存在的 RDD 进行转换;还可以从 Hive

Table 进行查询返回

Spark-SQL支持的数据类型:

在 spark 的 bin/data 目录中创建 user.json 文件并在文件中添加数据

读取 json 文件创建 DataFrame,展示数据

SQL 语法

SQL 语法风格是指我们查询数据的时候使用 SQL 语句来查询,这种风格的查询必须要

有临时视图或者全局视图来辅助

实例:

  读取 JSON 文件创建 DataFrame

对 DataFrame 创建一个临时表,通过 SQL 语句实现查询全表,结果展示

Spark-SQL核心编程(二)

DSL 语法

DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据

可以在 Scala, Java, Python 和 R 中使用 DSL,使用 DSL 语法风格

实例:

创建一个 DataFrame

查看 DataFrame 的 Schema 信息

只查看"username"列数据

    查看"username"列数据以及"age+1"数据

    注意:涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式:单引号+字段名

    查看"age"大于"18"的数据

    按照"age"分组,查看数据条数

    RDD 转换为 DataFrame

    创建id.txt,并添加数据

    将数据导入并查询

    实际开发中,一般通过样例类将 RDD 转换为 DataFrame

    DataFrame 转换为 RDD

    DataFrame 其实就是对 RDD 的封装,所以可以直接获取内部的 RDD

    实例:

    注意:此时得到的 RDD 存储类型为 Row

    Spark-SQL核心编程(三)

    DataSet

    创建 DataSet

    实例:

    使用样例类序列创建 DataSet

    使用基本类型的序列创建 DataSet

    注意:在实际使用的时候,很少用到把序列转换成DataSet,更多的是通过RDD来得到DataSet

    RDD 转换为 DataSet

    parkSQL 能够自动将包含有 case 类的 RDD 转换成 DataSet,case 类定义了 table 的结 构,case 类属性通过反射变成了表的列名

    实例:

    DataSet 转换为 RDD

    DataSet 其实也是对 RDD 的封装,所以可以直接获取内部的 RDD

    实例:

    此处报错原因是 res3  并不存在(从前面代码看没有定义过 res3  ),而且即使存在,如果它的类型不是包含 rdd  成员的类型(比如不是 Dataset  等相关类型)

    DataFrame 和 DataSet 转换

    DataFrame 其实是 DataSet 的特例,所以它们之间是可以互相转换的

    DataFrame 转换为 DataSet

    实例

    DataSet 转换为 DataFrame

    实例

    RDD、DataFrame、DataSet 三者的关系

    从版本的产生上来看:

    Spark1.0 => RDD

    Spark1.3 => DataFrame

    Spark1.6 => Dataset

    同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不

    同是的他们的执行效率和执行方式。在后期的 Spark 版本中,DataSet 有可能会逐步取代 RDD和 DataFrame 成为唯一的 API 接口

    三者的共性

    1)RDD、DataFrame、DataSet 全都是 spark 平台下的分布式弹性数据集,为处理超大型数

    据提供便利;

    2)三者都有惰性机制,在进行创建、转换,如 map 方法时,不会立即执行,只有在遇到

    Action 如 foreach 时,三者才会开始遍历运算;

    3)三者有许多共同的函数,如 filter,排序等;

    4)在对 DataFrame 和 Dataset 进行操作许多操作都需要这个包:

            import spark.implicits._(在创建好 SparkSession 对象后尽量直接导入)

    5)三者都会根据 Spark 的内存情况自动缓存运算,这样即使数据量很大,也不用担心会

    内存溢出

    6)三者都有分区(partition)的概念

    7)DataFrame 和 DataSet 均可使用模式匹配获取各个字段的值和类型

    三者的区别

    1) RDD

    ➢ RDD 一般和 spark mllib 同时使用

    ➢ RDD 不支持 sparksql 操作

    2) DataFrame

    ➢ 与 RDD 和 Dataset 不同,DataFrame 每一行的类型固定为Row,每一列的值没法直

    接访问,只有通过解析才能获取各个字段的值

    ➢ DataFrame 与 DataSet 一般不与 spark mllib 同时使用

    ➢ DataFrame 与 DataSet 均支持 SparkSQL 的操作,比如 select,groupby 之类,还能

    注册临时表/视窗,进行 sql 语句操作

    ➢ DataFrame 与 DataSet 支持一些特别方便的保存方式,比如保存成 csv,可以带上表

    头,这样每一列的字段名一目了然

    3) DataSet

    ➢ Dataset 和 DataFrame 拥有完全相同的成员函数,区别只是每一行的数据类型不同。

    DataFrame 其实就是 DataSet 的一个特例 type DataFrame = Dataset[Row]

    ➢ DataFrame 也可以叫 Dataset[Row],每一行的类型是 Row,不解析,每一行究竟有哪

    些字段,各个字段又是什么类型都无从得知,只能用上面提到的 getAS 方法或者共性里提到的模式匹配拿出特定字段。而 Dataset 中,每一行是什么类型是不一定的,在自定义了 case class 之后可以很自由的获得每一行的信息

    三者可以通过上图的方式进行相互转换

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2335043.html

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

    相关文章

    无人机气动-结构耦合技术要点与难点

    一、技术要点 1. 多学科耦合建模 气动载荷与结构响应的双向耦合:气动力(如升力、阻力、力矩)导致结构变形,而变形改变气动外形,进一步影响气流分布,形成闭环反馈。 建模方法: 高精度C…

    element-ui plus 中 filter-method 函数多次触发问题解决

    前情提要 点进这个文章的小伙伴,应该都是为了解决一个需求,把原本的前端过滤改为后端过滤,但是将filter-method修改为后端取数据后,发现其触发了很多次。博主也是在修改表格过滤时用到了这个坑,本篇文章为大家解决一下…

    基于【Lang Chain】构建智能问答系统的实战指南

    🐇明明跟你说过:个人主页 🏅个人专栏:《深度探秘:AI界的007》 🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、什么是Lang Chain 2、LangChain在问答系统中的核心优…

    TestHubo安装及入门指南

    TestHubo是一款开源免费的测试管理工具,提供一站式测试解决方案,涵盖功能测试、接口测试、性能测试以及 Web 和 App 测试等多个维度。TestHubo 整合了全面的测试能力,使团队可以在一个平台内完成所有测试需求。本文将介绍如何快速安装配置及入…

    react tailwindcss最简单的开始

    参考教程: Install Tailwind CSS with Vite - TailwindCSS中文文档 | TailwindCSS中文网https://www.tailwindcss.cn/docs/guides/vite操作过程: Microsoft Windows [版本 10.0.26100.3476] (c) Microsoft Corporation。保留所有权利。D:\gitee\tailwi…

    openGauss新特性 | 自动参数化执行计划缓存

    目录 自动化参数执行计划缓存简介 SQL参数化及约束条件 一般常量参数化示例 总结 自动化参数执行计划缓存简介 执行计划缓存用于减少执行计划的生成次数。openGauss数据库会缓存之前生成的执行计划,以便在下次执行该SQL时直接使用,可…

    3、组件:魔法傀儡的诞生——React 19 组件化开发全解析

    一、开篇:魔法傀儡的觉醒 "每个React组件都像一具魔法傀儡,"邓布利多校长挥动魔杖,空中浮现出闪烁的代码字符,"它们能自主思考、协同工作,甚至能跨越时空(服务器与客户端)执行任…

    达梦数据库迁移问题总结

    更多技术博客,请关注微信公众号:运维之美 问题一、DTS工具运行乱码 开启图形化 [rootlocalhost ~]# xhost #如果命令不存在执行sudo yum install xorg-x11-server-utils xhost: unable to open display "" [rootlocalhost ~]# su - dmd…

    OpenHarmony荷兰研习会回顾 | 仓颉语言赋能原生应用开发实践

    近日,由全球顶级学术峰会EuroSys/ASPLOS和OpenHarmony社区在荷兰鹿特丹合办的操作系统深度研习会圆满收官,本次研习会以"架构探秘-开发实践-创新实验"三位一体的进阶模式,为全球开发者构建了沉浸式技术探索平台。其中,由…

    RV1126 人脸识别门禁系统解决方案

    1. 方案简介 本方案为类人脸门禁机的产品级解决方案,已为用户构建一个带调度框架的UI应用工程;准备好我司的easyeai-api链接调用;准备好UI的开发环境。具备低模块耦合度的特点。其目的在于方便用户快速拓展自定义的业务功能模块,以及快速更换UI皮肤。 2. 快速上手 2.1 开…

    matlab内置的git软件版本管理功能

    1、matlab多人协作开发比普通的嵌入式软件开发困难很多 用过matlab的人都知道,版本管理对于matlab来说真的很费劲,今天介绍的这个工具也不是说它就解决了这个痛点,只是让它变得简单一点。版本管理肯定是不可或缺的,干就完了 2、操作说明 如图所示,源代码管理,选项罗列的…

    《前端面试题之 CSS篇(第一集)》

    目录 1、CSS的盒模型2、CSS选择器及其优先级3、隐藏元素的方法有那些4、px、em、rem的区别及使用场景5、重排、重绘有什么区别6、水平垂直居中的实现7、CSS中可继承与不可继承属性有哪些8、Sass、Less 是什么?为什么要使用他们?9、CSS预处理器/后处理器是…

    MySQL部分总结

    mysql学习笔记,如有不足还请指出,谢谢。 外连接,内连接,全连接 外连接:左外、右外 内连接:自己和自己连接 全连接:左外连接右外链接 mysql unique字段 unique可以在数据库层面避免插入相同…

    Linux Kernel 2

    地址空间(Address Space) 一、物理地址空间(Physical Address Space) 物理地址空间 是指 RAM 和设备内存 在系统内存总线上所呈现的地址布局。 举例:在典型的 32 32 32 位 Intel 架构中, RAM&#xff08…

    AndroidTV D贝桌面-v3.2.5-[支持文件传输]

    AndroidTV D贝桌面 链接:https://pan.xunlei.com/s/VONXSBtgn8S_BsZxzjH_mHlAA1?pwdzet2# AndroidTV D贝桌面-v3.2.5[支持文件传输] 第一次使用的话,壁纸默认去掉的,不需要按遥控器上键,自己更换壁纸即可

    线性方程组的解法

    文章目录 线性方程组的解法认识一些基本的矩阵函数MATLAB 实现机电工程学院教学函数构造1.高斯消元法2.列主元消去法3. L U LU LU分解法 线性方程组的解法 看到以下线性方程组的一般形式:设有以下的 n n n阶线性方程组: A x b \mathbf{Ax}\mathbf{b} A…

    Python赋能量子计算:算法创新与应用拓展

    量子计算与Python结合的算法开发与应用研究 摘要 量子计算作为计算机科学的前沿技术,凭借其独特的计算能力在解决复杂问题方面展现出巨大潜力。Python作为一种高效、灵活的编程语言,为量子计算算法的开发提供了强大的支持。本文从研究学者的视角,系统探讨了量子计算与Pytho…

    Java学习笔记(多线程):ReentrantLock 源码分析

    本文是自己的学习笔记,主要参考资料如下 JavaSE文档 1、AQS 概述1.1、锁的原理1.2、任务队列1.2.1、结点的状态变化 1.3、加锁和解锁的简单流程 2、ReentrantLock2.1、加锁源码分析2.1.1、tryAcquire()的具体实现2.1.2、acquirQueued()的具体实现2.1.3、tryLock的具…

    【软考系统架构设计师】系统配置与性能评价知识点

    1、 常见的性能指标 主频外频*倍频 主频1/CPU时钟周期 CPI(Clock Per Instruction)平均每条指令的平均时间周期数 IPC(Instruction Per Clock)每时钟周期运行指令数 MIPS百万条指令每秒 MFLOPS百万个浮点操作每秒 字长影响运算的…

    解锁Midjourney创作潜能:超详细提示词(Prompts)分类指南

    AI生图自由!就来 ChatTools (https://chat.chattools.cn),畅享Midjourney免费无限绘画。同时体验GPT-4o、Claude 3.7 Sonnet、DeepSeek等强大模型。 为了帮助大家更好地驾驭Midjourney,我们精心整理并分类了大量常用且效果出众的提示词。无论…