Spark大数据处理讲课笔记4.6 Spark SQL数据源 - JDBC

news2025/1/19 20:26:29

文章目录

  • 零、本讲学习目标
  • 一、Spark SQL读取关系数据库
  • 二、Spark SQL JDBC连接属性
  • 三、创建数据库与表
    • (一)创建数据库
    • (二)创建学生表
    • (二)创建成绩表
  • 四、读取和写入数据库表
    • (一)利用`dbtable`属性读取数据表
    • (二)利用`dbtable`属性读取数据表查询
    • (三)将数据帧内容写入数据表
    • (四)利用`query`属性读取数据表查询

零、本讲学习目标

  1. 了解Spark SQL JDBC连接属性
  2. 掌握利用Spark SQL读取关系数据库

一、Spark SQL读取关系数据库

  • Spark SQL还可以使用JDBC API从其他关系型数据库读取数据,返回的结果仍然是一个DataFrame,可以很容易地在Spark SQL中处理,或者与其他数据源进行连接查询。

二、Spark SQL JDBC连接属性

  • 在使用JDBC连接数据库时可以指定相应的连接属性
属性介绍
url连接的JDBC URL
driverJDBC驱动的类名
user数据库用户名
password数据库密码
dbtable数据库表名或能代表一张数据库表的子查询。在读取数据时,若只使用数据库表名,则将查询整张表的数据;若希望查询部分数据或多表关联查询,则可以使用SQL查询的FROM子句中有效的任何内容,例如放入括号中的子查询。该属性的值会被当作一张表进行查询,查询格式:select * from <dbtable属性值> where 1 = 1。注意,不允许同时指定dbtable和query属性。
query指定查询的SQL语句。注意:不允许同时指定dbtable和query属性,也不允许同时指定query和partitionColumn属性。当需要指定partitionColumn属性时,可以使用dbtable属性指定子查询,并使用子查询的别名对分区列进行限定。
partitionColumn
lowerBound
upperBound
这几个属性,若有一个被指定,则必须全部指定,且必须指定numPartitions属性。它们描述了如何在从多个Worker中并行读取数据时对表进行分区。partitionColumn必须是表中的数字、日期或时间戳列。注意,lowerBound 和upperBound只是用来决定分区跨度的,而不是用来过滤表中的行。因此,表中的所有行都将被分区并返回。
numPartitions对表并行读写数据时的最大分区数,这也决定了并发JDBC连接的最大数量。如果要写入数据的分区数量超过了此限制的值,那么在写入之前可以调用coalesce(numpartition)将分区数量减少到此限制的值。

三、创建数据库与表

(一)创建数据库

  • 创建数据库spark_db
    在这里插入图片描述
    在这里插入图片描述

(二)创建学生表

  • 创建表student,执行命令:CREATE TABLE student (id INT, name VARCHAR(10), gender VARCHAR(2), age INT);
    在这里插入图片描述
  • student表插入几条记录
    在这里插入图片描述
INSERT INTO student VALUES (1, '李文君', '女', 18);
INSERT INTO student VALUES (2, '唐玉龙', '男', 19);
INSERT INTO student VALUES (3, '陈燕文', '女', 20);
INSERT INTO student VALUES (4, '洪小刚', '男', 18);
INSERT INTO student VALUES (5, '郑小翠', '女', 19);

(二)创建成绩表

  • 创建表student,执行命令:CREATE TABLE score (id INT, name VARCHAR(10), score REAL);
    在这里插入图片描述
  • score表插入几条记录
    在这里插入图片描述

四、读取和写入数据库表

  • 启动Spark Shell
    在这里插入图片描述

(一)利用dbtable属性读取数据表

  • 读取student
val studentDF = spark.read.format("jdbc")
  .option("url", "jdbc:mysql://master:3306/spark_db?useSSL=false")     
  .option("driver","com.mysql.jdbc.Driver")  
  .option("dbtable", "student")  
  .option("user", "root")  
  .option("password", "903213")  
  .load()
  • 执行上述命令
    在这里插入图片描述
  • 执行命令:studentDF.show()
    在这里插入图片描述

(二)利用dbtable属性读取数据表查询

  • 读取studentscore关联查询结果
val resultDF = spark.read.format("jdbc")
  .option("url", "jdbc:mysql://master:3306/spark_db?useSSL=false")     
  .option("driver","com.mysql.jdbc.Driver")  
  .option("dbtable", "(select st.id, st.name, gender, age, score from student st inner join score sc on st.id = sc.id) t")  
  .option("user", "root")  
  .option("password", "903213")  
  .load()
  • 执行上述命令(dbtable属性的值是一个子查询,相当于SQL查询中的FROM关键字后的一部分)
    在这里插入图片描述
  • 查看结果数据帧内容,执行命令:resultDF.show()
    在这里插入图片描述
  • 将数据帧内容以json格式写入HDFS的/out目录
    在这里插入图片描述
  • 在slave1虚拟机上查看生成的json文件
    在这里插入图片描述

(三)将数据帧内容写入数据表

  • 将数据帧内容以jdbc格式写入数据库spark_dbtest
resultDF.write.mode(SaveMode.Overwrite).format("jdbc")
  .option("url", "jdbc:mysql://master:3306/spark_db?useSSL=false")     
  .option("dbtable", "test")
  .option("user", "root")
  .option("password", "903213")
  .save()
  • 执行上述命令
    在这里插入图片描述
  • 在Navicat里查看生成的test
    在这里插入图片描述

(四)利用query属性读取数据表查询

  • 读取studentscore关联查询结果
val resultDF = spark.read.format("jdbc")
  .option("url", "jdbc:mysql://master:3306/spark_db?useSSL=false")     
  .option("driver","com.mysql.jdbc.Driver")  
  .option("query", "select st.name, st.gender, sc.score from student st inner join score sc on st.id = sc.id")  
  .option("user", "root")  
  .option("password", "903213")  
  .load()
  • 执行上述命令,报错
    在这里插入图片描述

  • Spark2.1.1的Spark SQL的JDBC属性里没有query
    在这里插入图片描述

  • 从Spark 2.4.0开始的Spark SQL的JDBC属性里有query
    在这里插入图片描述

  • 将Spark集群的Spark版本升级到Spark2.4.4

  • 启动Spark Shell,执行命令:spark-shell --master spark://master:7077
    在这里插入图片描述

  • 读取studentscore关联查询结果

val resultDF = spark.read.format("jdbc")
  .option("url", "jdbc:mysql://master:3306/spark_db?useSSL=false")     
  .option("driver","com.mysql.jdbc.Driver")  
  .option("query", "select st.name, st.gender, sc.score from student st inner join score sc on st.id = sc.id")  
  .option("user", "root")  
  .option("password", "903213")  
  .load()
  • 执行上述命令
    在这里插入图片描述
  • 执行命令:resultDF.show()
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/527835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

力扣第 104 场双周赛 2681. 英雄的力量

原题链接力扣 题目大意&#xff1a;我开始看成连续子段了&#xff0c;写了个递归程序....... 一个数组任选一个子序列&#xff0c;子序列的力量值最大值平方*最小值。求所有子序列的力量和。 分析过程&#xff1a;如序列长度为n&#xff0c;子序列总数为2的n次幂&#xff0c…

SpringCloud------zookeeper代替Eureka,zookeeper版本冲突解决(七)

SpringCloud------zookeeper代替Eureka&#xff08;七&#xff09; SpringCloud整合zookeeper代替Eureka 注册中心zookeeper zookeeper是一个分布式协调工具&#xff0c;可以实现注册中心功能 关闭Linux服务器防火墙后&#xff0c;启动zookeeper服务器 zookeeper服务器取代Eur…

mac桌面文件删除怎么恢复?别急,有办法!

大家是不是习惯于将临时要用的文件都存放在桌面上。虽然文件放在桌面上&#xff0c;可以方便我们随时调取&#xff0c;但是也容易出现误删除的情况&#xff0c;给我们带来麻烦。mac桌面文件删除怎么恢复&#xff1f;希望通过本篇教程&#xff0c;你能找回误删除的桌面文件。 案…

script标签type值application/json,importmap和module

type&#xff08;默认text/javascript&#xff09; 该属性定义 script 元素包含或src引用的脚本语言。属性的值为 MIME 类型&#xff08;媒体类型&#xff09;&#xff1b; 如果没有定义这个属性&#xff0c;脚本会被视作 JavaScript。 如果 MIME 类型不是 JavaScript 类型&a…

GPT4结对编程实战,鹅厂一线研发真实使用感受

&#x1f449;腾小云导读 ChatGPT4相比ChatGPT3.5在逻辑推理能力上有很大的进步&#xff0c;其代码生成能力颇为优越。因此作者尝试在工作中某些不涉密的基础工作上&#xff0c;应用ChatGPT4来提升研发效率&#xff0c;简单尝试之后发现其在不少场景是有效的。本文将向大家展示…

元宇宙又“死”了!Epic老板:你当6亿用户是摆设?

“扎克伯格花了数年时间试图让Metaverse成为现实&#xff0c;但现在它已被AI取代&#xff0c;并走向科技创意的坟墓。”一篇表达“元宇宙已死”的文章近期在推特上引发热议&#xff0c;而游戏制作公司Epic Games CEO Tim Sweeney的还击更是让这个话题热上加热。 “搞一次在线守…

【SSL证书】使用mkcert创建局域网或单机可信任Windows格式证书

初学者对SSL证书的理解可能非常模糊。所谓SSL证书&#xff0c;其实它包含两个方面&#xff0c;一是根证书&#xff0c;二是HTTPS的证书&#xff0c;HTTPS证书合法性由其根证书来进行认定。几大证书供应商的根证书一般都预置在系统中了&#xff0c;所以给人的错觉就是只知HTTPS证…

深入解析 Facebook 分析工具,洞察用户行为和优化策略

作为一名 Facebook 运营者&#xff0c;了解用户行为和优化策略是至关重要的。在本文中&#xff0c;我们将深入解析Facebook 分析工具&#xff0c;帮助你更好地洞察用户行为和优化策略。 1.Facebook 像素 Facebook 像素是一个重要的工具&#xff0c;可以帮助运营者了解用户在网…

SNMP简介

背景 简单网络管理协议SNMP&#xff08;Simple Network Management Protocol&#xff09;用于网络设备的管理。网络设备种类多种多样&#xff0c;不同设备厂商提供的管理接口&#xff08;如命令行接口&#xff09;各不相同&#xff0c;这使得网络管理变得愈发复杂。为解决这一…

新车推迟、裁员降本,沃尔沃被现实狠狠“扇了一个耳光”

汽车行业的魅力&#xff0c;或许就在于不断的给自己打气&#xff0c;然后被打脸。 今年&#xff0c;上海车展开幕前&#xff0c;沃尔沃汽车大中华区销售公司总裁钦培吉在新车发布会上直言&#xff1a;“新势力会的&#xff0c;我们三年就学会了&#xff1b;我们会的&#xff0c…

无影云桌面,搭建一个属于自己的云上主机

无影云桌面&#xff0c;搭建一个属于自己的云上主机 1.无影云桌面介绍2.无影云桌面试用3.无影云桌面尝鲜4.测试云桌面的连通性5.体验无影云的娱乐办公场景6.将无影云桌面作为服务器使用7.无影云桌面使用总结 1.无影云桌面介绍 无影云桌面是一种云计算技术&#xff0c;可以将用…

《LKD3粗读笔记》(12)内存管理

1、页 内核把物理页作为内存管理的基本单元内存管理单元&#xff08;MMU&#xff09;以页为单位来管理系统中的页表从虚拟内存的角度看&#xff0c;页就是最小单位。体系结构不同&#xff0c;支持页的大小也不尽相同。大多数32位体系结构支持4KB的页&#xff0c;而64位体系结构…

排序算法之堆排序的实现

一、堆的相关概念 堆一般指的是二叉堆&#xff0c;顾名思义&#xff0c;二叉堆是完全二叉树或者近似完全二叉树 1. 堆的性质 ① 是一棵完全二叉树 ② 每个节点的值都大于或等于其子节点的值&#xff0c;为最大堆&#xff1b;反之为最小堆。 2. 堆的存储 一般用数组来表示堆&…

网站域名查询地址-域名所有者查询

域名查询注册信息查询 147SEO域名查询是一款全能的域名查询注册信息查询软件。它不仅提供了单个域名的实时查询功能&#xff0c;还支持批量域名查询功能&#xff0c;可以快速查询多个域名的注册和到期信息。以下是147SEO域名查询的主要特点&#xff1a; 批量域名查询&#xff…

基于【EasyDL】【图像分类】实现农作物病害识别小程序

内容、数据集来源:基于飞桨的农作物病害智能识别系统 - 飞桨AI Studio 项目背景 联合国粮食及农业组织的一份报告表明&#xff0c;每年农业生产的自然损失中有三分之一以上是由农业病虫害造成的&#xff0c;使这些成为当前影响农业生产和农业生产的最重要因素。需要考虑的农业…

浅谈Vue响应式

什么是响应式 不管是自己面试还是八股文告诉你的是&#xff0c;响应式描述的是视图与数据变化之间的一种关系。但这不够准确。 要要了解什么是响应式&#xff0c;我们必须了解不管是React,还是Vue其实本质就是一个函数。 那么我们可以形象的说&#xff1a;响应式描述的就是函数…

编译C++ makefile ZXing-cpp生成条型码 二维码及识别 再试验证成功vs2022

下载ZXing-cpp源码及vs2022 cmake --help看看支持的vs 为什么没有win32呢 进到目录&#xff0c;//新建编译目录//生成vs工程 mkdir build & cd build cmake .. 中间提示opencv和qt等缺东西不要紧&#xff0c;我只用到生成条型码 release也正常。生成成功。 默认是MD 先…

记一次 .NET 某医院门诊软件 卡死分析

一&#xff1a;背景 1. 讲故事 前几天有位朋友找到我&#xff0c;说他们的软件在客户那边卡死了&#xff0c;让我帮忙看下是怎么回事&#xff1f;我就让朋友在程序卡死的时候通过 任务管理器 抓一个 dump 下来&#xff0c;虽然默认抓的是 wow64 &#xff0c;不过用 soswow64.…

FreeRTOS学习笔记(四)——应用开发(二)

文章目录 0x01 互斥量互斥量的优先级继承机制互斥量应用场景互斥量运作机制互斥量控制块互斥量接口函数xSemaphoreCreateMutex()xQueueCreateMutex()prvInitialiseMutex&#xff08;&#xff09;xSemaphoreCreateRecursiveMutex()vSemaphoreDelete()xSemaphoreTake()xQueueSema…

通过nginx配置 将vue项目运行到阿里云linux服务器上

先将 我们的vue项目打包起来 打包好之后 我们在项目根目录下 找到 dist 下的 index.html 保证这个文件要能正常运行 然后 我们将这个dist文件夹 压缩一下 然后 回到项目终端 执行 scp -r ./dist.zip 用户名(如果之前没设置过就是 root)服务器公网地址:/root然后 他会要求我…