Spark大数据处理学习笔记2.1 初识Spark

news2026/2/9 5:57:59

文章目录

一、学习目标
二、spark概述
- （一）Spark的组件
- - 1、Spark Core
  - 2、Spark SQL
  - 3、Spark Streaming
  - 4、MLlib
  - 5、Graph X
  - 6、独立调度器、Yarn、Mesos
- （二）Spark的发展史
- - 1、发展简史
  - 2、目前最新版本
三、spark特点
- （一）速度快
- （二）易用性
- （三）通用性
- （四）兼容性

一、学习目标

1.了解什么是Spark计算框架
2.了解Spark计算框架的特点
3.了解Spark计算框架的应用场景
4.理解Spark框架与Hadoop框架的对比

二、spark概述

（一）Spark的组件

Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件。

1、Spark Core

Spark核心组件，实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含对弹性分布式数据集的API定义。

2、Spark SQL

用来操作结构化数据的核心组件，通过Spark SQL可直接查询Hive、HBase等多种外部数据源中的数据。Spark SQL的重要特点是能够统一处理关系表和RDD。

3、Spark Streaming

Spark提供的流式计算框架，支持高吞吐量、可容错处理的实时流式数据处理，其核心原理是将流数据分解成一系列短小的批处理作业。

4、MLlib

Spark提供的关于机器学习功能的算法程序库，包括分类、回归、聚类、协同过滤算法等，还提供了模型评估、数据导入等额外的功能。

5、Graph X

Spark提供的分布式图处理框架，拥有对图计算和图挖掘算法的API接口及丰富的功能和运算符，便于对分布式图处理的需求，能在海量数据上运行复杂的图算法。

6、独立调度器、Yarn、Mesos

集群管理器，负责Spark框架高效地在一个到数千个节点之间进行伸缩计算的资源管理。

（二）Spark的发展史

1、发展简史

对于一个具有相当技术门槛与复杂度的平台，Spark从诞生到正式版本的成熟，经历的时间如此之短，让人感到惊诧。2009年，Spark诞生于伯克利大学AMPLab，最开初属于伯克利大学的研究性项目。它于2010年正式开源，并于2013年成为了Aparch基金项目，并于2014年成为Aparch基金的顶级项目，整个过程不到五年时间。

2、目前最新版本

Spark目前最新版本是2023年2月17日发布的Spark3.3.2

三、spark特点

Spark计算框架在处理数据时，所有的中间数据都保存在内存中，从而减少磁盘读写操作，提高框架计算效率。同时Spark还兼容HDFS、Hive，可以很好地与Hadoop系统融合，从而弥补MapReduce高延迟的性能缺点。所以说，Spark是一个更加快速、高效的大数据计算平台。

（一）速度快

与MapReduce相比，Spark可以支持包括Map和Reduce在内的更多操作，这些操作相互连接形成一个有向无环图（Directed Acyclic Graph，简称DAG），各个操作的中间数据则会被保存在内存中。因此处理速度比MapReduce更加快。Spark通过使用先进的DAG调度器、查询优化器和物理执行引擎，从而能够高性能的实现批处理和流数据处理。

（二）易用性

Spark支持使用Scala、Python、Java及R语言快速编写应用。同时Spark提供超过80个高级运算符，使得编写并行应用程序变得容易并且可以在Scala、Python或R的交互模式下使用Spark。

（三）通用性

Spark可以与SQL、Streaming及复杂的分析良好结合。Spark还有一系列的高级工具，包括Spark SQL、MLlib（机器学习库）、GraphX（图计算）和Spark Streaming，并且支持在一个应用中同时使用这些组件。

（四）兼容性

用户可以使用Spark的独立集群模式运行Spark，也可以在EC2（亚马逊弹性计算云）、Hadoop YARN或者Apache Mesos上运行Spark。并且可以从HDFS、Cassandra、HBase、Hive、Tachyon和任何分布式文件系统读取数据。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/643045.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

现在的00后，真是不要命了？

现在的00后，真是不要命了？

谁说00后躺平了，但是有一说一，该卷的还是卷。这不，上个月我们公司来了个00后，工作没两年，跳槽到我们公司起薪22K，都快接近我了。后来才知道人家是个卷王，从早干到晚就差搬张床到工位睡觉了。 …

阅读更多...

Python与大数据：Hadoop、Spark和Pyspark的应用和数据处理技巧

Python与大数据：Hadoop、Spark和Pyspark的应用和数据处理技巧

章节一：引言在当今的数字时代，数据成为了无处不在的关键资源。大数据的崛起为企业提供了无限的机遇，同时也带来了前所未有的挑战。为了有效地处理和分析大规模数据集，必须依靠强大的工具和技术。在本文中，我们将探讨…

阅读更多...

Spring Boot整合MyBatis

Spring Boot整合MyBatis

文章目录一、Spring Boot数据访问概述二、Spring Boot 整合MyBatis（一）基础环境搭建1、数据准备（1）创建博客数据库（2）创建文章表（3）文章表插入记录（4）创建评…

阅读更多...

车队试验的远程实时显示方案

车队试验的远程实时显示方案

风丘科技推出的数据远程实时显示方案可更好地满足客户对于试验车队远程实时监控的需求，真正实现试验车队的远程管理。随着新的数据记录仪软件IPEmotion RT和相应的跨平台显示解决方案的引入，让我们的客户端不仅可在线访问记录器系统状态，还可…

阅读更多...

Overhaul Distillation（ICCV 2019）原理与代码解析

Overhaul Distillation（ICCV 2019）原理与代码解析

paper：A Comprehensive Overhaul of Feature Distillation official implementation：GitHub - clovaai/overhaul-distillation: Official PyTorch implementation of "A Comprehensive Overhaul of Feature Distillation" (ICCV 2019) 本文的…

阅读更多...

【状态估计】基于数据模型融合的电动车辆动力电池组状态估计研究（Matlab代码实现）

【状态估计】基于数据模型融合的电动车辆动力电池组状态估计研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

LVS负载均衡与DR模式

LVS负载均衡与DR模式

LVS负载均衡与DR模式一、DR模式的特点二、LVS-DR中的ARP问题1.VIP地址相同导致响应冲突2.返回报文时源地址使用VIP，导致网关设备的ARP缓存表紊乱三、DR模式 LVS负载均衡群集部署实验准备实验部署实验步骤1.配置负载调度器（192.168.30.10）2.…

阅读更多...

荣登第一，亚马逊云科技帮助用户实现云上快速部署，轻松维护不同类型的数据库

荣登第一，亚马逊云科技帮助用户实现云上快速部署，轻松维护不同类型的数据库

近期，Gartner发布了2022年全球数据库管理系统（Database Management System，DBMS）市场份额报告，在这一排名中出现了微妙变化，那就是亚马逊云科技超过微软，登上了第一“宝座”，占据了市…

阅读更多...

MySQL数据库常用命令

MySQL数据库常用命令

mysql是不见分号不执行，分号表示结束。\c可以终止命令的输入。 1.登录数据库 mysql -u root -p然后在输入密码 root 2.查看数据库(以分号结尾) show databases; 3.创建数据库 pk create database pk; 4.使用数据库pk use pk; 5.删除数据库pk drop database…

阅读更多...

【2023电工杯】B题人工智能对大学生学习影响的评价26页论文及python代码

【2023电工杯】B题人工智能对大学生学习影响的评价26页论文及python代码

【2023电工杯】B题人工智能对大学生学习影响的评价26页论文及python代码 1 题目 B题人工智能对大学生学习影响的评价人工智能简称AI，最初由麦卡锡、明斯基等科学家于1956年在美国达特茅斯学院开会研讨时提出。 2016年，人工智能AlphaGo 4:1战胜韩国…

阅读更多...

5分钟让你明白什么是面向对象编程

5分钟让你明白什么是面向对象编程

相信很多刚开始接触编程的小伙伴，对于什么是面向对象，什么是面向过程都是一脸懵逼的。网上关于这两个的回答真的很多，但是都有一个共同特点：------------不容易懂。让我们来看看某百科给出的定义: 能不能好好说话！…

阅读更多...

浮点数在内存中的运算

浮点数在内存中的运算

他们力量的源泉，是值得信赖的搭档以及想要保护的对象还有强大的敌人本文收录于青花雾气-计算机基础往期回顾从汇编代码探究函数栈帧的创建和销毁的底层原理从0到1搞定在线OJ 数据在内存中的存储计算机存储的大小端模式目录浮点数的二进制转化及存储规…

阅读更多...

pySCENIC单细胞转录因子分析更新：数据库、软件更新

pySCENIC单细胞转录因子分析更新：数据库、软件更新

***pySCENIC全部往期精彩系列：1、PySCENIC（一）：python版单细胞转录组转录因子分析2、PySCENIC（二）：pyscenic单细胞转录组转录因子分析3、PySCENIC（三）：pyscen…

阅读更多...

我的创作纪念日之这四年的收获与体会

我的创作纪念日之这四年的收获与体会

第一次来写自己的创作纪念哈，不知不觉都已经过去整整四年了，好与不好还请大家担待： 1、机缘 1. 记得是大一、大二的时候就听学校的大牛说，可以通过写 CSDN 博客，来提升自己的代码和逻辑能力，以及后面工作…

阅读更多...

图解LeetCode——994. 腐烂的橘子

图解LeetCode——994. 腐烂的橘子

一、题目在给定的 m x n 网格 grid 中，每个单元格可以有以下三个值之一： 值 0 代表空单元格；值 1 代表新鲜橘子；值 2 代表腐烂的橘子。每分钟，腐烂的橘子周围 4 个方向上相邻的新鲜橘子都会腐烂。返回直到单元格…

阅读更多...

醒醒吧，连新来的实习生都在进阶自动化，你还在点点点吗，聪明人都在提升自己！

醒醒吧，连新来的实习生都在进阶自动化，你还在点点点吗，聪明人都在提升自己！

5年测试老兵了，真的很迷茫，觉得自己不再提升自己，真的会被实习生替代。很多朋友跟我吐槽，说自己虽然已经工作3-4年，可工作依旧是点点点，新来的实习生用一周的时间就把工作内容学会了，他的压力…

阅读更多...

让博客支持使用 ChatGPT 生成文章摘要是一种什么样的体验？

让博客支持使用 ChatGPT 生成文章摘要是一种什么样的体验？

让博客支持使用 ChatGPT 生成文章摘要是一种什么样的体验？ 起因 Sakurairo 主题支持了基于 ChatGPT 的 AI 摘要功能，我有点眼红，但是因为那是个主题限定功能，而我用的又是 Argon，遂想着让 Argon 也支持 AI 摘要功能。…

阅读更多...

【spring】spring是什么？详解它的特点与模块

【spring】spring是什么？详解它的特点与模块

作者：Insist-- 个人主页：insist--个人主页作者会持续更新网络知识和python基础知识，期待你的关注目录一、spring介绍二、spring的特点（七点） 1、简化开发 2、AOP的支持 3、声明式事务的支持 4、方便测试 5、…

阅读更多...

springcloud 父项目建立(一)

springcloud 父项目建立(一)

我们开发项目，现在基本都用到maven，以及用父子项目，以及公共模块依赖，来构建方便扩展的项目体系； 首先我们建立父项目 microservice ，主要是一个pom，管理module，以及管理依赖&#x…

阅读更多...

shell实现多并发控制

shell实现多并发控制

背景： 遇到一个业务需求，一个上位机需要向多个下位机传送文件，当前的实现是for循环遍历所有下位机，传送文件，但是此种方法耗时太久，需要优化。因此可以通过并发的方式向下位机传送文件。这边写一段测试代…

阅读更多...

推荐文章

最新文章