大数据学习-Spark基础入门

大数据学习-Spark基础入门

news2026/2/15 9:13:56

一、Spark是什么？

Stack Overflow的数据可以看出，2015年开始Spark每月的问题提交数量已经超越Hadoop，而2018年Spark Python版本的API PySpark每月的问题提交数量也已超过Hadoop。2019年排名Spark第一，PySpark第二；而十年的累计排名是Spark第一，PySpark第三。按照这个趋势发展下去，Spark和PySpark在未来很长一段时间内应该还会处于垄断地位。

二、Spark VS Hadoop 有何区别呢？

尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop

在计算层面，Spark相比较MR（MapReduce）有巨大的性能优势，但至今仍有许多计算工具基于MR构架，比如非常成熟的Hive；
Spark仅做计算，而Hadoop生态圈不仅有计算（MR）也有存储（HDFS）和资源管理调度（YARN），HDFS和YARN仍是许多大数据体系的核心架构。

扩展题：Hadoop的基于进程的计算和Spark基于线程方式优缺点？

答案：Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享数据，执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中，造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率，Spark采用了线程的最小的执行单位，但缺点是线程之间会有资源竞争。

三、Spark四大特点

3.1 速度快

3.2 易于使用

3.3 通用性强

3.4 运行方式

四、Spark 框架模块

整个Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上

Spark Core：Spark的核心，Spark核心功能均由Spark Core模块提供，是Spark运行的基础。Spark Core以RDD为数据抽象，提供Python、Java、 Scala、R语言的API，可以编程进行海量离线数据批处理计算。

SparkSQL：基于SparkCore之上，提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理，SparkSQL本身针对离线计算场景。同时基于SparkSQL，Spark提供了StructuredStreaming模块，可以以SparkSQL为基础，进行数据的流式计算。

SparkStreaming：以SparkCore为基础，提供数据的流式计算功能。 MLlib：以SparkCore为基础，进行机器学习计算，内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。

GraphX：以SparkCore为基础，进行图计算，提供了大量的图计算API，方便用于以分布式计算模式进行图计算。

五、Spark的运行模式

六、Spark的架构角色

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2052932.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【三维目标检测模型】ImVoxelNet

【三维目标检测模型】ImVoxelNet

【版权声明】本文为博主原创文章，未经博主允许严禁转载，我们会定期进行侵权检索。参考书籍：《人工智能点云处理及深度学习算法》 ImVoxelNet是一种基于RGB图像的三维目标检测模型，发表在WACV 2022 《ImVoxelNet: Image to Vo…

阅读更多...

记事本/软件商店/xbox打不开(不会丢失数据)(保姆级教程)

记事本/软件商店/xbox打不开(不会丢失数据)(保姆级教程)

软件商店的安装 ： 在某些情况下，系统更新可能导致本地账户和微软账户出现问题， 使得更新似乎只影响到了一个账户，而非我当前使用的账户。这会导致我环境中的某些Windows自带应用，如微软商店、电影与电视、画图、记事…

阅读更多...

鸿蒙开发入门day10-组件导航

鸿蒙开发入门day10-组件导航

(创作不易，感谢有你，你的支持，就是我前行的最大动力，如果看完对你有帮助，还请三连支持一波哇ヾ(＠^∇^＠)ノ） 目录组件导航 (Navigation) 设置页面显示模式设置标题栏模式设置菜…

阅读更多...

论文降重切勿“本末倒置”！一文教你如何有效降重

论文降重切勿“本末倒置”！一文教你如何有效降重

【SciencePub学术】本期热点论文降重原创性是评价论文质量的重要标准之一。许多读者在撰写论文都担心重复率过高的问题。本篇文章旨在分享有效降低学术论文重复率的策略，从而促进学术诚信，提高研究工作的创新性和学术价值。通过一系列实用的写作技巧…

阅读更多...

高可用集群keepalived 原理+实战

高可用集群keepalived 原理+实战

keepalived 1.高可用集群1.1简介1.2原理1.3 集群类型1.4实现高可用1.5VRRP：Virtual Router Redundancy Protocol1.5.1 VRRP 相关术语1.5.2VRRP 相关技术 2.实验2.1keepalived环境部署2.2抢占模式和非抢占模式2.2.1非抢占模式2.2.2抢占延迟模式 preempt_delay 2.3VIP…

阅读更多...

MATLAB 手动实现投影密度法分割建筑物立面（73）

MATLAB 手动实现投影密度法分割建筑物立面（73）

专栏文章往期回顾，包含本文章 MATLAB 手动实现投影密度法分割建筑物立面（73）一、算法介绍二、算法实现1.代码2.效果总结一、算法介绍从原始点云中，自动分割提取建筑物立面点云用于立面绘图，可以减少人为操作流程。这里从0开始，手动实现一种基于投影密度法的建筑物立…

阅读更多...

Unity动画模块之 3D模型导入基础设置Animation页签

Unity动画模块之 3D模型导入基础设置Animation页签

本文仅作笔记学习和分享，不用做任何商业用途本文包括但不限于unity官方手册，unity唐老狮等教程知识，如有不足还请斧正基础设置就截图看看辣，只有实际应用中才会使用到，现在死记硬背也不可能记住 1.基础设置笔记来…

阅读更多...

STM32常用C语言知识总结

STM32常用C语言知识总结

目录一、引言二、C 语言基础 1.数据类型 2.变量与常量 3.控制结构 4.数组与指针 5.字符串 6. extern变量声明 7.内存管理三、STM32 中的 C 语言特性 1.位操作 2.寄存器操作一、引言 STM32 作为一款广泛应用的微控制器，其开发离不开 C 语言的支持。C …

阅读更多...

编写日志文件

编写日志文件

精灵程序 #include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/wait.h> #include <stdlib.h> #include <string.h> #include <errno.h> #include <fcntl.h> #include <sys/stat.h> #include…

阅读更多...

vue3 响应式 API：ref() 和 reactive()

vue3 响应式 API：ref() 和 reactive()

在 Vue 3 中，响应式系统是其核心特性之一，它使得数据的变化能够自动触发视图的更新。官方文档： 响应式 API：核心要更好地了解响应式 API，推荐阅读官方指南中的章节： 响应式基础 (with the API preference…

阅读更多...

【STM32单片机_(HAL库)】3-2-1【中断EXTI】【电动车报警器项目】震动点灯

【STM32单片机_(HAL库)】3-2-1【中断EXTI】【电动车报警器项目】震动点灯

1.硬件 STM32单片机最小系统LED灯模块震动传感器模块 2.软件 exti驱动文件添加GPIO常用函数中断配置流程main.c程序 #include "sys.h" #include "delay.h" #include "led.h" #include "exti.h"int main(void) {HAL_Init(); …

阅读更多...

Linux常用命令 ---- rmdir 命令[删除一个空目录]

Linux常用命令 ---- rmdir 命令[删除一个空目录]

rmdir 命令功能：删除一个空目录我们使用 mkdir 命令创建一个名为 test 空文件夹，如下图所示。现在使用 rmdir 命令将 test 文件夹进行删除，如下图所示。注意：rmdir 命令只能删除一个空目录，如果这个目录中有其他文…

阅读更多...

【云原生】Kubernetes中的名称空间和资源配额详细用法与应用实战

【云原生】Kubernetes中的名称空间和资源配额详细用法与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯，先赞后看哦~🎈🎈 🏆 作者简介：景天科技苑 🏆《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。 🏆《博客》：Python全…

阅读更多...

医疗器械维修其实没有想的那么难

医疗器械维修其实没有想的那么难

在很多人的印象中，医疗器械维修是一项极其复杂且神秘的工作，似乎只有专业的技术精英才能胜任。然而，事实并非如此，医疗器械维修其实并没有想象中那么难。首先，现代医疗器械的设计越来越注重人性化和可维护性。制造商…

阅读更多...

迎接开学新生活！高三开学必备物品推荐~

迎接开学新生活！高三开学必备物品推荐~

步入高三，意味着每一位学子都将面临人生中重要的转折点——高考。为了帮助高三学生们准备充分，让学习生活之路更加顺畅。今天小编综合了实用性、性价比以及学生需求的考量，精选了一系列必备物品，旨在为高三学生创造一个更为舒适、…

阅读更多...

ICMP互联网控制报文协议

ICMP互联网控制报文协议

ICMP 互联网控制报文协议 ICMP （ Internet Control Message Protocol ，也就是互联⽹控制报⽂协议）。⽹络包在复杂的⽹络传输环境⾥，常常会遇到各种问题。当遇到问题的时候，总不能死个不明不⽩，没头没脑…

阅读更多...

4. kafka消息监控客户端工具

4. kafka消息监控客户端工具

KafkaKing官网地址 : https://github.com/Bronya0/Kafka-King github下载地址 : Releases Bronya0/Kafka-King (github.com) (windows、macos、linux版本) 云盘下载地址 : https://pan.baidu.com/s/1dzxTPYBcNjCTSsLuHc1TZw?pwd276i (仅windows版本) 连接kafka 输入本地地址…

阅读更多...

基于Java语言的私家车充电桩系统+私家车充电平台+充电桩系统项目

基于Java语言的私家车充电桩系统+私家车充电平台+充电桩系统项目

介绍 SpringBoot 框架，私家车充电桩平台充电桩系统充电平台充电桩云快充协议1.5-1.6协议新能源汽车二充电平台源码Java源码私家车充电系统源码合作提供无加密源代码和数据库，支持二次开发 SpringMVC架构完整充电桩系统源代码-充电桩系统-家充公充-新…

阅读更多...

大数据报表如何免费设计？本攻略附赠强大报表工具！

大数据报表如何免费设计？本攻略附赠强大报表工具！

在当今信息爆炸的时代，大数据跃升为企业战略决策的核心支撑点。如何有效地从浩瀚的数据海洋中精炼出富含洞察力的信息，并将其转化为直观易懂的报表，是每个数据分析师和决策者都需要面对的挑战。这需要掌握一定的技巧和经验，本文将…

阅读更多...

C语言03--控制流

C语言03--控制流

1.二路分支逻辑：程序中某段代码需要在满足某个条件时才能运行形式： if 语句：表达一种如果-则的条件执行关系if-else 语句：表达一种如果-否则的互斥分支关系语法： if ( 判断表达式 ) { // 代码块 } 解…

阅读更多...

推荐文章

最新文章