【大数据入门核心技术-Spark】（一）Spark介绍

news2025/7/7 15:51:34

目录

一、Spark概述

二、为什么要学习Spark

三、Spark 四大特性

1、速度快

2、易用性

3、通用性

4、兼容性

一、Spark概述

Apache Spark™ is a unified analytics engine for large-scale data processing.

spark是基于内存计算的大数据处理框架，由于基于内存计算，处理数据非常快。这里仅仅只涉及到数据的计算，并没有涉及到数据的存储，后期就需要对接各种不同的外部数据源，比如处理HDFS上的数据。

官方网址：
https://spark.apache.org/

二、为什么要学习Spark

就是因为spark处理速度比mapreduce快很多，提高任务运行的速度，很受企业青睐。
spark不在是一个简单的框架，而是发展成一个生态系统，它里面有很多不同的子项目
sparksql
sparkStreaming
Graphx
Mlib

三、Spark 四大特性

1、速度快

spark比mapreduce在内存中快100倍，比mapreduce在磁盘中快10倍。

spark比mapreduce快的主要2个原因
1）mapreduce的任务每一个job它的输出结果只能够保存在磁盘，后续有其他的job需要依赖于前面job的输出结果，这个时候需要进行大量的磁盘io操作。 spark的任务每一个job它的输出结果可以保存在内存中，后续有其他的job需要依赖于前面job的输出结果，这个时候就可以直接在内存中获取得到，大大减少磁盘io操作，最后提升了性能。

例如： select name,age from (select * from user where age >30 and age <40)

2) mapreduce的任务它是以进程的方式运行在yarn集群中，比如一个job有100个MapTask,这个时候就需要开启100个进程去处理这个100个task。spark的任务它是以线程的方式运行在进程中，比如一个job有100个MapTask，这个时候就可以极端一点：只启动一个进程，在这个进程运行100个线程。这里开启一个进程和开启一个线程代价是不一样，开启一个进程需要的时间和资源比线程要大大增加。spark中可以减少大量的时间资源调度，提升性能。

2、易用性

可以快速开发一个spark应用程序，通过java、scala、python、R、sql不同语言开发代码程序

3、通用性

spark框架是一个生态系统，可以通过不同子项目sparksql、sparkStreaming、Mlib、Graphx应用到不同的应用场景。

4、兼容性

spark任务就是一个计算程序，哪里可以给当前这个程序提供对应的计算资源，我们就可以把程序提交到哪里去。

yarn
spark程序可以提交到yarn中去运行，整个任务的资源分配由resourcemanager去负责standalone

standalone
它是spark自带的集群模式，整个任务的资源分配由Master去负责

mesos
它是一个apache开源类似于yarn的资源管理平台

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/76751.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

葡聚糖/聚己内酯两亲嵌段聚合物(Dextran-PCL)|5-氟尿嘧啶-右旋糖酐偶联物(DEX-5-Fu)

葡聚糖/聚己内酯两亲嵌段聚合物(Dextran-PCL)|5-氟尿嘧啶-右旋糖酐偶联物(DEX-5-Fu)

葡聚糖/聚己内酯两亲嵌段聚合物(Dextran-PCL)|5-氟尿嘧啶-右旋糖酐偶联物(DEX-5-Fu) 中文名称：葡聚糖/聚己内酯两亲嵌段聚合物产品描述： 一种葡聚糖/聚己内酯两亲嵌段聚合物,它是由胺端基葡聚糖和醛端基聚己内酯通过偶联反应生成,其中葡聚糖链段的数均…

阅读更多...

SSM框架学习记录-Spring_day03

SSM框架学习记录-Spring_day03

1.AOP简介代码参考Spring_17_aop_demo 什么是AOP？ AOP(Aspect Oriented Programming)即面向切面编程，一种编程范式，指导开发者如何组织程序结构 AOP作用在BookDaoImpl.java中，执行save方法显然可以计算程序执行时间，…

阅读更多...

Redis框架（三）：大众点评项目基于Session的短信登录

Redis框架（三）：大众点评项目基于Session的短信登录

大众点评项目基于Session的短信登录需求：基于Session实现短信验证登录基于Session的短信登录发送手机验证码实现登录 （注意MyBatisP的接口使用）新的问题SpringCloud章节复习已经过去，新的章节Redis开始了，这个章节中将…

阅读更多...

C#语言实例源码系列-实现无损压缩图片

C#语言实例源码系列-实现无损压缩图片

专栏分享点击跳转>Unity3D特效百例点击跳转>案例项目实战源码点击跳转>游戏脚本-辅助自动化点击跳转>Android控件全解手册 👉关于作者众所周知，人生是一个漫长的流程，不断克服困难，不断反思前进的过程。在这个过程中…

阅读更多...

微电网两阶段鲁棒优化问题（Matlab代码实现）

微电网两阶段鲁棒优化问题（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

Redis之相关介绍、远程docker部署以及相关shell命令

Redis之相关介绍、远程docker部署以及相关shell命令

Redis相关shell命令一、概述1、介绍2、作用3、特性4、官方网址二、远程服务Docker上Redis相关测试及命令1、Redis安装及挂载1.1 查找所有关于Redis1.2 拉取最高版本的Redis1.3 通过xftp连接到远程服务器1.4 挂载1.5 开启远程服务器的端口1.6 修改配置文件2、开始使用Redis2.1 开…

阅读更多...

autoconf-archive源码安装

autoconf-archive源码安装

0. 源码地址 autoconf-archive源码下载地址经由https://savannah.gnu.org搜索"autoconf-archive"到GNU Autoconf Archive - Summary [Savannah] 再在其中点击上图中箭头位置，转到GitHub - autoconf-archive/autoconf-archive: A mirror of the GNU Autoc…

阅读更多...

数据分析软件-FineReport内置SQl提交

数据分析软件-FineReport内置SQl提交

1. 概述 1.1 版本报表服务器版本功能变动 11.0.2 填报配置表时支持从数据库中模糊搜索表，详情见 2.2 节。 1.3 功能介绍设计好填报表格，添加填报控件之后，如下图所示： 需要将填报数据的单元格与数据库表字段进行绑定&#…

阅读更多...

【微服务】2、一篇文章详解 Ribbon 负载均衡

【微服务】2、一篇文章详解 Ribbon 负载均衡

Ribbon 负载均衡一、负载均衡原理（debug 源码）(1) 基本介绍(2) 打断点① LoadBalancerInterceptor.java - intercept()② RibbonLoadBalancerClient.java - execute()③ RibbonLoadBalancerClient.java - execute()④ RibbonLoadBalancerClient.java - g…

阅读更多...

【STM32】详解RTC实时时钟的概念和配置示例代码

【STM32】详解RTC实时时钟的概念和配置示例代码

一、什么是RTC RTC(Real-time Clock)：实时时钟，本质上是一个支持BCD编码的定时器/计数器。主电源断电后能够由电池供电，使其时钟跳转依然正常。二、STM32F4芯片内的RTC功能 ①日历时钟（时分秒、年月日、星期） ②两个闹…

阅读更多...

六、排序算法介绍3

六、排序算法介绍3

4、希尔排序 4.1 简单插入排序问题简单的插入排序可能存在的问题，数组 arr { 2, 3, 4, 5, 6, 1 } 这时需要插入的数 1(最小)，简单插入排序的过程如下： {2,3,4,5,6,6} {2,3,4,5,5,6} {2,3,4,4,5,6} {2,3,3,4,5,6} {2,2,3,4,5,6} {1,2,3,4,…

阅读更多...

CCIA技术沙龙 | “数据安全风险评估及安全服务实践” 沙龙成功举办

CCIA技术沙龙 | “数据安全风险评估及安全服务实践” 沙龙成功举办

2022年12月8日，由中国网络安全产业联盟（CCIA）主办、CCIA数据安全工作委员会支持、杭州美创科技股份有限公司承办的“数据安全风险评估及数据安全服务实践”主题技术沙龙成功举办。当前，我国数字经济快速发展、数字化转型持续深入…

阅读更多...

Java对象深拷贝详解（List深拷贝）

Java对象深拷贝详解（List深拷贝）

1、Java中拷贝的概念在Java语言中，拷贝一个对象时，有浅拷贝与深拷贝两种浅拷贝：只拷贝源对象的地址，所以新对象与老对象共用一个地址，当该地址变化时，两个对象也会随之改变。深拷贝：拷贝对…

阅读更多...

一起学习用Verilog在FPGA上实现CNN----(一)总体概述

一起学习用Verilog在FPGA上实现CNN----(一)总体概述

1 总体概述为避免闭门造车，找一个不错的开源项目，学习在FPGA上实现CNN，为后续的开发奠定基础 1.1 项目链接大佬的开源项目链接： CNN-FPGA 链接跳转界面如下： 大佬的该项目已经发表论文，而且开源工程结…

阅读更多...

Qt5.6.1移植海思Hi3521d（一）

Qt5.6.1移植海思Hi3521d（一）

系列文章目录文章目录系列文章目录前言一、开发环境二、搭建环境1.准备2.海思SDK和交叉编译器安装2.测试交叉编译器一下3.安装tftp总结前言上半年做个一个Qt移植海思芯片的程序，感觉差不多快忘记了，赶紧记录一下一、开发环境系统：Ubunt…

阅读更多...

初学Python到月入过万最快的兼职途径（纯干货）

初学Python到月入过万最快的兼职途径（纯干货）

程序员小猴紫，不错过任何一次干赚钱干货 1.兼职薪资，附行哥工资单2.兼职门槛，附学习知识清单3.兼职途径，附入职考核过程4.我的兼职感受答应小猴紫的第一篇赚钱干货推文来啦，行哥第一个在读书期间通过兼职赚到的10w收…

阅读更多...

Web前端大作业—里约热内卢奥运会(html+css+javascript)

Web前端大作业—里约热内卢奥运会(html+css+javascript)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业： 【📚毕设项目精品实战案例 (10…

阅读更多...

产品经理 - 产品设计方法论需求分析部分

产品经理 - 产品设计方法论需求分析部分

整体 – 产品设计方法论思维导图个人整理，存在异议大家可以讨论下需求分析方法论需求分析为需求收集的延展，需求收集后即需进行需求分析，拆解需求后方可业务落地，此处我将其分为两步，一是主动发散型需求分析&am…

阅读更多...

移动端项目(第十九课)Vite+Vant组件环境配置

移动端项目(第十九课)Vite+Vant组件环境配置

常用到的环境配置时不我待(第十八课)项目环境搭建_星辰镜的博客-CSDN博客在上面的环境的基础上加上下面的一下配置 Normalize.css: Make browsers render all elements more consistently. (necolas.github.io) 介绍 | Pinia 中文文档 (web3doc.top) Day.js 中文文档 - 2kB 大…

阅读更多...

【Java版oj】day02排列子序列

【Java版oj】day02排列子序列

目录一、原题再现二、问题分析三、完整代码一、原题再现链接：排序子序列_牛客笔试题_牛客网来源：牛客网 [编程题]排序子序列热度指数：10105 时间限制：C/C 1秒，其他语言2秒空间限制：C/C 32M&…

阅读更多...

推荐文章

最新文章