Spark计算引擎介绍

Spark计算引擎介绍

news2026/4/7 6:44:48

1. Spark是什么

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是加州大学伯克利分校的AMP实验室（Algorithms, Machines and People Lab）开源的类Hadoop MapReduce的通用并行框架，拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是Job（工作）中间输出的结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间存在一些不同之处，这些不同之处使Spark在某些工作负载方面表现得更加优越，换句话说，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark是在Scala语言中实现的，它将Scala用作应用程序框架。与Hadoop不同，Spark和Scala能够紧密集成，其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建Spark是为了支持分布式数据集上的迭代作业，但是实际上它是对Hadoop的补充，可以在Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark可以用来构建大型的、低延迟的数据分析应用程序。

2. Spark生态体系

Spark属于BDAS（伯利克分析栈）生态体系。

MapReduce属于Hadoop生态体系之一，Spark则属于BDAS生态体系之一。
Hadoop包含了MapReduce、HDFS、HBase、Hive、ZooKeeper、Pig、Sqoop等。
BDAS包含了Spark GraphX、Spark SQL（相当于Hive）、Spark MLlib、Spark Streaming（消息实时处理框架，类似Storm）、BlinkDB等。

Spark的生态体系示意图如下。

3.Spark运行模式

Spark有5种运行模式，其中Local是单机模式，其他4种都是集群模式：

Local：Spark运行在本地模式上，用于测试、开发。本地模式就是以一个独立的进程，通过其内部的多个线程来模拟整个Spark运行时环境。
Standlone：Spark运行在独立集群模式上。Spark中的各个角色以独立进程的形式存在，并组成Spark集群环境。
Hadoop YARN：Spark运行在YARN上。Spark中的各个角色运行在YARN的容器内部，并组成Spark集群环境。
Apache Mesos：Spark中的各个角色运行在Apache Mesos上，并组成Spark集群环境。
Kubernetes：Spark中的各个角色运行在Kubernetes的容器内部，并组成Spark集群环境。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/716781.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

1、hadoop集群搭建

1、hadoop集群搭建

1、 Hadoop运行环境搭建 1.1、修改主机名和hosts文件 1）修改主机名称 sudo hostnamectl set-hostname <newhostname>sudo hostnamectl set-hostname hadoop101 sudo hostnamectl set-hostname hadoop102 sudo hostnamectl set-hostname hadoop103 2&#…

阅读更多...

C# ref out的使用与区别

C# ref out的使用与区别

Ref 和 out可以理解为类似的传址引用。在函数需要外部传入一个变量名，然后在程序内部可以将这个值进行修改，典型的传址引用！在定义时必要加ref或out说明！ Ref和Out的区别： ref 关键字使参数按引用传递。其效果是&am…

阅读更多...

炼石白小勇：从业务视角重塑数据安全

炼石白小勇：从业务视角重塑数据安全

2023年6月27日，由中国信息通信研究院、中国通信标准化协会主办，中国通信标准化协会大数据技术标准推进委员会承办，数据安全推进计划支持的2023年大数据产业发展大会-数据安全高质量发展论坛在北京成功召开。本次论坛由中国信通院云计算与大数…

阅读更多...

maven 环境配置踩坑

maven 环境配置踩坑

今晚在跟着视频学习spring的时候，创建maven工程，一直提示Sync 下载异常。搞了一晚上终于搞定了环境。下面给出一下今晚的总结。 1、确保maven安装并配置好环境变量。下载并安装maven后，还需要在电脑上配置maven的环境变量。这部分参考网络教…

阅读更多...

关于windows本机开放端口后，同一个网络下的其他电脑telnet不通的解决办法

关于windows本机开放端口后，同一个网络下的其他电脑telnet不通的解决办法

前提：电脑A与电脑B均在同一个wifi下。本地电脑A 启动了一个kong网关（不管是什么应用，只要开启了一个监听端口就行），并且将docker里面的8000端口映射到本机的8000端口， 此时在电脑A上的命令行运行&#xf…

阅读更多...

2023 IJCAI YES 青年精英学术大会正式开幕：群贤毕至，开启为期三天的智慧盛宴

2023 IJCAI YES 青年精英学术大会正式开幕：群贤毕至，开启为期三天的智慧盛宴

内容一览： 2019 年，艾伦人工智能研究所发布《中国在人工智能研究领域超越美国》研究报告。这份报告反映了中国人工智能领域从「数」到「质」的飞跃，这不仅得益于国家政策的推动，更因为众多国内高校的不懈探索。当前，人…

阅读更多...

HTML和CSS配合制作一个简单的登录界面

HTML和CSS配合制作一个简单的登录界面

HTML和CSS配合制作一个简单的登录界面界面HTMLCSS解释语法界面 HTML <!DOCTYPE html> <html lang"en"> <head><title>篮球世界</title><meta charset"UTF-8"><link type"text/css" rel"styleshe…

阅读更多...

关注电动汽车（EV）能效水平提高电动汽车续航能力

关注电动汽车（EV）能效水平提高电动汽车续航能力

电动汽车（EV）近些年发展迅猛，已被汽车业内普遍认为是未来汽车发展的新方向，但现如今电动汽车仍然存在一些短板，导致其还无法替代传统燃油车。对此，首先想到的肯定就是电动车的续航问题。其实解决电动车续航…

阅读更多...

揭秘Vue 2中的$nextTick：等待DOM更新的神奇时刻！

揭秘Vue 2中的$nextTick：等待DOM更新的神奇时刻！

文章目录 1. 队列机制2. 异步执行3. 标记更新4. 下一次 DOM 更新循环5. 触发回调函数在 Vue 2 中，$nextTick 是一个异步方法，用于在下次 DOM 更新循环结束后执行回调函数。它的原理可以解析如下： 1. 队列机制 Vue 2 维护了一个队列&…

阅读更多...

最火的 CI/CD 平台 Jenkins 详细搭建教程（for Linux）

最火的 CI/CD 平台 Jenkins 详细搭建教程（for Linux）

在正式学习Jenkins之前我们需要对两个名词有一定了解，其一是DevOps，另外一个就是CI/CD。何为DevOps？ 来自wiki百科介绍 DevOps是一系列软件开发实践，强调开发人员（Dev）和测试人员（QA&#xf…

阅读更多...

【零基础入门学习Python---Python中数据分析与可视化之快速入门实践】

【零基础入门学习Python---Python中数据分析与可视化之快速入门实践】

🚀 零基础入门学习Python🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持，因为它具有很高的价值，算法就是这样✨ 🌲 作者简介：硕风和炜…

阅读更多...

css基础知识十六：如何实现单行／多行文本溢出的省略样式？

css基础知识十六：如何实现单行／多行文本溢出的省略样式？

一、前言在日常开发展示页面，如果一段文本的数量过长，受制于元素宽度的因素，有可能不能完全显示，为了提高用户的使用体验，这个时候就需要我们把溢出的文本显示成省略号对于文本的溢出，我们可以分成两种…

阅读更多...

学习之路不可或缺的软件宝藏，一起分享吧

学习之路不可或缺的软件宝藏，一起分享吧

在当今数字化时代，学习变得更加便利和多样化。为了助力你的学习之路，我将分享一些不可或缺的学习必备软件，让你事半功倍。分享一：小睡眠小睡眠是一款睡眠神器，专为那些每天晚上压力过大、思虑过多而难以入睡的人设…

阅读更多...

【已解决】使用pyaudio内录声卡声音及相关问题

【已解决】使用pyaudio内录声卡声音及相关问题

使用pyaudio内录声卡声音及相关问题解决目录使用pyaudio内录声卡声音及相关问题解决1 实现代码1.1 Recorder类：1.2 调用方法 2 问题一：选择设备实现内录/外录（解决报错：OSError: [Errno -9999] Unanticipated host error&#x…

阅读更多...

Vue Vite Manual

Vue Vite Manual

create project 初始化项目 $ npm create vitelatest导入vs code 方便操作初始化的目录如下安装依赖库生成node_modules依赖库和 package-lock.json. 其中package-lock.json用于锁定模块的版本号。 npm install启动项目 npm run dev项目配置增加路由器路由器 n…

阅读更多...

骑行，究竟该不该佩戴护膝？应该怎么佩戴护膝才有效果？

骑行，究竟该不该佩戴护膝？应该怎么佩戴护膝才有效果？

骑行作为一项受欢迎的运动方式，在现代社会中越来越受到关注和热爱。随着骑行爱好者的增多，对于个人保护意识的重视也在逐渐提高。在这个话题中，一个备受关注的问题就是骑行时是否有必要戴护膝，以及如何正确佩戴护膝。对于骑行爱好…

阅读更多...

SAP生产版本和工艺路线由于批量不一致导致的报错问题解决实例

SAP生产版本和工艺路线由于批量不一致导致的报错问题解决实例

近期接到工艺用户问题，在维护生产版本时报错，状态异常，寻求支持。在详细的提示信息中有一个生产版本不一致的提示，但不知这里的不一致具体指向什么，从逻辑上来推，这里只有一个可能，就是工艺路线…

阅读更多...

windows 和华为手机使用charles抓包记录

windows 和华为手机使用charles抓包记录

1.下载charles 建议安装使用最新版，官方下载地址 https://www.charlesproxy.com/download help->Register->把上面的生成注册码放进去就行了（在charles注册地址里面注册一下，charles注册地址） 2.Proxy-> 勾选window…

阅读更多...

网络安全（黑客）技术学习路线

网络安全（黑客）技术学习路线

谈起黑客，可能各位都会想到：盗号，其实不尽然；黑客是一群喜爱研究技术的群体，在黑客圈中，一般分为三大圈：娱乐圈技术圈职业圈。娱乐圈：主要是初中生和高中生较多，玩网恋…

阅读更多...

npm 安装私库包报错：请求地址错误 | 请求包错误

npm 安装私库包报错：请求地址错误 | 请求包错误

npm 安装私库包报错：请求地址错误 | 请求包错误错误信息试错过程解决办法在一次创建完 npm 私库之后，上传 npm 包没问题，但是下载一直出错。老是请求一个旧的地址下载某个库，而那个地址已经停用了，因此请求很多次之…

阅读更多...

推荐文章

最新文章