Spark 简介与原理

news2024/9/22 13:24:03

目录标题

  • 1 Spark 简介与原理
    • 1.1 Spark与Hadoop的区别
    • 1.2 Spark的应用场景
    • 1.3 Spark的作业运行流程
    • 1.4 Spark 2.X与Spark 1.X的区别

1 Spark 简介与原理


在这里插入图片描述

Spark 是一个大规模数据处理的统一分析引擎。

具有迅速、通用、易用、支持多种资源管理器的特点。

Spark生态系统:

  1. Spark SQL是一种结构化的数据处理模块。它提供了一个称为Data Frame的编程抽象,也可以作为分布式SQL查询引擎。

  2. Spark Streaming是一个Sprak API核心的一个存在可达到超高通量的扩展,并可处理实时数据流并容错。

    数据可以从许多来源Kafka,Flume,Twitter,ZeroMQ, Kinesis,TCP sockets并且可以使用复杂的算法和高级功能表示处理Map,Reduce,Join和Window。 最后,处理后的数据可以被推送到文件系统,数据库。

  3. MLlib(machine learning library)是Spark提供的可扩展的机器学习库。MLlib中已经包含了一些通用的学习算法和工具,如:分类、回归、聚类、协同过滤、降维以及底层的优化原语等算法和工具。MLlib提供的API主要分为以下两类:

    •spark.mllib包中提供的主要API。

    •spark.ml包中提供的构建机器学习工作流的高层次的API。

  4. GraphX在Graphs和Graph-parallel并行计算中是一个新的部分,GraphX是Spark上的分布式图形处理架构,可用于图表计算。

1.1 Spark与Hadoop的区别

两者解决问题的方式不一样。
Hadoop是分布式数据设施;由普通计算机组成的Spark则是一个专门的工具,但它并不会进行分布式数据的存储。

两者可合可分等。
Hadoop可用自身的MapReduce来代替Spark,Spark也可不依赖Hadoop,而选择其他基于云的数据系统平台。

1.2 Spark的应用场景

  • 保险行业:通过使用Spark的机器学习功能来处理和分析所有索赔,优化索赔报销流程。
  • 医疗保健:使用Spark Core,Streaming和SQL构建病人护理系统。
  • 零售业:使用Spark分析销售点数据和优惠券使用情况。
  • 互联网:使用Spark的ML功能来识别虚假的配置文件,并增强他们向客户展示的产品匹配。
  • 银行业:使用机器学习模型来预测某些金融产品的零售银行客户的资料。
  • 科学研究:通过时间,深度,地理分析地震事件来预测未来的事件。
  • Twitter情绪分析:分析大量的推文,以确定特定组织和产品的积极,消极或中立的情绪。
  • 地理空间分析:按时间和地理分析Uber旅行,以预测未来的需求和定价。

1.3 Spark的作业运行流程

  1. 启动SparkContext
  2. 注册申请资源
  3. 分配资源,之后启动Executor
  4. Executor向SparkContext注册
  5. 分配提交任务
  6. 注销释放资源


在这里插入图片描述

1.4 Spark 2.X与Spark 1.X的区别

  • Spark2.x 引入了很多优秀特性,性能上有较大提升,API 更易用。
  • 在“编程统一”方面非常惊艳,实现了离线计算和流计算 API 的统一,实现了 Spark sql 和 Hive Sql 操作 API 的统一。
  • Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展,及性能的提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/431624.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

双榜加冕!加速科技荣登2023准独角兽中国未来独角兽双榜单

4月10日至11日,由杭州市人民政府、民建浙江省委会、中国投资发展促进会主办的第7届万物生长大会在杭州国际博览中心隆重举行。会上,中国投资发展促进会创投专委会、杭州市创业投资协会联合微链共同发布2023杭州市独角兽(准独角兽)…

【高危】vm2 <3.9.16 沙箱逃逸漏洞(CVE-2023-29199)

漏洞描述 vm2 是一个基于 Node.js 的沙箱环境,可以使用列入白名单的 Node 内置模块运行不受信任的代码。 vm2 3.9.16之前版本中,由于transformer.js中transformer函数中异常处理逻辑不够完善,攻击者可通过制造异常绕过handleException()并造…

精通 TensorFlow 2.x 计算机视觉:第一部分

原文:Mastering Computer Vision with TensorFlow 2.x 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的形象,…

Downie 4 4.6.14 MAC上最新最好用的一款视频下载工具

Downie for Mac 简介 Downie是Mac下一个简单的下载管理器,可以让您快速将不同的视频网站上的视频下载并保存到电脑磁盘里然后使用您的默认媒体播放器观看它们。 Downie 4 下载 Downie 4 for Mac Downie 4 for Mac软件特点 支持许多站点 -当前支持1000多个不同的…

printf里的格式控制符

%p:打印地址(指针地址),十六进制形式输出,有多少位输出多少位,取决于是32 or 64位系统,如果输出不够位宽,左边补0。 %f用来输出实数,以小数形式输出,默认情况下保留小数点…

自动化测试工程师需要具备什么技能?

如果是初入门的学习者,不建议拿一本书从头学,很可能会被里边一些专业术语和不常用的技术带偏,不论在公司还是在其他岗位上自学测试,都可以用自己搭建好的项目来练手(如果在公司有现成的项目更好)&#xff0…

提取图像特征方法总结 是那种很传统的方法~

目录 写在前面 一、SIFT(尺度不变特征变换) 1.SIFT特征提取的实质 2.SIFT特征提取的方法 3.SIFT特征提取的优点 4.SIFT特征提取的缺点 5.SIFT特征提取可以解决的问题: 二、HOG(方向梯度直方图) 1.HOG特征提取…

30岁软件测试,目前已失业4个月,迷茫不知该怎么办?

本人14年一本毕业,但是人特别懒,不爱学习,专业不好,毕业前都没找到合适工作,直接去创业了,奶茶店,托管,都弄过,也干过销售,反正浑浑噩噩度过了两年&#xff0…

CTFHub | 文件头检查

0x00 前言 CTFHub 专注网络安全、信息安全、白帽子技术的在线学习,实训平台。提供优质的赛事及学习服务,拥有完善的题目环境及配套 writeup ,降低 CTF 学习入门门槛,快速帮助选手成长,跟随主流比赛潮流。 0x01 题目描述…

关于运行时内存数据区的一些扩展概念

栈顶缓存技术(Top-of-Stack Cashing) 前面提过,基于栈式架构的虚拟机所使用的零地址指令更加紧凑,但完成一项操作的时候必然需要使用更多的入栈和出栈指令,这同时也就意味着将需要更多的指令分派(instruction dispatc…

跨平台科学应用程序:QtiPlot 1.X Crack

QtiPlot 是一个用于数据分析和可视化的跨平台科学应用程序。由于其多语言支持,QtiPlot 被积极用于世界各地学术机构的教学。许多研究科学家信任 QtiPlot 来分析他们的数据并发布他们的工作结果。来自各个科学领域和行业的数千名注册用户已经选择了 QtiPlot 来帮助他…

Part-aware attention correctness for video salient object detection笔记总结

一、摘要 问题:在以往的VSOD中,一般主要是研究时空结构,利用隐式注意力模型去聚合相邻视频帧的互补信息。但很少有方法去关注跨视频帧的亲和力,即建立显式注意力图式去完成VSOD。 解决:提出一个新的注意力正确性策略去…

博客系统测试报告【可上线】

目录 1、测试概述 1.1、项目名称 1.2、测试时间 1.3、编写目的 1.4、测试范围 2、测试计划 2.1、测试用例 2.1.1、注册/登录模块 2.1.2、个人中心模块 2.1.3、找回密码模块 2.1.4、博客主列表模块 2.1.5、个人博客列表模块 2.1.6、个人草稿列表模块 2.1.7、博客详…

Elasticsearch:位置搜索介绍

在这个互联网和信息时代,在应用程序和应用程序中启用基于位置的搜索是一个普遍的要求。 基于位置的搜索根据邻近度获取场所或地点,例如附近的餐馆、半径不超过 1 公里的待售房屋等。 我们还使用基于位置的搜索来查找前往某个地方或兴趣点的方向。 好消息…

C#代码修改设计原图psd、ai格式图层文字内容等导出bmp等,需要license 要高额付费放弃

Update text is supported only in licensed mode System.ComponentModel.LicenseException HResult0x80131901 MessageUpdate text is supported only in licensed mode SourceAspose.PSD StackTrace: at  .(Object ) at  . () at  .(Object , UInt32 )…

【C++学习】类和对象--对象特性

构造函数和析构函数 对象的初始化和清理是两个非常重要的安全问题 一个对象或变量没有初始状态,对其使用后果是未知的 使用完一个对象或变量,没有及时清理,也会造成一定的安全问题 C利用构造函数和析构函数解决上述问题,这两个函数…

牛客竞赛字符串专题 NC237664 Typewriter(SAM + 树上倍增 + 二分 + 线段树优化dp)

本题主要考察了如何用 SAM 求原串每个前缀对应的能与非后缀匹配的最长后缀,以及如何求 SAM 每个节点 right 集合的 min / max。很有价值的一道串串题。 题意: 你有一台打字机,你需要用它打出一段只由小写字母构成的文本S。 设某个时刻&#…

java数据结构刷题二期

在 MATLAB 中,有一个非常有用的函数 reshape ,它可以将一个 m x n 矩阵重塑为另一个大小不同(r x c)的新矩阵,但保留其原始数据。 给你一个由二维数组 mat 表示的 m x n 矩阵,以及两个正整数 r 和 c &…

考研数据结构--栈和队列

栈和队列 文章目录 栈和队列栈栈的定义(特点)栈的存储表示栈的基本操作栈的顺序存储方式和基本操作实现顺序栈的定义顺序栈的初始化顺序栈的判空顺序栈的判满顺序栈的进栈顺序栈的出栈取栈顶元素main函数测试 栈的链式存储方式和基本操作实现链栈的定义链…

sentiel安装与整合

(1)方案一:超时处理 设定超时时间,请求超过一定时间没有响应就返回错误信息,不会无休止等待(只能缓解,不能从根本上解决) (2)方案二:舱壁模式 限定每个业务能使用的线程数,避免耗尽整个tomcat的资源,因此也叫线程隔离。(会造成资源浪费) (3)方案三:熔断降…