三种大数据应用架构介绍

news2024/11/26 10:24:20

信息技术的发展,如今数据存储能力上升到了 TB、PB 级别,企业和政府部门都以各种形式存储了大量的数据,如何快速有效地处理规模大、结构复杂的数据?本文主要介绍大数据的三类应用架构MapReduce、Hadoop、Spark,进行数据处理。

一、MapReduce

MapReduce是大规模数据集的并行运算,是实现关联规则的挖掘算法,MapReduce 设计上具有以下主要的技术特征。

(1)MapReduce 集群的构建完全选用价格便宜、易于扩展的低端商用服务器;

(2)MapReduce 利用集群中的大量数据存储节点同时访问数据,提供高带宽的数据访问和传输。

(3)MapReduce提供一种抽象机制,开发人员可从系统层细节中解放出来,专注于其应用本身的算法设计。

(4)MapReduce并行计算软件框架能有效处理失效节点的检测和恢复。

二、Hadoop

Hadoop大数据应用架构,用于开发数据密集型分布式应用,实现分布式文件系统,用来存储各个计算节点上的数据。

 图 1 Hadoop 框架示意图

Hadoop 框架的核心是资源管理,这个实体控制着整个集群计算资源的分配和管理,具体来说就是将各种计算资源资源安排给每个节点管理。

三、Spark

Spark 基于MapReduce算法实现分布式计算,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce 的算法。

 图 2 Spark 框架示意图

(1)Spark与Hadoop的对比

首先,Spark中间数据放到内存里面,可实现迭代运算速度快。

其次,Spark更适合于迭代运算较多的机器学习和数据挖掘运算。

最后,Spark比Hadoop更通用。Spark 提供的数据集操作类型有很多种,Hadoop只提供 Map 和 Reduce 两种操作。

2)Spark与Hadoop的结合

Spark可以直接对Hadoop进行数据的读写,两者运行同一个集群中,实现共享存储资源与计算,完全兼容。

2)可用性

Spark通过提供丰富的 API及交互式 Shell来提高可用性。

4)Spark的适用场景

Spark适用于多次操作特定数据集的应用环境,操作次数越多,获取数据量越大,因此,Spark在大数据领域更通用,适用面更广泛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/88941.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

项目:德波量化(DealBot)

概述 德波量化(DEALBOT)项目研发始于2015年,初衷是建立一个可以自己编写交易策略,又可以自动化交易的小软件。为了这个目的,广泛搜寻了现有的开源量化交易软件,包括国外的Backtrader、zipline、Pysystemtr…

SSM整合01:

1.1原始方式整合 11.编写相应配置文件 Spring配置文件:applicationContext..xml SprngMVCi配置文件:spring-mvc.xml MyBatis映射文件:AccountMapper..xml .MyBatis核心文件:sqlMapConfig.xml 数据库连接信息文件:idbc.…

[C++数据结构](34)B树

文章目录B 树概念与性质B 树基本操作与实现框架查找插入遍历B 树性能分析及其优势B 树概念与性质 1970 年,R.Bayer 和 E.mccreight 提出了一种适用于外查找的树,它是一种平衡的多叉树,称为 B 树(或 B-树、B_树)。 一…

数字先锋 | 主机、硬盘、CPU统统没有? 这个电教室有点“潮”!

百年大计,教育为本。在数字中国建设整体布局和推进下,教育新基建为教育高质量发展构筑了数字底座,更为教育创新变革提供了强大的技术基础和应用环境。近年来,教育部门紧抓新一代信息技术发展机遇,赋能学校高质量发展&a…

使用YOLOV5训练口罩检测模型

一、YOLOV5源码和口罩数据集的下载与导入 我是在github上下载的,地址是GitHub - ultralytics/yolov5 at v7.0,下载之后,我将其导入pycharm环境中, 数据集在roboflow上面下载的,地址是Computer Vision Datasets&#…

Linux基础-压缩与打包

该文章主要为完成实训任务,详细实现过程及结果见【参考文章】 参考文章:https://howard2005.blog.csdn.net/article/details/127129580 文章目录一、压缩与打包1.1 压缩1.2 打包1.3 压缩或打包文件常见拓展名二、gzip命令2.1 命令作用2.2 选项参数2.3 实…

python中pandas进行数据分析与可视化(1)

1.创建数据源 matplotlib库是用于数据可视化,pandas则是用于数据分析,在导入这两个包之后,我们可以手工创建两个数据,其表示的是在某一年里,不同名称的新生儿数量,比如被叫做Bob的新生儿有968位 import m…

基于模型预测算法的混合储能微电网双层能量管理系统研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

动态规划之01背包问题

背包练习网址https://www.luogu.com.cn/contest/92872 想要做题的话可以到这里面来进行完成(邀请码:r36l)。注:要输入邀请码才可以进入。 满篇都是干货,有详细的注释和代码,请放心观看。 这就是传说中的 0…

[附源码]Python计算机毕业设计二手交易平台管理系统Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

数据生态第四弹 | OpenMLDB Hive Connector,架构起数据仓库到特征工程的生态桥梁

导读 近日,OpenMLDB 实现了与开源数据仓库软件 Hive 的连接,继完成与 Kafka、Pulsar、RocketMQ 等实时数据源生态整合后,持续构建离线数据生态,期待建设一个更加全面一体的上下游生态圈,在吸引更多用户的同时也能降低…

【能效管理】AcrelEMS-UT综合管廊能效管理平台解决方案应用分析

平台概述 AcrelEMS-UT综合管廊能效管理平台集电力监控、能源管理、电气安全、照明控制、环境监测于一体,为建立可靠、安全、高效的综合管廊管理体系提供数据支持,从数据采集、通信网络、系统架构、联动控制和综合数据服务等方面的设计,解决了…

DC-4靶场教程

探测目标靶机,获取到ip arp-scan -l扫描开放的端口 masscan -p1-65535 192.168.250.213 --rate10000使用nmap获取端口、服务版本、系统等详细信息 nmap -sC -sV -p- -A -T4 192.168.250.213查看使用的中间件 whatweb http://192.168.250.213/访问80端口 没有其…

NLP 模型“解语如神”的诀窍:在文本分类模型中注入外部词典

一. 引言 现实世界的文本表述如恒河沙数,以惊人的速度变换着,人工智能(AI)在快速识别形形色色的文本之前,必须经过充足的训练数据洗礼。然而,面对复杂多变的文本表述,NLP 模型往往无法从有限的…

架构设计(一):从单服务器模式到负载均衡设计

架构设计(一):从单服务器模式到负载均衡设计 作者:Grey 原文地址: 博客园:架构设计(一):从单服务器模式到负载均衡设计 CSDN:架构设计(一&…

latex设置citation显示作者+年份

如果是bib文件分开放,并且每个引用都明确写了author和year,那么直接\citep 就可以,就能产生(abc et al., 2015) 这种格式, 如果你不想要圆括号,可以使用\usepackage[square]{natbib}, 也可以使用\setcitestyle{authoryear,open{(}…

java计算机毕业设计基于安卓Android的论坛App

项目介绍 首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要包罗软件架构模式、整体功能模块、数据库设…

【Kubernetes】Pod数据存储

kubernetes,是一个全新的基于容器技术的分布式架构领先方案,是谷歌严格保密十几年的秘密武器----Borg系统的一个开源版本,于2014年9月发布第一个版本,2015年7月发布第一个正式版本。 kubernetes的本质是一组服务器集群&#xff0…

时间序列异常检测(adtk)

1. 获取时间序列数据 未安装adtk的先安装:pip install adtk 2.阈值检测 adtk.detector.ThresholdAD(lowNone, highNone) 参数: low:下限,小于此值,视为异常 high:上限,大于此值,视为…

基于java+springboot+mybatis+vue+mysql的4S店车辆管理系统

项目介绍 任何系统都要遵循系统设计的基本流程,本系统也不例外,同样需要经过市场调研,需求分析,概要设计,详细设计,编码,测试这些步骤,基于java语言设计并实现了4S店车辆系统&#…