【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )

news2024/11/19 7:34:21

一、总体架构设计原则

企业级大数据应用框架需要满足业务的需求,一是要求能够满足基于数据容量大,数据类型多,数据流通快的大数据基本处理需求,能够支持大数据的采集,存储,处理和分析,二是要能够满足企业级应用在可用性,可靠性,可扩展性,容错性,安全性和隐私性等方面的基本准则,三是要能够满足用原始技术和格式来实现数据分析的基本要求

满足大数据的V3要求  

大数据容量的加载、处理和分析 - 要求大数据应用平台经过扩展可以支持 GB、TB、PB、EB甚至ZB规模的数据集  

各种类型数据的加载、处理和分析 - 支持各种各样的数据类型,支持处理交易数据、各种非结构化数据、机器数据以及其他新数据结构  

大数据的处理速度 - 在很高速度(GB/s)的加载过程中集成来自多个来源的数据

满足企业级应用的要求

高可扩展性 - 要求平台符合企业未来业务发展要求以及对新业务的响应,要求大数据架构具备支持调度和执行数百上千节点的负载工作流

高可用性 - 要求平台能够具备实时计算环境所具备的高可用性,在单点故障的情况下能够保证应用的可用性

安全性和保护隐私 - 系统在数据采集、存储、分析架构上保证数据、网络、存储和计算的安全性,具备保护个人和企业隐私的措施

开放性 - 要求平台能够支持计算和存储数以千计的、地理位置可能不同的、可能异构的计算 节点

易用性

二、总体架构参考模型

 基于Apache开源技术的大数据平台总体架构参考模型如图所示,大数据的产生、组织和处理主要是通过分布式分拣处理系统来实现的,主流的技术是 Hadoop+ MapReduce 

其中Hadoop的分布式文件处理系统(HDFS)作为大数据存储的框架,分布式计算框架MapReduce作为大数据处理的框架

大数据基础 

这一部分提供了大数据框架的基础,包括序列化、分布式协同等基础服务, 构成了上层应用的基础

Avro - 新的数据序列化与传输工具,将逐步取代Hadoop原有的IPC机制 

ZooKeeper - 分布式锁设施 ,它是一个分布式应用程序的集中配置管理器, 用户分布式应用的高性能协同服务,由 Facebook贡献,也可以独立于 Hadoop使用。 

大数据存储 

HDFS是Hadoop分布式文件系统, HDFS运行于大规模集群之上, 集群使用廉价的普通机器构建, 整个文件系统采用的是元数据集中管理与数据块分散存储相结合的模式, 并通过数据的冗余复制来实现高度容错

大数据处理 

基于 MapReduce写出的应用程序能够运行在由上千个普通机器组成的大型集群上, 并以一种可靠容错的方式并行处理TB级别以上的数 据集

大数据访问和分析

在 Hadoop + MapReduce之上架构的是基础平台服务,在基础平台之上是大数据访问和分析的应用服务

Pig - Pig支持的常用数据分析主要有分组、过滤、合并等,Pig为创建 Apache MapReduce应用程序提供了一款相对简单的工具

Hive - Hive是由Facebook贡献的数据仓库工具, 是MapReduce实现的用来查询分析 结构化数据的中间件

Sqoop - Sqoop由Cloudera开发,是一种用于在 Hadoop与传统数据库间进行数据传递的开源工具

Mahout  -  Apache Mahout 项目提供分布式机器学习和数据挖掘库

创作不易 觉得有帮助请点赞关注收藏~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/82241.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

openGauss数据库的使用

目录前言1. 启动/停止/重启数据库(1)极简版启动/停止/重启命令(2)企业版启动/停止/重启命令2. 登录数据库(1)登录数据库时的基本连接参数(2)登录数据库时的常用连接参数(…

如何使用轻量应用服务器搭建高颜值的YesPlayMusic网易云播放器

本文介绍了如何使用腾讯云的Lighthouse轻量应用服务器来搭建一个高颜值的第三方网易云播放器。 ​ 项目简介 本文使用的是YesPlayMusic项目,这是一款高颜值的第三方网易云播放器,它完全可以作为网易云官方应用的替代品。而且还拥有一些网易云官方应用没…

react-dnd 拖拽能力教程

前言 近几年来,低代码、零代码的热度在国内逐年递增。“复杂度同力一样不会消失,也不会凭空产生,它总是从一个物体转移到另一个物体或一种形式转为另一种形式”。用户在使用低零代码构建应用程序时,这些能力只是被平台研发人员提…

SQL SERVER 2019卸载和安装

卸载过程删除SQL Server2019包括sql server这个数据库和它的管理工具SQLServer Management Studio以及他们的注册表信息和安装的目录,以上,最重要的是一定要有耐心,一步一步慢慢来。 首先打开一定要把SQL的服务都关掉,这个很重要…

压缩包文件如何设置加密、删除加密?

压缩包是将文件压缩成RAR、ZIP格式文件,将文件压缩成压缩包之后,就更方便转发以及保存,而且压缩包文件可以进行加密,这样也能够起到对文件的保护作用,今天和大家分享如何对压缩包进行加密以及如何删除压缩包密码。 压…

战略,就没一本好书

战略这个词被工商业界引爆,都是1965年的事。想来到现在已经快60年了。但是实话说,战略这么重要的事,其实没几本好书,也就是说,这个领域,实在没什么有效的研究成果。(1)起点1965年是个…

Vue 进阶二 | 系统性学习 | 无知的我费曼笔记

无知的我正在复盘Vue 该笔记特点是 重新整理了涉及资料的一些语言描述、排版而使用了自己的描述对一些地方做了补充说明。比如解释专有名词、类比说明、对比说明、注意事项提升了总结归纳性。尽可能在每个知识点上都使用一句话 || 关键词概括更注重在实际上怎么应用提出并回答…

数据可视化之卡塔尔世界杯,世界杯8强全部出炉,你看好那支队伍?

2022年下半年可算是集结了众多国际赛事,前有csgo major,英雄联盟总决赛,后有斯诺克英锦赛。当然这些赛事里面最万众瞩目的就是4年一度的卡塔尔世界杯了。本届世界杯开赛前最大的看点就是世界杯的花费,卡塔尔2022年世界杯花费2290亿…

他让我看重采样

周末邓总让我帮忙看下重采样的代码,然后我就用上了自己的神器。我的神器就是Google之后总结了下代码,完整的代码可以往下看,我们平时也会用到重采样,通道转换、交织和非交织的相互转换、给音频重新map等等。这些都是做音频需要搞的…

(红帽系统)redhat7.2 相关服务器配置

远程连接服务器配置 简介 使用SSH可以在本地主机和远程服务器之间进行加密的传输数据,实现数据的安全传输。而OpenSSH是SSH协议的免费开源实现,它采用安全加密的网络连接工具代替了telnet、ftp等 实现步骤 第一步 进入红帽系统 第二步 检查安装系统时…

需求处理的流程及问题挑战

本文主要讲需求的一般处理流程,以及可能存在的问题及挑战。 一、需求处理流程: 1、需求的生命周期: 起点是提需求,终点是拒绝或接受需求。每个人希望自己的需求能被接受或满足,但资源总是有限的。每个需求从产生到实…

SRM系统的国内品牌前五名是哪几家,大概价位是多少?

SRM系统的国内品牌前五名是哪几家,大概价位是多少?SRM系统是采购数字化转型过程中的产物,SRM系统与ERP与SCM系统打通后,能够破除信息壁垒,增加采购部门与业务部门的沟通效率,从而实现企业人、物、财成本的降…

JavaSE——多线程详细

目录 一、多线程 1.1 基本介绍 1.2 进程和线程的关系 1.3 多线程并发概念 二、实现线程的方式 2.1 继承Thread类 2.2 实现java.lang.Runnable接口 2.3 匿名类 2.4 实现Callable接口(JDK8新特性) 2.5 run和start的区别 2.6 线程声明周期 三、…

双非本科怎么了,照样拿到阿里 offer! 分享阿里技术四面 + 交叉面 +HR 面难忘经历

说一下 java 类加载器的工作机制?类加载在哪个区域进行的? 说一下 java 的线程模型? violate 了解吗?它的原理是什么?violate 是线程安全的吗? 保证线程安全的解决方法有哪些?说一说读写锁吧…

前端高频手写面试题总结

实现字符串的repeat方法 输入字符串s,以及其重复的次数,输出重复的结果,例如输入abc,2,输出abcabc。 function repeat(s, n) {return (new Array(n 1)).join(s); }递归: function repeat(s, n) {return…

通过 JFR 与日志深入探索 JVM - TLAB 原理详解

什么是 TLAB? TLAB(Thread Local Allocation Buffer)线程本地分配缓存区,这是一个线程专用的内存分配区域。既然是一个内存分配区域,我们就先要搞清楚 Java 内存大概是如何分配的。 我们一般认为 Java 中 new 的对象…

模板模式

文章目录思考模板模式1.模板模式的本质2.何时选用模板模式3.优缺点4.模板方法的结构5.实现思考模板模式 模板模式其实就是抽离共用方法到抽象类中,然后再规定其具体实现步骤 1.模板模式的本质 模板方法模式的本质:固定算法骨架。 模板方法模式主要是通过制定模板&am…

系统集成企业需具备哪些证书?

IT信息化企业,系统集成企业需要做的资质证书有哪些?经常遇到有新成立的系统集成商问智达鑫业小编,该申请哪些企业资质,接下来了小编整理下目前市场上使用频率比较高的一些资质证书,大家可以参考下。 信息系统建设和服务…

A-Level考试常见问题综合解答

关于A Level的Q&A 问:参加A Level的考试与其他考试相比有什么优势吗? 答:A Level考试的门数相较其他国际课程更少,学生有更多的时间花费在每门课上取得更好的GPA和最终成绩。问:就读的学校就直接提供A Level课程&a…

jmeter断言

jmeter断言常用的有响应断言和json断言; 常用的响应断言: 1.字符串:如果响应中包含了指定的字符串,判断为成功,不支持正则表达式;如下图: 2.包括:如果响应中包含了指定的字符串&…