大数据-Hadoop的介绍、配置和集群的使用

news2024/11/15 17:34:17

HDFS分布式文件系统

分布式:将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情
单机模式
厨房里只有一个人,这个人既要买菜,又要切菜,还要炒菜,效率低。
在这里插入图片描述
分布式模式
厨房里有三个人,一个人买菜,一个切菜,一个炒菜,效率提高了。
在这里插入图片描述
问题:
1,用户交互系统的压力大,都要访问它
2,单点故障问题
集群
解决上面分布式的问题,引入集群概念
集群:一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干个计算机联合起来工作,可以并行,也可以是备份的

在这里插入图片描述
集群相比于分布式方法:备份(多台服务器)
分布式和集群的区别:
分布式:分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事
集群:集群主要是将同一个业务,部署在多个服务器,多个人在一起做同样的事

Hadoop框架介绍

Hadoop是用Java语言实现的开源软件框架,是一个储存和计算的大规模数据的软件平台

Hadoop的核心组件:

  1. HDFS(交叉式文件系统):解决海量数据存储
  2. MAPREDUCE(分布式运算编程框架):解决海量数据计算
  3. YARN(作业调度和集群资源管理框架):解决资源任务调度

广义的Hadoop:Hadoop生态圈,包括LInux、zookeeper、hive、spark等等

版本
2.x版本,开源社区版

Hadoop1.x与Hadoop2.x的区别:

  • 1.x中mapreduce(数据计算、资源管理)、hdfs(数据存储问题,自动备份)
  • 2.x中mapreduce(数据计算)、yarn(资源管理)、hdfs(数据存储问题,自动备份)因为mapreduce压力减轻了,从而更稳定

内部结构
在这里插入图片描述
Hadoop集群包括两个集群:HDFS集群和YARN集群,两者逻辑上分离(一个存储,一个管理),但物理上常在一起(指在同一个服务器上)

HDFS模块:

  • NameNode:集群中的主节点,用于管理集群中的各种数据。存储元数据
  • SecondaryNameNode:用于Hadoop当中元数据(描述数据的数据)信息的辅助管理。(移动硬盘,备份元数据)
  • DataNode:集群中的从节点,存储集群中的各种数据

YARN模块:

  • ResourceManager:接收用户的计算请求任务,并负责集群的资源分配
  • NodeManager:负责执行主节点分配的任务,实际执行任务

mapreduce模块:在这里插入图片描述
mapreduce计算需要的数据和产生的结果需要HDFS来进行存储。—mapreduce慢的主要原因(读磁盘慢)
mapreduce的运行需要yarn集群来提供资源调度
mapreduce是一个计算框架。map(先分布式计算)、reduce(将分布式计算的结果合并)

单机模式:
在这里插入图片描述
集群模式,角色分配:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/164954.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

leetcode2293:极大极小游戏(1.15每日一题)

题目表述: 给你一个下标从 0 开始的整数数组 nums ,其长度是 2 的幂。 对 nums 执行下述算法: 设 n 等于 nums 的长度,如果 n 1 ,终止 算法过程。否则,创建 一个新的整数数组 newNums ,新数…

深浅copy

go 在go语言中值类型赋值都是深拷贝,引用类型一般都是浅拷贝其本质就是,深拷贝会拷贝数据,而浅拷贝只会拷贝内存的地址,所有就会出现,像slice那样修改底层数组的值,slice的值也跟着改动。 深拷贝 修改a的…

[iHooya]1月15日寒假班作业解析

过滤多余的空格 一个句子中也许有多个连续空格,过滤掉多余的空格,只留下一个空格。 输入:一行,一个字符串(长度不超过200),句子的头和尾都没有空格。 输出:过滤之后的句子。 样例输…

全球各国机场名称、坐标经纬度、高程数据(更新至2022年)

数据来源:自主整理 时间跨度:更新至2022 区域范围:全球各国 指标说明: 全球机场坐标数据,包含CSV格式、shpfile格式、kml格式属性字段包括机场类型、经纬度,高程,所在国家省市区域&#xff…

5.12回溯法--连续邮资问题--子集树

回溯法的题目太多了,不想写这个代码了,于是我就开始水一篇文章,就单纯的分析一下这个问题保持整本书完整的队形 问题描述 如何用有限的邮票数,贴出更多面额的需求? 举例 n5,m4 设计1:X1{1, …

20多年老码农的IT学习之路

20年IT工作经历,目前在一家500强做企业架构,年薪税前150万多.最近公司业绩不好,有感觉工作不保,所以又捡起了编程,开始学习Golang,Angular等。我不是985,211也不是海归,我…

基于ssm+mysql+jsp实现在线花店

基于ssmmysqljsp实现在线花店一、系统介绍1、系统主要功能:2、环境配置二、功能展示1.主页(客户)2.登陆(客户)3.我的购物车(客户)4.我的订单(客户)5.主页(管理员)6.订单管理(管理员&…

什么是链路追踪?分布式系统如何实现链路追踪?

在分布式系统,尤其是微服务系统中,一次外部请求往往需要内部多个模块,多个中间件,多台机器的相互调用才能完成。在这一系列的调用中,可能有些是串行的,而有些是并行的。在这种情况下,我们如何才…

PANNs:用于音频模式识别的大规模预训练音频神经网络

摘要 音频模式识别是机器学习领域的一个重要研究课题,它包括音频标注、声音场景分类、音乐分类、语音情感分类和声音事件检测等任务。近年来,神经网络已被应用于解决音频模式识别问题。然而,以前的系统是建立在特定数据集上的,数…

商业化广告--体系学习-- 17 -- 业务实战篇 --平台建设:如何从0到1建立一个完整的广告产品平台?

这是一个非常完整的广告产品平台,它包括广告投放平台(代理型和自助型)、销售类平台、运营类平台、数据类平台以及流量合作类平台五个部分。我们之前提到过程序化交易的一系列平台,但那些对于一个头部的媒体平台来说并不完整。一个…

结构分析软件:2D Frame Analysis 7.2.6 Crack

结构分析软件:2D Frame Analysis 7.2.6 用于在静态、动态、线性和非线性载荷下对框架、梁和桁架进行结构分析的软件工具。它包括静态版和桁架版的所有功能 2D 框架分析软件套件以及处理动态负载的能力。自动计算结构的动态模态,并以图形方式表示相应的模…

Java图形化界面---

目录 一、JColorChooser (1)JColorChooser的介绍 (2)JColorChooser案列 二、JFileChooser (1)JFileChooser的介绍 (2)JFileChooser使用步骤 (3)JFileChooser案例 …

【云原生进阶之容器】第四章Operator原理4.4节--Operator深入实践

1 Operator 深入实践 在本节中,我们将重点关注 etcd-cluster-operator,用于管理 Kubernetes 内部的 etcd。简单地说,etcd 是一个分布式键值数据存储系统,它有能力管理自己的稳定性,只要: 每个 etcd 实例都有一个用于计算、网络和存储的独立故障域。每个 etcd 实例都有一个…

读 | Software Architecture Patterns

个人博客 Software Architecture Patterns》是 Mark Richards 2015 年出的一本小册子,对常用的架构模式进行了一个简单梳理,书中列了 5 种: 分层(Layered)事件驱动(Event-Driven)微内核&#…

HTML的常见标签

什么是 HTML? HTML 是英文 Hyper Text Markup Language(超文本标记语言)的缩写,是一种用于创建网页的标准标记语言。 什么是HTML 标签? HTML 文档和 HTML 元素是通过 HTML 标签进行标记的 HTML 标签是由尖括号包围的关键词&am…

【阶段四】Python深度学习07篇:深度学习项目实战:循环神经网络的原理和结构

本篇的思维导图: 循环神经网络 循环神经网络,就是专门用于处理语言、文字、时序这类特征之间存在“次序”的问题。这是一种循环的、带“记忆”功能的神经网络,这种网络针对序列性问题有其优势。 循环神经网络的原理和结构 序列数据的概念 序列数据,是其特征的先后…

电路方案分析(十六)高效备用电源设计方案

高效备用电源设计方案 备用电源: 备用电源是一种在主电源发生故障时为负载提供紧急电源的电气系统。适当的备用电源通过提供存储在备用电容器或电池中的能量,提供即时保护,防止主电源中断而产生故障。这种备份电源通常用于保护硬件&#xf…

表单<form>

创建表单 <form> 标签用于创建供用户输入的 HTML 表单。 <form>标签的action属性的值指定了表单提交到服务器的地址。 <form> 元素包含一个或多个如下的表单元素&#xff1a; <input> <textarea> <button> <select> <option&g…

JAVA设计模式--行为型模式--职责链模式

1.责任链模式&#xff08;Chain of Responsibility Pattern&#xff09; 1.1介绍 为请求创建了一个接收者对象的链。这种模式给予请求的类型&#xff0c;对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式。在这种模式中&#xff0c;通常每个接收者都包含对…

C语言文件操作(一文带你吃透文件各种操作)

文章目录 一、为什么要使用文件 二、什么是文件 2、1 程序文件 2、2 数据文件 2、3 文件名 三、文件的打开关闭及读写操作 3、1 文件指针 3、2 文件的打开和关闭操作 3、3 文件的读写函数详解 3、3、1 fgetc、fputc函数详解 3、3、2 fgets、fputs函数详解 3、3、3 fscanf、fpri…