【Hadoop】P2 Hadoop简介

news2024/9/20 8:56:08

Hadoop是什么

Hadoop为分布式系统基础框架。主要解决海量数据的存储和海量数据的分析计算问题。
大数据解决的是海量数据的采集、存储和计算


Hadoop三大发行版本

Apache 最原始最基础的版本,2006年诞生,开源;
Cloudera 内部封装Apache,对应产品CDH,2008年,部分免费,已结束免费;
Hortonworks 内部封装Apache,对应产品HDP,2011年,部分免费,已结束免费。
Cloudera现今已经收购Hortonworks,产品CDP,现今收费,10000美元起步。


Hadoop优势

高可靠性
Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

高扩展性
在集群之间可以动态添加删除服务器,而不需要停止然后重新启动。

高效性
在MapReduce影响下,Hadoop是并行工作的,如此可以加快任务的处理速度。

高容错性
可以自动地将失败的任务重新地分配。


Hadoop的组成

Hadoop1.x中,MapReduce同时负责计算与资源调度,在2.x与3.x中,采用MapReduce进行计算以及Yarn进行资源调度。3.x在2.x的基础上,组成结构上并未进行大的变动,只是在某些方面,比如NameNode等有变化。
在这里插入图片描述


HDFS

HDFS: Hadoop Distribute File System,简称HDFS,是一个分布式文件系统。主要负责资源调度

HDFS第一个组件,NameNode,用于记录每一个文件块的存储位置;DataNode,具体存储数据的位置。为了防止NameNode“挂了”,所以冗余备份一份,为2NN

在这里插入图片描述
NameNode: 存储文件的元数据,如文件名,文件目录结构,文件属性以及文件的块列表与块所在的DataNode等。

DataNode: 在本地文件系统存储文件块数据,以及块数据的校验和。

Secondary NameNode (2NN): 每隔一段时间对NameNode元数据备份。


Yarn架构概述

Yarn:Yet Another Resource Negotiator,资源协调者,是Hadoop的资源管理器,主要管理CPU和内存。

ResourceManager (RM),整个集群资源的管理者,为所有单结点资源的集合。
NodeManager (NM),单个结点资源的管理者。
ApplicationMaster (AM),单个任务运行的管理者。
Container:容器,每个任务在每个单独的容器中运行,其相当于一台独立的服务器,里面封装了任务运行时所需要的资源。比如为什么100台服务器的数据中心可以提供上万个用户单独使用,就是通过容器。

通过容器,可以跨服务器运行一个任务;比如当容器发现当前开辟的CPU与内存不够用的时,“充值”,通过联系RM,将分配另一块CPU+内存给容器,且另一块的CPU+内存不是必须在一个服务器、NM中。


MapReduce架构概述

MapReduce: 将计算过程分为两个阶段,Map和Reduce。
Map阶段并行处理输入数据;
Reduce阶段对Map结果进行汇总。

在这里插入图片描述


HDFS、YARN与MapReduce配合

在这里插入图片描述

回忆,DataNode,实实在在存储数据;NameNode,存储在哪个结点上,存储的是什么信息;SecondaryNN,冗余备份,防止NN完蛋。

Yarn负责整个集群资源的管理,RM与NM;

e . g . e.g. e.g. 用户向集群提交一个任务,集群开始工作,RM找到一个结点,开启一个容器,任务放到其中,为App Master,由App来向RM申请CPU与内存大小,RM提供给容器一块又一块CPU与内存。容器到每一个“块”(CPU+内存)的容器称为MapTask,每一个MapTask进行任务,称为MAP;然后进行任务反馈,为Reduce;


以上仅为概述部分,在后面将详细的将每个部分拆解进行详细的阐述。
2022年10月31日
于 香港理工大学

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2332.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML中华传统文化题材网页《中国民间年画》HTML+CSS+JavaScript

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

Redis网络模型-IO多路复用

Redis网络模型-IO多路复用 系统IO交互 IO多路复用概念 文件描述符(File Descriptor):简称FD,是一个从O开始递增的无符号整数,用来关联Linux中的一个文件。在Linux中,一切皆文件,例如常规文件、视频、硬件设备等&…

卷积神经网络的卷积层

文章目录卷积核正向传播反向传播参考文献附录卷积核 笔者在学会了如何运用卷积神经网路后,突然有一天萌发了很多问题,为什么要用卷积核?卷积核具体完成了什么工作?带着这些疑问,笔者开始查询资料,其中一段视…

MongoDB入门与实战-第一章-介绍

目录参考一、介绍二、概念三、预留默认库四、 MongoDB 集合五、 MongoDB 视图六、MongoDB 索引七、MongoDB ObjectIdMongoDB 性能问题定位方式参考 MongoDB 基础浅谈 一、介绍 MongoDB是为快速开发互联网Web应用而设计的数据库系统。 MongoDB的设计目标是极简、灵活、作为We…

[vue3] Tree/TreeSelect树形控件使用

✨✨个人主页:沫洺的主页 📚📚系列专栏: 📖 JavaWeb专栏📖 JavaSE专栏 📖 Java基础专栏📖vue3专栏 📖MyBatis专栏📖Spring专栏📖SpringMVC专栏📖SpringBoot专…

【定语从句练习题】That 、who、whom、省略

1. 改写训练 1.I’d like to speak to the person that wrote this letter. 主 2.The tomatoes that I bought yesterday. 宾,可以去掉 3.Joe’s got a motorbike that can do 200Km an hour. 主 4.Is that the computer that doesn’t work. 主 5.Those are trous…

[操作系统笔记]处理机调度

调度算法 名称英文作业调度进程调度说明特点先来先服务First-come first-served, FCFS适用适用按作业到达先后顺序(即优先考虑等待时间最长的)非抢占式短作业优先short job first, SJF适用适用作业越短(即运行时间越短)优先级越高…

SpringBoot异常:Process finished with exit code 0 | Tomcat服务没有启动 | 无法通过浏览器访问

错误信息 启动springBoot项目后,打印信息如下 意思是:我该执行的程序已执行完毕,并正常退出。 希望提示:打印Tomcat已在8080端口启动,可以通过浏览器访问,如果是这个问题,继续向下浏览&#xf…

标准库类型string和vector

一、命名空间 std::cinstd就是命名空间, 这个的含义是 :编译器应该从操作符左侧的名字所示的作用域std中去寻找cin。 另一种方式就是在开头显式进行说明: using std::cin;这样一来后续就不用再去在每条语句中显式说明了。 需要注意的是&…

微信小程序实战 wx.showNavigationBarLoading(),下拉动画配置无效

文章目录前情提要原因分析实战解析最后前情提要 下拉刷新一定是移动端常用操作,微信小程序官方集成了下拉刷新监听函数onPullDownRefresh(),以及显示下拉动画apiwx.showNavigationBarLoading(),但是我们在初次接触这个api发现,调用该函数动画不显示&…

头歌-信息安全技术-Spectre侧信道攻击过程验证

头歌-信息安全技术-Spectre侧信道攻击过程验证一、第1关:Cache vs Memory1、编程要求2、评测代码二、第2关:基于FlushReload的侧信道实现1、编程要求2、评测代码三、第3关:Spectre预测执行1、编程要求2、评测代码四、第4关:Spectr…

【Unity】关于升级到2021.3.12之后URP编译错误的问题

前几天,我一时兴起,把Unity从2021.3.11 LTS 升级到 2021.3.12 LTS,本来以为不会有啥区别,然后意想不到的是,居然出现了编译错误: 我一开始以为这个就是我的工程设置有问题,然后我就就新…

前端面试之Vue专题

目录 前言 MVVM模式 Vue的响应式原理 路由守卫 前言 网上有许多前端八股文,但是缺少便于理解的说明和案例,需要自行查阅资料。这篇文章我就按照面试的高频题来记录自己的理解和实操。 MVVM模式 一、三者含义 M是Model,数据模型&#xf…

非项目活动的时间怎么跟踪?

会计、审计、合规和专业服务企业通常需要跟踪花费在项目和非项目上的时间以进行报告。员工可以使用8Manage工时表这样的工具来获取与项目和非项目任务相关的工作时间,并记录管理时间。 非项目时间类别确定在项目工作之外发生的不同类型的活动。你可以在工时表解决方…

【网络篇】第六篇——网络套接字编程(二)(UDP详解)

基于UDP协议的套接字程序 服务端 服务端创建套接字 服务的绑定 字符串IP VS 整数IP 运行服务器 客户端 客户端创建套接字 客户端绑定 启动客户端 本地测试 INADDR_ANY 简易的回声服务器 网络测试 基于UDP协议的套接字程序 服务端 服务端创建套接字 我们把服务…

重学Android基础系列篇(三):架构动态编程技术原理

前言 本系列文章主要是汇总了一下大佬们的技术文章,属于Android基础部分,作为一名合格的安卓开发工程师,咱们肯定要熟练掌握java和android,本期就来说说这些~ [非商业用途,如有侵权,请告知我,我会删除] DD一下: And…

基于形状的匹配提纲

关键:形状,其实就是canny找出来的线条集合 1,canny线条 2,模板的线条(基于canny) 3,高斯金字塔,加速高斯法 4,没有旋转和尺度时,匹配一个有得分的结果&am…

Linux-vim使用

目录 基本vim的基本操作: 命令模式: 光标定位: $:光标定位到行右: ^:光标定位到左: shiftgG:光标定位到底部 gg:回到顶部 nshiftg表示跳转光标到第n行 文本复制相关…

输入学生的信息学号、姓名、语文成绩、数学成绩、英语成绩,计算总分、并按总分成绩排序,再写到另一个txt文件中(python)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 题目: 代码: 1.提前写入标题栏(学号、姓名、语文、数学、英语、总分) 2.再写入学生的信息 3.读取score2.txt文件 4.…

机器学习西瓜书学习记录-第五章 神经网络

第5章 神经网络 5.1神经元模型 神经网络中最基本的成分是神经元模型。 “M-P神经元模型”,又称“阈值逻辑单元” 在模型中,神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到…