笔记--大数据--Hadoop--01--基础概念

news2025/1/12 3:46:57

Hadoop是什么
Hadoop是一个分布式系统基础架构
主要解决海量数据的存储和分析计算问题
Hadoop优势–4高
高可靠性:Hadoop底层维护多个数据版本,单个计算元素或存储故障也不会导致数据丢失
高扩展性:在集群中分配任务数据,可以方便的扩展数以千计的节点
高效性:在MapReduce思想下,Hadoop是并行的
高容错性:能够自动将失败任务重新分配

版本变化
请添加图片描述
Hadoop1.x中MapReduce同时处理业务逻辑运算和资源调度,耦合性较大
Hadoop2.x和Hadoop3.x增加了Yarn,Yarn只负责资源调度,MapReduce只负责运算

HDFS架构

HDFS:Hadoop Distributed File System Hadoop分布式文件系统

NameNode(nn)名字节点:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等
DataNode(dn)数据节点:在本地文件系统存储文件块数据,以及块数据的校验和
Secondary NameNode(2nn)次名字节点:每隔一段时间对NameNode元数据备份

分布式文件系统将集群看成一个整体,忽略节点之间的连接,直接当作一个整体看待。
而将不同的节点组成的集群当作一个整体看待的实现方式就是hdfs架构,通过nn管理dn的元数据,例如dn存储的文件的命名空间等,从而可以通过命名空间像一层一层的文件夹一样把所有文件看成一个有逻辑的文件整体

YARN架构

YARN:Yet Another Negotiator,另一种资源协调者,Hadoop的资源管理器

  • ResourceManager(rm):资源管理者,协调整个集群资源
  • NodeManager(nm):节点管理者,协调单个服务器节点资源
  • ApplicationMaster(am):任务管理者,单个任务的管理者
  • Container:容器,相当于一台独立的机器,封装了任务运行所需的内存 CPU 磁盘 网络等资源
    请添加图片描述

MapReduce流程

MapReduce将计算过程分为两个阶段Map和Reduce

  • Map阶段并行处理输入数据
  • Reduce阶段对Map结果进行汇总
    请添加图片描述

HDFS、YARN、MapReduce三者关系

请添加图片描述
流程
Client->RM->找一个NM生成Container,生成AM->AM找RM申请机器资源->生成两个MapTask的Container->MapTask的Container查找自己所在节点的信息,并且生成返回值->一个ReduceTask节点接收所有MapTask节点的信息并且汇总,写在一个DN上,再由DN去写在NN上和2NN上

Hadoop重要目录

  • bin 服务脚本:存放对 Hadoop 相关服务(hdfs,yarn,mapred)进行操作的脚本
  • etc 配置文件:Hadoop 的配置文件目录,存放 Hadoop 的配置文件
  • lib 本地库:存放 Hadoop 的本地库(对数据进行压缩解压缩功能)
  • sbin 启停脚本:存放启动或停止 Hadoop 相关服务的脚本
  • share 目录:存放 Hadoop 的依赖 jar 包、文档、和官方案例

Hadoop运行模式

  • 本地模式:单机运行
  • 伪分布式模式:单机模拟分布式环境,具备Hadoop集群全部功能
  • 完全分布式模式:多台服务器组成的真实的分布式环境

------笔记来自尚硅谷课件的自学

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/561222.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springWEB搭建

SpringWEB就是spring框架里得一个模块 springMVC介绍 在之前的后端三大架构: Controller: 控制层, 包含了servlet, 对数据的接收, 处理, 响应 Model: 数据模型, dao, model VIew: 视图, jsp, 用于将数据添加到html中进行响应 工作流程: 主要是控制层接收到响应之后, 调取dao层将…

CodeForces.1806A .平面移动.[判断可达范围][找步数规律]

题目描述: 题目解读: 给定移动规则以及起始点,终点;分析终点是否可达,可达则输出最小步数。 解题思路: 首先要判定是否可达。画图可知,对于题目给定的移动规则,只能到达起始点(a,b…

行业常识_交换机

文章目录 一、前言二、交换机2.1 什么是交换机?2.2 交换机的作用是什么?2.3 交换机的应用2.4 交换机分类2.5 交换机功能2.6 交换机的带宽 三、总结 一、前言 项目中经常会用到交换机。 交换机有多个网口。 你可以用一根网线,网线一端插入交换…

【学习日记2023.5.23】 之 店铺营业状态模块完善

文章目录 5. 店铺营业状态设置5.1 需求分析和设计产品原型 5.2 代码开发5.2.1 设置营业状态5.2.2 管理端查询营业状态5.2.3 用户端查询营业状态 5.3 功能测试5.3.1 接口文档测试5.3.2 接口分组展示5.3.3 前后端联调测试5.4 代码提交 5. 店铺营业状态设置 5.1 需求分析和设计 产…

chatgpt赋能Python-python_os_remove

Python os.remove(): 删除文件 什么是 Python os.remove()? Python os.remove() 函数是 Python 中用于删除文件的标准库函数之一。 它使用以下语法: os.remove(file)这里的 file 参数是要删除的文件的路径及文件名。 Python os.remove()的工作原理 …

Linux——SNAT与DNAT的应用

一、SNAT的介绍 1,SNAT概述 SNAT(SNAT)一般指源地址转换 源地址转换是内网地址向外访问时,发起访问的内网ip地址转换为指定的ip地址(可指定具体的服务以及相应的端口或端口范围),这可以使内网中…

2024考研《数据结构》复习笔记总览(文末有彩蛋)

前言 数据结构是是计算机专业的必修课,也是计算机考研的必学书目。 随着科技的飞速发展,数据结构的基础性地位不仅没有动摇,反而由于近年来算法工程师的高薪火爆,使得数据结构的重视程序空前高涨。 索引目录 数据结构考研笔记第…

电动力学专题:天线阵简介

电动力学专题:天线阵天线阵是指由多个天线按一定方式组合而成的一个系统,用于接收或发射无线电信号。天线阵可用于雷达、通信、导航和定位等领域,能够大幅度提高系统的灵敏度和方向性,同时也能提高系统的抗干扰能力和分辨率。在实…

fastposter v2.15.0 从繁琐到简单,简洁好用的海报生成器

fastposter v2.15.0 从繁琐到简单,简洁好用的海报生成器 从繁琐到简单,简洁好用的海报生成器 我很高兴向大家推荐一款令人兴奋的工具——Fastposter海报生成器。作为一名开发者,我们深知在项目中创建专业级海报的重要性,但常常面…

MATLAB仿真建模:Simulink和Stateflow的应用和模型设计

第一章:引言 在当今的科学研究和工程领域中,仿真建模是一项非常重要的技术。通过仿真建模,我们可以在计算机上创建模拟真实系统行为的模型,并通过模型的分析和测试来优化系统设计。MATLAB是一种广泛应用于科学和工程领域的强大工…

FPGA——HLS入门-LED闪烁仿真

系列文章目录 文章目录 系列文章目录一、HLS介绍1、什么是HLS2、与VHDL/Verilog有什么关系?3、关键技术局限性 二、Vivado HLS - LED闪烁仿真1、项目配置2、C仿真3、联合仿真 三、总结 一、HLS介绍 1、什么是HLS HLS就是高综合(High level Synthesis)…

如何开发微信小程序,后端,前端,小程序端,如何部署到腾讯云托管

开发微信小程序是一项非常有趣的任务,它涉及到前端、后端和小程序端的开发。在本文中,我们将介绍如何开发微信小程序,并将其部署到腾讯云托管。 一、前端开发 前端开发是微信小程序开发的第一步。在这一步中,我们需要使用微信小程…

分享几个网内可用的免费的ChatGPT网页版

Chatgpt: 与AI聊天的新体验 随着数字生活的普及和人工智能技术的快速发展,越来越多人希望与机器进行真挚的交流,体验身临其境的感觉。基于这个想法,我们推出了Chatgpt,一款基于自然语言处理技术和深度学习算法的智能聊天机器人&a…

Spark基础学习笔记----RDD检查点与共享变量

零、本讲学习目标 了解RDD容错机制理解RDD检查点机制的特点与用处理解共享变量的类别、特点与使用 一、RDD容错机制 当Spark集群中的某一个节点由于宕机导致数据丢失,则可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式&#xff0c…

Linux防火墙之firewalld基础

一、firewalld概述 firewalld防火墙是Centos7系统默认的防火墙管理工具,取代了之前的iptables防火墙,也是工作在网络层,属于包过滤防火墙。 firewalld和iptables都是用来管理防火墙的工具(属于用户态)来定义防火墙的…

数据结构 之 二叉搜索树 结构

二叉树搜索树的基本属性: 如图所示:二叉搜索树有四个最基本的属性:指向节点的根(root),节点中的键(key)、左指针(right)、右指针(right&#xff…

DELL PowerVault MD3600f存储维修 控制器更换 电池更换

MD3600f 系列存储阵列介绍 MD3600f 系列是采用 2U 机架固定的外部独立磁盘冗余阵列 (RAID) 存储阵列,可容纳多达 12 个 3.5 英寸或 24 个 2.5 英寸的 6.0-Gbps 串行连接SCSI (SAS) 磁盘。 MD3600f 系列存储阵列可以使用 MD1200 系列扩展机柜以菊花链式连接&#xff…

解决:在 Router 中父级未引入单文件组件而且 children 中的单文件组件不能在页面展示的问题

1、问题展示: 其一、问题描述: 在 router 中父级未引入单文件组件,而只是写了其它配置,但在其 children 中写了配置且引入了单文件组件而未能在页面中展示; 其二、代码: // 某一块的静态路由管理 {path…

2021下半年

2021下半年 a d a c b 阶码是纯整数,尾数是纯小数 对于阶码: 对于尾数: 选b c c a c b c b 归属于受委托方 a b c a 前向传播 反向传播,求关键路径 b b 关键路径上的活动松弛时间为0 c 中缀式:需…

chatgpt赋能Python-python_namedtuple

Python中的namedtuple 在Python中,namedtuple是一个方便且易于使用的数据结构,可以有效地处理元组数据。 它是Python标准库collections中一个实用的类,可以创建一个具有命名属性的元组,类似于一个简单的类对象。namedtuple的属性…