Hadoop生态体系-HDFS

news2024/11/24 7:26:21

目录标题

    • 1、Apache Hadoop
    • 2、HDFS
      • 2.1 设计目标:
      • 2.2 特性:
      • 2.3 架构
      • 2.4 注意点
      • 2.5 HDFS基本操作
        • 2.5.1 shell命令选项
        • 2.5.2 shell常用命令介绍
    • 3、HDFS基本原理
      • 3.1 NameNode 概述
      • 3.2 Datanode概述

1、Apache Hadoop

Hadoop:允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。
核心组件有:
HDFS(分布式文件系统):解决海量数据存储
YARN(作业调度和集群资源管理的框架):解决资源任务调度
MAPREDUCE(分布式运算编程框架):解决海量数据计算
特点:扩容能力(Scalable)成本低(Economical)高效率(Efficient)可靠性(Rellable)

HADOOP 集群具体来说包含两个集群:HDFS 集群和 YARN 集群
HDFS 集群负责海量数据的存储
YARN 集群负责海量数据运算时的资源调度

Hadoop 部署方式分三种,Standalone mode(独立模式)、Pseudo-Distributed mode(伪分布式模式)、Cluster mode(群集模式),其中前两种都是在单机部署。
独立模式又称为单机模式,仅 1 个机器运行 1 个 java 进程,主要用于调试。
伪分布模式也是在 1 个机器上运行 HDFS 的 NameNode 和 DataNode、YARN 的ResourceManger 和 NodeManager,但分别启动单独的 java 进程,主要用于调试。
集群模式主要用于生产环境部署。会使用 N 台主机组成一个 Hadoop 集群。

2、HDFS

HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统
分布式文件系统解决的问题就是大数据存储

2.1 设计目标:

  • 硬件故障是常态,有成百上千个服务器组成,每一个组成部分都 有可能出故障。因此故障检测和自动快速恢复是HDFS的核心架构目标
  • 相较于数据访问的反应时间,更注重数据访问的高吞吐量
  • HDFS被调整成支持大文件
  • 对文件的要求是write-one-read-many访问模式,即一个文件一旦创建-写入-关闭后就不需要修改了,这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能
  • 移动计算的代价比之移动数据的代价低
  • 在异构的硬件和软件平台上的可移植性

2.2 特性:

是一个文件系统,用于存储文件,通过统一的命令空间目录树来定位文件;
是分布式的,很多服务器联合起来实习其功能,

2.3 架构

一般一个HDFS集群有一个Namenode和一定数目的Datanode组成
Namenode是HDFS的集群主节点,Datanode是HDFS集群从节点

HDFS中文件在物理上是分块存储的

2.4 注意点

把目录结构及文件分块位置信息叫做元数据
为了容错,文件的所有 block 都会有副本。副本数量也可以通过参数设置 dfs.replication,默认是 3。

HDFS 是设计成适应一次写入,多次读出的场景,且不支持文件的修改。正因为如此,HDFS 适合用来做大数据分析的底层存储服务,并不适合用来做.网盘等应用,因为,修改不方便,延迟大,网络开销大,成本太高。

2.5 HDFS基本操作

Hadoop 提供了文件系统的 shell 命令行客户端,使用方法如下:

Hadoop fs <args>

#例子:
hadoop fs -ls hdfs://namenode:host/parent/child
#对于本地文件系统,命令示例如下:
hadoop fs -ls file:///root/

2.5.1 shell命令选项

在这里插入图片描述
在这里插入图片描述

2.5.2 shell常用命令介绍

  1. -ls -查看
    hadoop fs -ls [-h] [-R]
    显示文件、目录信息
    2)-mkdir -创建目录
    hadoop fs -mkdir [-p]
    创建目录,-p表示会创建各级父目录
    3)-put --上传
    使用方法:hadoop fs -put [-f] [-p]
    将单个src或者多个srcs从本地文件系统复制到目标文件系统
    -f :覆盖目的地
    -p :保留访问和修改时间

4) -get --下载
hadoop fs -get [-ignorecrc] [-crc] [-p] [-f]
-ignorecrc:跳过对下载文件的CRC检查
-crc :为下载的文件写crc校验和
功能:将文件复制到本地文件系统

5) -appendToFile --追加
hadoop fs -appendToFile
追加一个文件到已经存在的文件末尾
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3、HDFS基本原理

3.1 NameNode 概述

是HDFS的核心
也称为master
仅存储元数据(文件系统中所有文件的目录树,并跟踪整个集群中的文件)
namenode不存储实际数据或数据集。数据本身实际存储在DataNodes中。
namenode知道HDFS中任何给定文件的快列表及其位置
namenode并不持久化存储每个文件中各个块所在的Datanode的位置信息
Namenode所在机器通常会配置大量内存

3.2 Datanode概述

datanode负责将实际数据存储在HDFS中
Datanode也称为slave
NameNode和Datanode会不断通信

Datanode发布时,它将自己发布到namenode上并汇报自己负责持有的块列表

当某个 DataNode 关闭时,它不会影响数据或群集的可用性。NameNode 将安排由其他 DataNode 管理的块进行副本复制。

DataNode 所在机器通常配置有大量的硬盘空间。因为实际数据存储在DataNode 中。

DataNode 会定期(dfs.heartbeat.interval 配置项配置,默认是 3 秒)向NameNode 发送心跳,如果 NameNode 长时间没有接受到 DataNode 发送的心跳, NameNode 就会认为该 DataNode 失效。

block 汇报时间间隔取参数 dfs.blockreport.intervalMsec,参数未配置的话默认为 6 小时.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/784219.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

webpack require.context

require.context((directory: String),(includeSubdirs: Boolean) /* 可选的&#xff0c;默认值是 true */,(filter: RegExp) /* 可选的&#xff0c;默认值是 /^\.\/.*$/&#xff0c;所有文件 */,(mode: String) /* 可选的&#xff0c; sync | eager | weak | lazy | lazy-onc…

【C#】使用this进行扩展方法以及静态类和静态成员

2023年&#xff0c;第30周&#xff0c;第2篇文章。给自己一个目标&#xff0c;然后坚持总会有收货&#xff0c;不信你试试&#xff01; 本篇文章主要简单讲讲&#xff0c;使用this进行扩展方法以及静态类和静态成员 目录 一、this扩展1、扩展条件2、举例代码 二、静态知识点1、…

【Linux网络】 网络套接字(三)socket编程_TCP网络程序

目录 TCP网络程序服务端创建套接字并绑定服务端监听服务端获取连接服务器处理请求 客户端客户端创建套接字客户端连接服务器客户端发起请求测试 服务器存在的问题多进程版的TCP网络程序多线程版的TCP网络程序线程池版的TCP网络程序 TCP网络程序总结图 TCP网络程序 服务端 创建…

一站式财务管家工具:Zoho Books审批功能详细介绍

Zoho Books作为一款功能强大的财务管理软件&#xff0c;提供了多种实用的功能&#xff0c;其中审批流程是非常重要的一个。那么&#xff0c;Zoho Books的审批功能是如何实现的呢&#xff1f;本文将为您详细介绍。 1. 什么是审批功能 审批是企业内部重要业务流程中的前置环节&a…

华为数通HCIP-OSPF基础

路由协议 作用&#xff1a;用于路由设备学习非直连路由&#xff1b; 动态路由协议&#xff1a;使路由设备自动学习到非直连路由&#xff1b; 分类&#xff1a; 按照算法分类&#xff1a; 1、距离矢量路由协议&#xff1b;&#xff08;RIP、BGP&#xff09; 只交互路由信息…

基于FPGA实现OSD功能

简介 基于FPGA平台实现简单的OSD的功能,对于FPGA实现OSD只能实行简单的画框和文字叠加,如果实现复杂的车道线画框,则没法实现(起码我个人感觉,这个功能没有思路执行)。 FPGA实现OSD功能需要7系列平台,以及VDMA、OSD等Xilinx公司的IP使用(本功能工程采用Vivado2017.4平台…

windows关闭某个进程

一、使用命令 &#xff08;1&#xff09;winR键打开命令提示符&#xff0c;输入cmd &#xff08;2&#xff09;输入netstat -ano &#xff08;3&#xff09;输入taskkill /f /pid 进程ID。例如&#xff1a;taskkill /f /pid 19216 如果成功终止的话&#xff0c;会出现成功&…

Vue+Nodejs 使用WebSocket创建一个简易聊天室

文章目录 一、页面效果二、架构流程三、技术细节1.客户端2. 服务端 一、页面效果 二、架构流程 使用vue编写前端页面&#xff0c;nodejs处理服务端消息&#xff0c;WebSocket进行实时通信 三、技术细节 1.客户端 <template><div><form onsubmit"return…

Ubuntu录屏软件Kazam

1. 安装 1.1. 桌面右键“打开终端” 1.2. 安装kazam这款软件。 sudo apt-get install kazam 2. 使用 2.1. 安装后打开&#xff0c;我们看看这款软件界面还是很友好很简洁的。 2.2. 除了录像我们还可以截图&#xff0c;也可以选择全屏、窗口、区域的方式录制。 2.3. 如果要录…

Hybird app 热更新工作原理

大家对于原生应用和混合应用已经非常熟悉了&#xff0c;这里就不再进行详细的介绍&#xff0c;用通俗易懂的话解释下他们的一些特点。 1、原生应用 在 Android、iOS 等移动平台上利用提供的开发语言、开发类库、开发工具进行 App 软件开发。比如 Android 是用 Java、Eclipse、…

改进的北方苍鹰算法优化VMD参数,最小包络熵、样本熵、信息熵、排列熵(适应度函数可自行选择,一键修改)包含MATLAB源代码...

今天给大家带来一期由改进的北方苍鹰算法(SCNGO)优化VMD的两个参数。 同样以西储大学数据集为例&#xff0c;选用105.mat中的X105_BA_time.mat数据中1000个数据点。没有数据的看这篇文章。西储大学轴承诊断数据处理&#xff0c;matlab免费代码获取 选取四种适应度函数进行优化&…

【开发问题】flink-cdc不用数据库之间的,不同类型的转化

不同的数据库之期间数据类型转化 问题来源与原因解决过程&#xff0c;思路错误&#xff0c;导致各种错误错误思路是什么 正确解决方式&#xff0c;找官网对应的链接器&#xff0c;数据转化 问题来源与原因 我一开始是flink-cdc&#xff0c;oracle2Mysql&#xff0c;sql 我一开…

Hygon海光电脑:window无法对计算机进行,windows无法对计算机进行启动到下一个安装阶段怎么办...

海光CPU电脑安装第2个系统&#xff0c;Windows10LTSC&#xff0c;U盘引导顺利&#xff0c;安装顺利&#xff0c;在最后一步时出错&#xff1a;。 出错提示 Windows10安装过程中提示&#xff1a; windows无法对计算机进行启动到下一个安装阶段的准备。要安装Windows&#xff0…

时空复杂度详解

&#x1f493;博主个人主页:不是笨小孩&#x1f440; ⏩专栏分类:数据结构与算法&#x1f440; &#x1f69a;代码仓库:笨小孩的代码库&#x1f440; ⏩社区&#xff1a;不是笨小孩&#x1f440; &#x1f339;欢迎大家三连关注&#xff0c;一起学习&#xff0c;一起进步&#…

【CAS6.6源码解析】调试Rest API接口

CAS的web层默认是基于webflow实现的&#xff0c;ui和后端是耦合在一起的&#xff0c;做前后端分离调用和调试的时候不太方便。但是好在CAS已经添加了支持Rest API的support模块&#xff0c;添加相应模块即可。 文章目录 添加依赖并重新build效果 添加依赖并重新build 具体添加…

第54步 深度学习图像识别:MLP-Mixer建模(Pytorch)

基于WIN10的64位系统演示 一、写在前面 &#xff08;1&#xff09;MLP-Mixer MLP-Mixer&#xff08;Multilayer Perceptron Mixer&#xff09;是Google在2021年提出的一种新型的视觉模型结构。它的主要特点是完全使用多层感知机&#xff08;MLP&#xff09;来处理图像&#…

seaborn笔记 pairplot PairGrid

1 数据集 鸢尾花数据集 # Visual Python: Data Analysis > File vp_df pd.read_csv(https://raw.githubusercontent.com/visualpython/visualpython/main/visualpython/data/sample_csv/iris.csv) vp_df 1.1 基本pairplot import seaborn as snsg sns.pairplot(vp_df) …

前端随笔:HTML/CSS/JavaScript和Vue

前端随笔 1&#xff1a;HTML、JavaScript和Vue 最近因为工作需要&#xff0c;需要接触一些前端的东西。之前虽然大体上了解过HTML、CSS和JavaScript&#xff0c;也知道HTML定义了内容、CSS定义了样式、JavaScript定义了行为&#xff0c;但是却没有详细的学习过前端三件套的细节…

2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析

2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A&#xff1a;智能手机用户监测数据分析 问题二分类与回归问题Python代码分析 相关链接 【2023 年第二届钉钉杯大学生大数据挑战赛初赛】 初赛 A&#xff1a;智能手机用户监测数据分析 问题一Python代码分析 【2023 年第二届…

RocketMQ 5.0 无状态实时性消费详解

作者&#xff1a;绍舒 背景 RocketMQ 5.0 版本引入了 Proxy 模块、无状态 pop 消费机制和 gRPC 协议等创新功能&#xff0c;同时还推出了一种全新的客户端类型&#xff1a;SimpleConsumer。 SimpleConsumer 客户端采用了无状态的 pop 机制&#xff0c;彻底解决了在客户端发布…