Hadoop学习笔记——HDFS

news2026/4/1 14:13:13

文章目录

一、HDFS概述
- 1.1、HDFS产出背景及定义
- - 1.1.1 HDFS产生背景
  - 1.1.2 HDFS定义
- 1.2、HDFS优缺点
- - 1.2.1、HDFS优点
  - 1.2.2、HDFS缺点
- 1.3、HDFS组成架构
- 1.4、HDFS文件块大小
- 1.5、限制
二、HDFS的Shell操作
- 2.1、基本语法
- 2.2、命令大全
- 2.3、常用命令实操
- - 2.3.1 准备工作
  - 2.3.2 上传

一、HDFS概述

1.1、HDFS产出背景及定义

1.1.1 HDFS产生背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

1.1.2 HDFS定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。
HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

1.2、HDFS优缺点

1.2.1、HDFS优点

高容错性
- 数据自动保存多个副本。它通过增加副本的形式，提高容错性。
- 某一个副本丢失以后，它可以自动回复。
适合处理大数据
- 数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；
- 文件规模：能够处理百万规模以上的文件数量，数量相当之大。
可构建在廉价机器上，通过副本机制，提高可靠性。

1.2.2、HDFS缺点

不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。
无法高效的对大量小文件进行存储。
- 存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块级信息。这样是不可取的，因为NameNode的内存总是有限的；
- 小文件存储的寻址时间会超过读取时间，他违反了HDFS的设计目标。
不支持并发写入、文件随机修改。
- 一个文件智能有一个写，不允许多个线程同时写；
- 仅支持数据appen（追加），不支持文件的随机修改。

1.3、HDFS组成架构

NameNode（nn）：就是Master，它是一个主管、管理者。
- 管理HDFS的名称空间；
- 配置副本策略；
- 管理数据块（Block）映射信息；
- 处理客户端读写请求；
DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。
- 存储实际的数据块；
- 执行数据块的读/写操作。
Client：就是客户端。
- 文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传；
- 与NameNode交互，获取文件的位置信息；
- 与DataNode交互，读取或者写入数据；
- Client提供一些命令来管理HDFS，比如NameNode格式化；
- Client可以通过一些命令来访问HDFS，比如对HDFS增删查改操作；
SecondaryNameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。
- 辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode；
- 在紧急情况下，可辅助回复NameNode。

1.4、HDFS文件块大小

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小在Hadoop2.x/3.x版本中是128M，1.x中是64M。
文件快大小

1.5、限制

DHFS的块设置太小，会增加寻址时间，程序已知在找块的开始位置；
如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。

总结：HDFS块的大小设置主要取决于磁盘传输速率。

二、HDFS的Shell操作

2.1、基本语法

hadoop fs 具体命令 OR hdfs dfs 具体命令
两个是完全相同的。

2.2、命令大全

输入 hadoop fs 就能看见hdfs的命令

[sherry@hadoop102 bin]$ hadoop fs
Usage: hadoop fs [generic options]
        [-appendToFile <localsrc> ... <dst>]
        [-cat [-ignoreCrc] <src> ...]
        [-checksum <src> ...]
        [-chgrp [-R] GROUP PATH...]
        [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
        [-chown [-R] [OWNER][:[GROUP]] PATH...]
        [-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
        [-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
        [-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
        [-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
        [-createSnapshot <snapshotDir> [<snapshotName>]]
        [-deleteSnapshot <snapshotDir> <snapshotName>]
        [-df [-h] [<path> ...]]
        [-du [-s] [-h] [-v] [-x] <path> ...]
        [-expunge]
        [-find <path> ... <expression> ...]
        [-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
        [-getfacl [-R] <path>]
        [-getfattr [-R] {-n name | -d} [-e en] <path>]
        [-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
        [-head <file>]
        [-help [cmd ...]]
        [-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]]
        [-mkdir [-p] <path> ...]
        [-moveFromLocal <localsrc> ... <dst>]
        [-moveToLocal <src> <localdst>]
        [-mv <src> ... <dst>]
        [-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
        [-renameSnapshot <snapshotDir> <oldName> <newName>]
        [-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
        [-rmdir [--ignore-fail-on-non-empty] <dir> ...]
        [-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
        [-setfattr {-n name [-v value] | -x name} <path>]
        [-setrep [-R] [-w] <rep> <path> ...]
        [-stat [format] <path> ...]
        [-tail [-f] [-s <sleep interval>] <file>]
        [-test -[defsz] <path>]
        [-text [-ignoreCrc] <src> ...]
        [-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...]
        [-touchz <path> ...]
        [-truncate [-w] <length> <path> ...]
        [-usage [cmd ...]]

Generic options supported are:
-conf <configuration file>        specify an application configuration file
-D <property=value>               define a value for a given property
-fs <file:///|hdfs://namenode:port> specify default filesystem URL to use, overrides 'fs.defaultFS' property from configurations.
-jt <local|resourcemanager:port>  specify a ResourceManager
-files <file1,...>                specify a comma-separated list of files to be copied to the map reduce cluster
-libjars <jar1,...>               specify a comma-separated list of jar files to be included in the classpath
-archives <archive1,...>          specify a comma-separated list of archives to be unarchived on the compute machines

The general command line syntax is:
command [genericOptions] [commandOptions]

2.3、常用命令实操

2.3.1 准备工作

启动Hadoop集群（方便后续的测试）

sbin/start-dfs.sh

-help：输出这个命令参数

hadoop fs -help rm

创建/wly文件加

hadoop fs -mkdir /wly

2.3.2 上传

-moveFromLocal：从本地剪切粘贴到HDFS

vim shuguo.txt
# 输入：
wly
hadoop fs  -moveFromLocal  ./wly.txt  /wly

浏览器进入hadoop102:9870，进入Browse Directory
能看见已经上传到了/wly文件目录
然后进入Linux查看是否是剪切

确认剪切

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/49365.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Hadoop学习笔记——HDFS

文章目录

一、HDFS概述

1.1、HDFS产出背景及定义

1.1.1 HDFS产生背景

1.1.2 HDFS定义

1.2、HDFS优缺点

1.2.1、HDFS优点

1.2.2、HDFS缺点

1.3、HDFS组成架构

1.4、HDFS文件块大小

1.5、限制

二、HDFS的Shell操作

2.1、基本语法

2.2、命令大全

2.3、常用命令实操

2.3.1 准备工作

2.3.2 上传

相关文章

快速复现实现 facenet-retinaface-pytorch 人脸识别 windows上使用cpu实现

10 Deployment:让应用永不宕机

JAVA学习-java基础讲义02

使用自己的数据集测试Unbiased Mean Teacher for Cross-domain Object Detection

低代码助力生产管理：车间管理系统

[Power Query] 快速计算列

python对异常的处理

串口通信及串口转蓝牙相关知识

docker-compose安装部署gitlab中文版

世界杯winner只属于你——MESSI

矩阵快速幂笔记加理解

VMware虚拟网络编辑器配置

关于Eslint语法检查

猿如意|IntelliJ IDEA Community下载安装以及基础开发设置和快捷键设置的详细教程

【愚公系列】华为云系列之DevCloud+ECS+MySQL搭建超级冷笑话网站【开发者专属集市】

[附源码]Python计算机毕业设计Django的校园报修平台

大于10M图片如何查看？

计算机病毒

【NDVI：注意力机制：遥感图像】

Matlab最小二乘平面拟合(SVD方法)—点云处理及可视化第3期