大数据入门（十三）- HDFS的Shell操作

news2025/4/17 1:14:22

零.HDFS的Shell操作
在这里插入图片描述
一.进程启停管理
1.一键启停脚本
Hadoop HDFS组件内置了HDFS集群的一键启停脚本。
1）$HADOOP_HOME/sbin/start-dfs.sh，一键启动HDFS集群
执行原理：
（1）在执行此脚本的机器上，启动SecondaryNameNode
（2）读取core-site.xml内容（fs.defaultFS项），确认NameNode所在机器，启动NameNode
（3）读取workers内容，确认DataNode所在机器，启动全部DataNode
2）$HADOOP_HOME/sbin/stop-dfs.sh，一键关闭HDFS集群

执行原理：
（1）在执行此脚本的机器上，关闭SecondaryNameNode
（2）读取core-site.xml内容（fs.defaultFS项），确认NameNode所在机器，关闭NameNode
（3）读取workers内容，确认DataNode所在机器，关闭全部NameNode

2.单进程启停
除了一键启停外，也可以单独控制进程的启停。

$HADOOP_HOME/sbin/hadoop-daemon.sh，此脚本可以单独控制所在机器的进程的启停
用法：hadoop-daemon.sh (start|status|stop) (namenode|secondarynamenode|datanode)

例如：hadoop-daemon.sh stop datanode
在这里插入图片描述
3.$HADOOP_HOME/bin/hdfs，此程序也可以用以单独控制所在机器的进程的启停
用法：hdfs --daemon (start|status|stop) (namenode|secondarynamenode|datanode)

例如：hdfs --daemon stop secondarynamenode
在这里插入图片描述

这里同理在node2和node3上尝试

4.HDFS文件系统基本信息
HDFS作为分布式存储的文件系统，有其对数据的路径表达方式。
1）HDFS同Linux系统一样，均是以/作为根目录的组织形式

关于HDFS文件系统的操作命令，Hadoop提供了2套命令体系
1）hadoop命令（老版本用法），用法：hadoop fs [generic options]
2）hdfs命令（新版本用法），用法：hdfs dfs [generic options]

5.创建文件夹

hadoop fs -mkdir [-p] <path> ...
hdfs dfs -mkdir [-p] <path> ...
	path 为待创建的目录
	-p选项的行为与Linux mkdir -p一致，它会沿着路径创建父目录。

#创建文件夹旧写法
hadoop fs -mkdir -p /itcast/bigdata  

#创建文件夹新写法
hdfs fs -mkdir -p /itheima/hadoop

在这里插入图片描述
6.查看指定目录下内容
1）hadoop fs -ls [-h] [-R] [ …]
2）hdfs dfs -ls [-h] [-R] [ …]
path 指定目录路径
-h 人性化显示文件size
-R 递归查看指定目录及其子目录

在这里插入图片描述

7.上传文件到HDFS指定目录下
1）hadoop fs -put [-f] [-p] …
2）hdfs dfs -put [-f] [-p] …
-f 覆盖目标文件（已存在下）
-p 保留访问和修改时间，所有权和权限。
localsrc 本地文件系统（客户端所在机器）
dst 目标文件系统（HDFS）

hadoop fs -put words.txt /itcast

hdfs dfs -put file:///etc/profile hdfs://node1:8020/itcast

在这里插入图片描述

8.查看HDFS文件内容
1）hadoop fs -cat …
2）hdfs dfs -cat …
读取指定文件全部内容，显示在标准输出控制台。

hadoop fs -cat /itcast/words.txt
hdfs dfs -cat /itcast/profile

在这里插入图片描述
读取大文件可以使用管道符配合more，翻页查看；
1）hadoop fs -cat | more
2）hdfs dfs -cat | more
使用该命令，若要翻页，只需要按一下空格即可实现翻页；

9.下载HDFS文件
1）hadoop fs -get [-f] [-p] …
2）hdfs dfs -get [-f] [-p] …
下载文件到本地文件系统指定目录，localdst必须是目录
-f 覆盖目标文件（已存在下）
-p 保留访问和修改时间，所有权和权限。
在这里插入图片描述

10.拷贝HDFS文件
1）hadoop fs -cp [-f] …
2）hdfs dfs -cp [-f] …
-f 覆盖目标文件（已存在下）

11.追加数据到HDFS文件中
1）hadoop fs -appendToFile …
2）hdfs dfs -appendToFile …
将所有给定本地文件的内容追加到给定dst文件。
dst如果文件不存在，将创建该文件。
如果为-，则输入为从标准输入中读取。
在这里插入图片描述

12.HDFS数据移动操作
1）hadoop fs -mv …
2）hdfs dfs -mv …
移动文件到指定文件夹下
可以使用该命令移动数据，重命名文件的名称

在这里插入图片描述

13.HDFS数据删除操作
1）hadoop fs -rm -r [-skipTrash] URI [URI …]
2）hdfs dfs -rm -r [-skipTrash] URI [URI …]
删除指定路径的文件或文件夹
-skipTrash 跳过回收站，直接删除

回收站功能默认关闭，如果要开启需要在core-site.xml内配置：

<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
 
<property>
<name>fs.trash.checkpoint.interval</name>
<value>120</value>
</property>

无需重启集群，在哪个机器配置的，在哪个机器执行命令就生效。
回收站默认位置在：/user/用户名(hadoop)/.Trash

vim /export/server/hadoop/etc/hadoop/core-site.xml

在这里插入图片描述

14.HDFS shell其它命令
1）命令官方指导文档
https://hadoop.apache.org/docs/r3.3.4/hadoop-project-dist/hadoop-common/FileSystemShell.html
2）提示
常见的操作自己最好能够记住，其他操作可以根据需要查询文档使用。
命令属于多用多会，孰能生巧，不用就忘。

在这里插入图片描述

15.HDFS WEB浏览
除了使用命令操作HDFS文件系统外，在HDFS的WEB UI上也可以查看HDFS文件系统的内容。

现在在命令行上传一个文件

hadoop fs -put test.txt /

hadoop fs -ls /

在这里插入图片描述

使用WEB浏览操作文件系统，一般会遇到权限问题

这是因为WEB浏览器中是以匿名用户（dr.who）登陆的，其只有只读权限，多数操作是做不了的。
如果需要以特权用户在浏览器中进行操作，需要配置如下内容到core-site.xml并重启集群

  <property>
    <name>hadoop.http.staticuser.user</name>
    <value>hadoop</value>
  </property>

但是，不推荐这样做
1）HDFS WEBUI，只读权限挺好的，简单浏览即可
2）如果给与高权限，会有很大的安全问题，造成数据泄露或丢失

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/579911.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

大数据入门（十三）- HDFS的Shell操作

相关文章

动态规划2:题目

Dubbo入门案例

如何在本地安装多个nodejs版本，方便前端开发

js常用事件

蓝桥杯嵌入式STM32G431RBT6竞赛指南与模板——最后的绝唱

RabbitMQ学习-发布确认高级

Redis的SDS+IntSet+Dict

算法12.从暴力递归到动态规划5

stc15w404as使用keil做库，提供头文件，供调用

电脑msvcp120.dll缺失怎么办？由于找不到msvcp120.dll的解决方案

如何在华为OD机试中获得满分？Java实现【公共子串计算】一文详解！

＜学习笔记＞从零开始自学Python-之-web应用框架Django（十四）上线部署（阿里云+Nginx+uwsgi+MySQL）

【P38】JMeter 随机控制器（Random Controller）

如何在华为OD机试中获得满分？Java实现【24点游戏算法】一文详解！

python自动演奏Freepiano【双手合奏】

分布式网络通信框架（一）——集群和分布式

计算机网络五传输层

《数据库应用系统实践》------ 包裹信息管理系统

9. Linux下实现简单的UDP请求

阿里云服务器配置CPU内存、带宽和系统盘选择方法