大数据-HDFS的Shell操作

news2025/1/20 1:09:10

一、了解HDFS常用Shell命令

1、三种Shell命令方式

命令适用场合
hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
hadoop dfs只能适用于HDFS文件系统
hdfs dfshdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统

2、常用HDFS的shell命令

序号命令命令
1hdfs dfs -ls 显示 指定的文件或目录的详细信息。
2hdfs dfs -ls -R ls命令的递归版本。
3hdfs dfs -cat 指定文件的内容输出到标准输出。
4hdfs dfs chgrp [-R] group 指定文件所属的组改为group,使用-R对 指定目录内的文件进行递归操作。这个命令只适合于超级用户。
5hdfs dfs -chown [-R] [owner][:[group]] 改变 指定文件或目录的拥有者,-R用于递归改变目录内的文件或目录的拥有者。 这个命令只适合于超级用户。
6hdfs dfs -chmod [-R] 指定文件或目录的权限更改为。这个命令只适合于超级用户和文件或目录的拥有者。
7hdfs dfs -tail [-f] 指定文件最后1KB的内容输出到标准输出上,-f选项用于持续检测新添加到文件中的内容。
8hdfs dfs -stat [format] 以指定格式返回 指定文件的相关信息。当不指定format的时候,返回文件 的创建日期。
9hdfs dfs -touchz 创建一个 指定的空文件。
10hdfs dfs -mkdir [-p] 创建指定的一个或多个目录,-p选项用于递归创建子目录。
11hdfs dfs -copyFromLocal 将本地源文件复制到路径指定的文件或目录中。
12hadoo fs -copyToLocal [-ignorcrc] [-crc] 将目标文件复制到本地文件或目录中,可用-ignorecrc选项复制CRC校验失败的文件,使用-crc选项复制文件以及CRC信息。
13hdfs dfs -cp 将文件从源路径复制到目标路径。
14hdfs dfs -du 显示 指定文件或目录内所有文件的大小。
15hdfs dfs -expunge清空回收站。
16hdfs dfs -get [-ignorcrc] [-crc] 复制指定的文件到本地文件系统指定的文件或目录内,可用-ignorecrc选项复制CRC校验失败的文件,使用-crc选项复制文件以及CRC信息。
17hdfs dfs -getmerge [-nl] 对指定目录内所有文件进行合并,写入指定的本地文件。-nl是可选的,用于指定在每个文件结尾添加一个换行符。
18hdfs dfs -put 从本地文件系统中复制指定的单个或多个源文件到指定的目标文件系统中。
19hdfs dfs moveFromLocal 与put命令功能相同,但是文件上传结束后会从本地文件系统中删除指定的文件。
20hdfs dfs -mv 将文件或目录从源路径移到目标路径。
21hdfs dfs -rm 删除 指定的文件或目录(非空目录)。
22hdfs dfs -rm -r 删除 指定的目录及其下的所有文件,-r选项表示递归删除子目录。
23hdfs dfs -setrep [-R] 改变 指定文件的副本数,-R选项用于递归改变目录下所有文件的副本数。
24hdfs dfs -test [-ezd] 检查 指定文件或目录的相关信息。-e (exist)检查文件是否存在,如果存在则返回0,否则返回1,-z (zero)检查文件是否是零字节,如果是则返回0,否则返回1,-d(directory)检查路径是否是目录,如果是则返回0,否则返回1
25hdfs dfs -text 指定的文件输出为文本格式,文件格式允许是zip和TextRecordInputStream。

二、HDFS常用命令操作实战

启动Hadoop集群
在这里插入图片描述

1、创建目录

(1)创建单层目录

执行命令:hdfs dfs -mkdir /ied
在这里插入图片描述

利用Hadoop WebUI查看创建的目录
在这里插入图片描述

(2)创建多层目录

执行命令:hdfs dfs -mkdir /luzhou/lzy,会报错,因为/luzhou目录不存在
在这里插入图片描述
执行命令:hdfs dfs -mkdir -p /luzhou/lzy
在这里插入图片描述

利用Hadoop WebUI查看创建的多层目录
在这里插入图片描述

2、查看目录

执行命令:hdfs dfs -ls /,查看根目录
在这里插入图片描述

执行命令:hdfs dfs -ls /luzhou
在这里插入图片描述

执行命令:hdfs dfs -ls -R /,递归查看/目录(采用递归算法遍历树结构)在这里插入图片描述

3、上传本地文件到HDFS

创建test.txt文件,执行命令:echo “hello hadoop world” > test.txt (>:重定向命令)在这里插入图片描述

查看test.txt文件内容
在这里插入图片描述

上传test.txt文件到HDFS的/ied目录,执行命令:hdfs dfs -put test.txt /ied在这里插入图片描述

查看是否上传成功
在这里插入图片描述

利用Hadoop WebUI界面查看
在这里插入图片描述

4、查看文件内容

执行命令:hdfs dfs -cat /ied/test.txt
在这里插入图片描述

5、下载HDFS文件到本地

先删除本地的test.txt文件
在这里插入图片描述

下载HDFS文件系统的/ied/test.txt到本地当前目录不改名,执行命令:hdfs dfs -get /ied/test.txt在这里插入图片描述

检查是否下载成功
在这里插入图片描述

可以将HDFS上的文件下载到本地指定位置,并且可以更改文件名
执行命令:hdfs dfs -get /ied/test.txt /home/exam.txt
在这里插入图片描述

检查是否下载成功
在这里插入图片描述

6、删除HDFS文件

执行命令:hdfs dfs -rm /ied/test.txt
在这里插入图片描述

检查是否删除成功
在这里插入图片描述

使用通配符,可以删除满足一定特征的文件
在这里插入图片描述

7、删除HDFS目录

执行命令:hdfs dfs -rmdir /luzhou
在这里插入图片描述

提示-rmdir命令删除不了非空目录。
要递归删除才能删除非空目录:hdfs dfs -rm -r /luzhou(-r:recursive)在这里插入图片描述

课堂练习:将/BigData变成一个空目录(删除里面的空子目录Class1和Class2以及文件test.txt)
方法一
在这里插入图片描述

方法二
恢复/BigData里的目录与文件
在这里插入图片描述

采用通配符与递归方式删除/BigData里的全部东西
在这里插入图片描述

删除空目录/BigData
在这里插入图片描述

8、移动目录或文件

-mv命令兼有移动与改名的双重功能
将/ied目录更名为/ied01,执行命令:hdfs dfs -mv /ied /ied01
在这里插入图片描述

利用Hadoop WebUI查看是否更名成功
在这里插入图片描述

将/ied01/exam.txt更名为/ied/test.txt,执行命令:hdfs dfs -mv /ied01/exam.txt /ied01/test.txt在这里插入图片描述

查看改名后的test.txt文件内容
在这里插入图片描述

创建/ied02目录,将ied01/test.txt移动到/ied02目录,并且改名为exam.txt在这里插入图片描述

在Hadoop WebUI界面查看
在这里插入图片描述
在这里插入图片描述

9、文件合并下载

创建sport.txt、music.txt和book.txt并上传
在这里插入图片描述

在Hadoop WebUI界面查看上传的三个文件,注意文件名是按字典排序了的在这里插入图片描述

合并/ied01目录的文件下载到本地当前目录的merger.txt,执行命令:hdfs dfs -getmerge /ied01/* merger.txt在这里插入图片描述

查看本地的merger.txt,看是不是三个文件合并后的内容
在这里插入图片描述

10、检查文件信息

fsck: file system check —— 文件系统检查
检查/ied01/book.txt文件,执行命令:hdfs fsck /ied01/book.txt -files -blocks -locations -racks在这里插入图片描述

我们知道HDFS里一个文件块是128MB,上传一个大于128MB的文件,hadoop-3.3.4.tar.gz大约663.24MB
128 M B × 5 = 640 M B < 663.24 M B < 768 M B = 128 M B × 6 128 MB\times 5 = 640MB \lt 663.24MB \lt 768MB = 128 MB\times 6128MB×5=640MB<663.24MB<768MB=128MB×6 ,HDFS会将hadoop-3.3.4.tar.gz分割成6块。在这里插入图片描述

执行命令:hdfs dfs -put /opt/hadoop-3.3.4.tar.gz /ied01,将hadoop压缩包上传到HDFS的/ied01目录在这里插入图片描述

查看HDFS上hadoop-3.3.4.tar.gz文件信息,执行命令:hdfs fsck /ied01/hadoop-3.3.4.tar.gz -files -locations -racks
在这里插入图片描述

利用Hadoop WebUI来查看文件块信息更加方便,总共有6个文件块:Block0、Block1、Block2、Block3、Block4、Block5在这里插入图片描述

第1个文件块信息
在这里插入图片描述

第6个文件块信息
在这里插入图片描述

11、创建时间戳文件

在/ied01目录里创建一个文件sunshine.txt,执行命令:hdfs dfs -touchz /ied01/sunshine.txt
在这里插入图片描述

创建的是一个空文件,大小为0字节
在这里插入图片描述

这种空文件,一般用作标识文件,也可叫做时间戳文件,再次在/ied01目录下创建sunshine.txt同名文件
在这里插入图片描述

说明:如果touchz命令的路径指定的文件不存在,那就创建一个空文件;如果指定的文件存在,那就改变该文件的时间戳

12、复制文件或目录

cp: copy - 拷贝或复制

(1)同名复制文件

将/ied01/music.txt复制到/ied02里,执行命令:hdfs dfs -cp /ied01/music.txt /ied02在这里插入图片描述

查看拷贝生成的文件
在这里插入图片描述

(2)改名复制文件

将/ied01/book.txt复制到/ied02目录,改名为read.txt,执行命令:hdfs dfs -cp /ied01/book.txt /ied02/read.txt在这里插入图片描述

查看拷贝后的文件内容
在这里插入图片描述

源文件依然存在
在这里插入图片描述

(3)复制目录

将/ied01目录复制到/ied03目录,执行命令:hdfs dfs -cp /ied01 /ied03
在这里插入图片描述

查看拷贝后的/ied03目录,其内容跟/ied01完全相同
在这里插入图片描述

13、查看文件大小

du: disk usage
执行命令:hdfs dfs -du /ied01/book.txt
在这里插入图片描述

14、上传文件

-copyFromLocal类似于-put,执行命令:hdfs dfs -copyFromLocal merger.txt /ied02
在这里插入图片描述

查看是否上传成功
在这里插入图片描述

15、下载文件

-copyToLocal类似于-get,执行命令:hdfs dfs -copyToLocal /ied01/sunshine.txt sunlight.txt
在这里插入图片描述

查看是否下载成功
在这里插入图片描述

16、查看某目录下文件个数

执行命令:hdfs dfs -count /ied01
在这里插入图片描述

17、检查hadoop本地库

-执行命令:hdfs checknative -a
在这里插入图片描述

查看hadoop本地库文件
在这里插入图片描述

18、进入和退出安全模式

(1)进入安全模式

执行命令:hdfs dfsadmin -safemode enter, 注意:进入安全模式之后,只能读不能写
在这里插入图片描述

此时,如果要创建目录,就会报错
在这里插入图片描述

(2)退出安全模式

执行命令:hdfs dfsadmin -safemode leave
在这里插入图片描述

此时,创建目录/ied04就没有任何问题
在这里插入图片描述

三、案例- Shell定时采集数据到HDFS

创建日志文件存放的目录/export/data/logs/log,执行命令:mkdir -p /export/data/logs/log
在这里插入图片描述

创建待上传文件存放的目录/export/data/logs/toupload,执行命令:mkdir -p /export/data/logs/toupload
在这里插入图片描述

查看创建的目录树结构
在这里插入图片描述

1、编程思路与步骤

(1)配置环境变量

首先在/export/data/logs目录下(如果目录不存在,则需要提前创建)使用vim命令创建upload2HDFS.sh脚本文件,在编写Shell脚本时,需要设置Java环境变量和Hadoop环境变量,这样做是用来提高系统的可靠性,保障运行程序的机器在没有配置环境变量的情况下依然能够运行脚本。

(2)准备日志存放目录和待上传文件

为了让开发者便于控制上传文件的流程,可以在脚本中设置一个日志存放目录和待上传文件目录,若上传过程中发生错误只需要查看该目录就能知道文件的上传进度。

(3)设置日志文件上传的路径

设置上传的HDFS目标路径,命名格式以时间结尾,并且输出打印信息。

(4)实现文件上传

上传文件的过程就是遍历文件目录的过程,将文件首先移动到待上传目录,再从待上传目录中上传到HDFS中。若是在每天12点凌晨执行一次,我们可以使用Linux Crontab表达式执行定时任务。

2、编写脚本,实现功能

进入/export/data/logs目录
在这里插入图片描述

执行命令:vim upload2HDFS.sh在这里插入图片描述

#!/bin/bash

JAVA_HOME=/usr/local/jdk1.8.0_231
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export HADOOP_HOME=/usr/local/hadoop-3.3.4/
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
#日志文件存放的目录,需手动创建
log_src_dir=/export/data/logs/log/
#待上传文件存放的目录,需手动创建
log_toupload_dir=/export/data/logs/toupload/
#设置日期
date1=`date +%Y_%m_%d`
#日志文件上传到hdfs的根路径
hdfs_root_dir=/data/clickLog/$date1/
#打印环境变量信息
echo "envs: hadoop_home: $HADOOP_HOME"
#读取日志文件的目录,判断是否有需要上传的文件
echo "log_src_dir: $log_src_dir"
ls $log_src_dir | while read fileName
do
        if [[ "$fileName" == access.log.* ]]; then
                date=`date +%Y_%m_%d_%H_%M_%S`
                #将文件移动到待上传目录并重命名
                echo "moving $log_src_dir$fileName to $log_toupload_dir"lzy_click_log_$fileName"$date"
                mv $log_src_dir$fileName $log_toupload_dir"lzy_click_log_$fileName"$date
                #将待上传的文件path写入一个列表文件willDoing,
                echo $log_toupload_dir"lzy_click_log_$fileName"$date >> $log_toupload_dir"willDoing."$date
        fi
done
#找到列表文件willDoing
ls $log_toupload_dir | grep will | grep -v "_COPY_" | grep -v "_DONE_" | while read line
do
        #打印信息
        echo "toupload is in file: $line"
        #将待上传文件列表willDoing改名为willDoing_COPY_
        mv $log_toupload_dir$line $log_toupload_dir$line"_COPY_"
        #读列表文件willDoing_COPY_的内容(一个一个的待上传文件名)
        #此处的line 就是列表中的一个待上传文件的path
        cat $log_toupload_dir$line"_COPY_" | while read line
        do
                 #打印信息
                echo "puting...$line to hdfs path...$hdfs_root_dir"
                hdfs dfs -mkdir -p $hdfs_root_dir
                hdfs dfs -put $line $hdfs_root_dir
        done
        mv $log_toupload_dir$line"_COPY_"  $log_toupload_dir$line"_DONE_"
done

编辑权限,让该脚本可执行,执行命令:chmod u+x upload2HDFS.sh
在这里插入图片描述

查看/export目录树结构
在这里插入图片描述

3、运行脚本,查看结果

创建四个日志文件(必须以access.log.打头)
在这里插入图片描述

查看/export目录树结构
在这里插入图片描述

执行命令:./upload2HDFS.sh
在这里插入图片描述

查看/export目录树结构
在这里插入图片描述

打开Hadoop WebUI查看上传的日志文件
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/84723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于C+++Mysql实现(WinForm)图书管理系统【100010034】

图书管理系统 实验内容、步骤以及结果 做出数据流图和数据字典。 在数据流图和字典的基础上做出 E-R 图(概念结构设计)。 学生&#xff1a; 图书&#xff1a; 管理员&#xff1a; 汇总&#xff1a; 在 E-R 图基础上进行关系模式设计&#xff08;至少满足 3NF&#xff09;&am…

b站黑马的Vue快速入门案例代码——计数器

目录 目标效果&#xff1a; 重点原理&#xff1a; 1.创建Vue实例的时候&#xff1a; 2.v-on——为元素绑定事件 3.v-text——【解析文本用】设置标签的文本值 v-text【简写】为{{}} 实现步骤&#xff1a; 代码部分&#xff1a; 1.计数器模板.html(全是重点&#xf…

【Redis缓存】主从、哨兵、 Cluster集群一锅端,一文带你全了解

Redis主从Redis哨兵Redis Cluster集群公众号&#xff1a;捡田螺的小男孩 \1. Redis 主从 面试官经常会问到Redis的高可用。Redis高可用回答包括两个层面&#xff0c;一个就是数据不能丢失&#xff0c;或者说尽量减少丢失;另外一个就是保证Redis服务不中断。 对于尽量减少数据…

KKALRRQETVDAL,129198-88-5,钙调蛋白激酶底物

Autocamtide 2是钙/钙调蛋白依赖的蛋白激酶II (CaMKII)的高选择性肽底物。 它可以用于测定CaMKII的活力。Autocamtide 2 is a highly selective peptide substrate of calcium/calmodulin-dependent protein kinase II (CaMKII). It can be used in the CaMKII activity assay.…

被天空盒裁剪

一般来说天空盒都是在最后一层&#xff0c;最近发现一个天空盒裁剪的问题 距离放的太远了被裁剪了。 经研究发现是因为平时因为怕摄像机近截面裁剪到近距离的物品&#xff0c;习惯改成0.然后系统会自动改成0.01 只要改成大于0.01的值就可以了&#xff0c;比如默认的0.3.就会…

web网页设计期末课程大作业:旅游网页主题网站设计——中国风的温泉酒店预订网(13页)HTML+CSS+JavaScript

&#x1f468;‍&#x1f393;学生HTML静态网页基础水平制作&#x1f469;‍&#x1f393;&#xff0c;页面排版干净简洁。使用HTMLCSS页面布局设计,web大学生网页设计作业源码&#xff0c;这是一个不错的旅游网页制作&#xff0c;画面精明&#xff0c;排版整洁&#xff0c;内容…

中高频多因子库存储最佳实践

1. 概述 因子挖掘是量化交易的基础。随着量化交易竞争的加剧&#xff0c;量化投资团队需要处理大量因子。在许多情况下&#xff0c;因子数据量甚至会远远超过高频的行情数据量。以 5,000 只股票 10,000 个因子为例&#xff0c;一年的 10 分钟线数据量为 2.3TB&#xff0c;1分钟…

卡塔尔世界杯出现了半自动越位识别技术、Feelix Palm、动作轨迹捕捉等黑科技,一起来看看吧。

1.史上最快比赛用球 本届世界杯的官方比赛用球名为“旅程&#xff08;Al Rihla&#xff09;”&#xff0c;由于重量很轻&#xff0c;因此在空中的飞行速度比以往任何一届世界杯的比赛用球都快。 “旅程”的球体表面由20个名为SPEEDSHELL的纹理聚氨酯球面材料模块组成&#xf…

一文看懂卷积运算(convolution)与互相关运算(cross-correlation)的区别

目录 互相关运算定义 互相关运算图示 互相关运算完整计算示例 卷积数学定义 卷积运算图示 卷积与互相关运算区别 深度学习中的卷积为何能用互相关运算代替 互相关运算定义 在二维互相关运算中&#xff0c;卷积窗口从输入数组的最左上方开始&#xff0c;按从左往右、从上…

粤嵌实训(笔记)

目录 1. LCD换自己喜欢的颜色 2. LCD换个图案 3. LCD换张图片 4.网线登录 ifconfig eth0 192.168.5.9 5.触屏电子相册 6.网络编程(TCP通信) 7.网络编程(UDP通信) 说实话&#xff0c;对于这个粤嵌的实训&#xff0c;真的有很多想吐槽的地方&#xff0c;以下就是粤嵌给的一块…

python 修改 网页 navigator 的属性的值

def init_js(page: Page, phone: str) -> Page:#修改 网页 navigator 的属性的值function fakeNav(key, value) {Object.defineProperty(navigator, key, {value: value,writable: false});}js_device_memory ffakeNav("deviceMemory", {gen_android_memory(phon…

Python测试题

目录 题目一&#xff1a;猜数字游戏 题目二&#xff1a;实现一个函数可判断一个数字是否为质数。 题目三&#xff1a;实现一个函数可判断一个数字是否为回文数。 题目四:编写程序实现中美汇率转换。 题目五:球体100米落地弹起运算 题目六&#xff1a;使用python建一个简易…

通达信交易接口API获取数据源码分享

在通达信交易接口下单之前&#xff0c;如何去了解快速获取交易数据呢&#xff1f;要是即使下单了&#xff0c;也不知道如何去查询&#xff0c;然后不管不问&#xff0c;等到需要你去止损了&#xff0c;你才回想起来去操作&#xff0c;这是很容易吃亏的做法的。在股票量化交易过…

符号三角形问题(Java)

符号三角形问题&#xff08;Java&#xff09; 文章目录符号三角形问题&#xff08;Java&#xff09;1、 前置介绍2、算法设计3、程序代码4、算法效率5、参考资料1、 前置介绍 符号三角形定义 如下图所示&#xff0c;符号三角形是由14个“” 号和14个"-"号组成的符号三…

k8s镜像下载不下来?利用 github Action 自己动手一次性解决难题,丰衣足食

docker-image-syncer 无论是在学习k8s还是正式环境部署k8s中,第一步安装k8难倒了各大英雄好汉。原因是k8s 各种组件镜像在谷歌服务器上(k8s.gcr.io)&#xff0c;而我们有墙的存在&#xff0c;所以会经常性的下载失败。解决办法是搭梯子&#xff0c;或者是使用其他镜像源。 本…

有符号变量与无符号变量之间的值的转换

1、有符号变量与无符号变量之间的值的转换 程序例子 涉及到的内容是&#xff1a; 有符号变量和无符号变量之间的转换 溢出&#xff08;如何判断&#xff09; #include<stdio.h> char getchar(int x, int y){char c;unsigned int a x;(x y > 10 ) ? (c 1): (c 2…

Linux——I/O复用(select的用法)

一、I/O复用 定义&#xff1a;I/O 复用使得程序能同时监听多个文件描述符&#xff0c;这对于提高程序的性能至关重要。 网络程序在下列情况下需要使用 I/O 复用技术&#xff1a; ◼ TCP 服务器同时要处理监听套接字和连接套接字。◼ 服务器要同时处理 TCP 请求和 UDP 请求。◼ …

RT-Thread的设备模型

RTT内核对象——设备 RT-Thread有多种内核对象&#xff0c;其中设备device就是其中一种。 内核继承关系图如下&#xff1a; 设备继承关系图如下&#xff1a; I/O 设备模型框架 应用程序通过 I/O 设备管理接口获得正确的设备驱动&#xff0c;然后通过这个设备驱动与底层 I/O 硬…

ARM通用中断控制器GIC之中断处理状态机 Interrupt handling state machine

中断有四种状态&#xff1a;inactive&#xff0c;pending&#xff0c;active 和active and pending。而产生中断的方式有两种&#xff0c;一种是通过写pending寄存器&#xff0c;让中断进入pending状态&#xff0c;可以忽略是否真的有物理中断信号&#xff0c;让Distributor将该…

如何构建myquant量化策略?

对于如何构建myquant量化策略这个问题而言&#xff0c;就是获取量化股票接口的基础数据&#xff0c;然后有了基础数据&#xff0c;才能对数据进行加工处理&#xff0c;构建量化策略&#xff0c;进行量化分析&#xff0c;回测和回溯。myquant量化策略主要是基于python进行量化投…