Hadoop的基础操作

news2024/11/25 11:57:09

Hadoop的基础操作

  • HDFS是Hadoop的分布式文件框架,它的实际目标是能够在普通的硬件上运行,并且能够处理大量的数据。
  • HDFS采用主从架构,其中由一个NameNode和多个DataNode
    • NameNode负责管理文件系统的命名空间和客户端的访问
    • DataNode负责存储实际的数据块

HDFS的基本操作包括文件的上传,下载,删除,重命名等

文件操作

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lM0WhMnI-1684976584539)(E:\Java笔记\大数据\Hadoop\Hadoop的基础操作\Hadoop的基础操作.assets\image-20230522092333144.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EOfiOqXm-1684976584540)(E:\Java笔记\大数据\Hadoop\Hadoop的基础操作\Hadoop的基础操作.assets\image-20230522092349584.png)]

手动创建文件夹:

语法:

hadoop fs -mkdir <HDFS文件路径>

示例:

# 创建文件夹(根目录创建名为input的文件夹)
[root@master ~]# hadoop fs -mkdir /input

# 创建文件夹(根目录创建名为user的文件夹)
[root@master ~]# hdfs dfs -mkdir /user

# 创建多级目录
[root@master ~]# hdfs dfs -mkdir -p /user/resource/example

手动上传文件

语法:

hadoop fs -put <本地文件路径> <HDFS文件路径>

示例:

# 将本地/usr/text.txt 文件上传到input文件下
[root@master ~]# hadoop fs -put /usr/text.txt /input

# 将本地/usr/text.txt 文件上传到input文件下。-copyFromLocal:本地复制
[root@master ~]# hdfs dfs -copyFromLocal /usr/text.txt /user

# 将本地/usr/text.txt 文件上传到input文件下
[root@master ~]# hdfs dfs -put /usr/text.txt /input

# 将本地/usr/text.txt 文件上传到input文件下。-moveFromLocal:本地迁移
[root@master ~]# hdfs dfs -moveFromLocal /usr/text.txt /user

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9osLRhW3-1684976584541)(E:\Java笔记\大数据\Hadoop\Hadoop的基础操作\Hadoop的基础操作.assets\image-20230522094753675.png)]

查看文件

[root@master ~]# hadoop fs -ls /

[root@master ~]# hdfs dfs -ls /

下载文件

语法:

hadoop fs -get <HDFS文件路径> <本地路径>
hadoop fs -copyToLocal <HDFS文件路径> <本地路径>

示例:

# 将user/text.txt文件下载到本地/usr/local/下      -copyToLocal:复制到本地
[root@master ~]# hadoop fs -copyToLocal /user/text.txt /usr/local/
[root@master ~]# cd /usr/local/
[root@master local]# ll
-rw-r--r--.  1 root   root           0 5月  22 09:51 text.txt

[root@master ~]# hdfs dfs -copyToLocal /user/text.txt /usr/local/
[root@master ~]# cd /usr/local/
[root@master local]# ll
-rw-r--r--.  1 root   root           0 5月  22 09:51 text.txt


# 将user/text.txt文件下载到本地/usr/local/下
[root@master local]# hadoop fs -get /user/resource/text.txt /usr/local
[root@master local]# ll
-rw-r--r--.  1 root   root           0 5月  22 09:54 text.txt
# 将user/text.txt文件下载到本地/usr/local/下
[root@master local]# hdfs dfs -get /user/resource/text.txt /usr/local
[root@master local]# ll
-rw-r--r--.  1 root   root           0 5月  22 09:54 text.txt

查看文件内容

语法:

hdfs dfs -cat <HDFS文件路径>

示例:

[root@master local]# hdfs dfs -cat /input/text.txt
hello ,hadoop

[root@master local]# hdfs dfs -tail /input/text.txt
hello ,hadoop

删除文件

语法:

hadoop fs -rm <HDFS文件路径>

示例:

# 删除文件夹
[root@master ~]# hdfs dfs -mkdir /user/resource
[root@master ~]# hdfs dfs -rmdir /user/resource
[root@master ~]# hadoop fs -rm -f /user/resource

# 删除文件
[root@master ~]# hdfs dfs -rm /user/resoure/text.txt
[root@master ~]# hadoop fs -rm -r /user/resource/text.txt


文件重命名

语法:

hadoop fs -mv <HDFS文件路径> <HDFS文件路径>

示例:

[root@master ~]# hadoop fs -mv /input/test.txt /input/demo.txt

查看集群的基本信息

[root@master ~]# hdfs fsck /
Connecting to namenode via http://192.168.184.130:50070/fsck?ugi=root&path=%2F
FSCK started by root (auth:SIMPLE) from /192.168.184.130 for path / at Tue May 23 10:42:27 CST 2023


/input/text.txt:  Under replicated BP-399935676-192.168.184.130-1684307575827:blk_1073741825_1001. Target Replicas is 3 but found 1 live replica(s), 0 decommissioned replica(s), 0 decommissioning replica(s).

Status: HEALTHY
 Number of data-nodes:  1
 Number of racks:               1
 Total dirs:                    6
 Total symlinks:                0

Replicated Blocks:
 Total size:    13 B
 Total files:   3
 Total blocks (validated):      1 (avg. block size 13 B)
 Minimally replicated blocks:   1 (100.0 %)
 Over-replicated blocks:        0 (0.0 %)
 Under-replicated blocks:       1 (100.0 %)
 Mis-replicated blocks:         0 (0.0 %)
 Default replication factor:    3
 Average block replication:     1.0
 Missing blocks:                0
 Corrupt blocks:                0
 Missing replicas:              2 (66.666664 %)
 Blocks queued for replication: 0

Erasure Coded Block Groups:
 Total size:    0 B
 Total files:   0
 Total block groups (validated):        0
 Minimally erasure-coded block groups:  0
 Over-erasure-coded block groups:       0
 Under-erasure-coded block groups:      0
 Unsatisfactory placement block groups: 0
 Average block group size:      0.0
 Missing block groups:          0
 Corrupt block groups:          0
 Missing internal blocks:       0
 Blocks queued for replication: 0
FSCK ended at Tue May 23 10:42:27 CST 2023 in 18 milliseconds


The filesystem under path '/' is HEALTHY

在Hadoop的集群的基本信息主要包含分布式文件系统HDFS和分布式资源管理YARN

分布式文件系统HDFS主要包含文件系统的状态,是否有块丢失,备份丢失等,同时包含集群节点状态等。

分布式资源管理YARN主要包含集群节点状态,节点资源(内存,CPU等),队列状态等

Hadoop安全模式

  • 安全模式是保证系统保密性,完整性及可使用性的一种机制,一定程度上可以防止系统里的资源遭到破坏,更改和泄露,使得整个系统持续,可靠的正常运行。

  • Hadoop集群也有安全模式,在安全模式下可保证Hadoop集群中数据块的安全性。对Hadoop集群可以进行查看安全模式,解除和开启安全模式的操作,

查看看namenode是否处于安全模式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XDZd0DrY-1684976584541)(E:\Java笔记\大数据\Hadoop\Hadoop的基础操作\Hadoop的基础操作.assets\image-20230523105942500.png)]

[root@master ~]# hdfs dfsadmin -safemode get
Safe mode is OFF

进入安装模式

[root@master ~]# hdfs dfsadmin -safemode enter
Safe mode is ON

解除安全模式

[root@master ~]# hdfs dfsadmin -safemode leave
Safe mode is OFF

执行MapReduce任务

语法:

hadoop jar <jar包名称> <MapReduce程序类名> <输入路径> <输出路径>

示例:

[root@master ~]# hadoop jar wordcount.jar WordCount /user/hadoop/input /user/hadoop/output

启动集群

启动hadoop集群需要先启动NameNode和DataNode

start-dfs.sh
start-yarn.sh

停止集群

停止hadoop集群需要先停止YARN和HDFS

stop-dfs.sh
start-yarn.sh

官方文档

Hadoop文档 (apache.org)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/566450.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业为什么要做数字化转型,应该如何进行转型?

企业需要数字化转型才能在当今快速发展的商业环境中保持竞争力和相关性。数字化转型涉及利用数字技术和战略从根本上改变企业的运营方式、为客户创造价值并实现他们的目标。以下是企业进行数字化转型的一些关键原因&#xff1a; 提高运营效率&#xff1a;数字技术可实现自动化、…

如何使用ArcGIS标注上下标

&#xff08;本文首发于“水经注GIS”公号&#xff0c;关注公号免费领取地图数据&#xff09; 在某些情况下除了需要普通的标注之外还需要上下标注&#xff0c;对于这一需求&#xff0c;ArcGIS是支持的&#xff0c;这里为大家介绍一下ArcGIS标注上下标的方法&#xff0c;希望能…

初阶数据结构之栈的实现(五)

文章目录 &#x1f60f;专栏导读&#x1f916;文章导读&#x1f640;什么是栈&#xff1f;&#x1f640;画图描述 &#x1f633;栈的代码实现及其各类讲解&#x1f633;栈的初始化代码实现及其讲解&#x1f633;栈的初始化 &#x1f633;栈的销毁代码实现及其讲解&#x1f633;…

【面试题】2023vue面试题

大厂面试题分享 面试题库 前后端面试题库 &#xff08;面试必备&#xff09; 推荐&#xff1a;★★★★★ 地址&#xff1a;前端面试题库 web前端面试题库 VS java后端面试题库大全 1、说说你对 SPA 单页面的理解&#xff0c;它的优缺点分别是什么&#xff1f; SPA&#xf…

【运维知识进阶篇】集群架构-Nginx高可用Keepalived

高可用是指2台机器启动着完全相同的业务系统&#xff0c;一台机器宕机后&#xff0c;另一台可以快速启用&#xff0c;用户是无感知的。高可用硬件通常使用F5&#xff0c;软件通常使用keepalived。keepalived软件是基于VRRP协议实现的&#xff0c;VRRP虚拟路由冗余协议&#xff…

详解Node.js开发中不可或缺的7个库

在Node.js开发中&#xff0c;选择合适的库对于提高开发效率和优化应用程序性能至关重要。本文将介绍七个备受关注的Node.js库&#xff0c;它们在各自的领域中展现了出色的功能和性能。这些库分别是&#xff1a;Config、Fetch、Ioredis、Multer、Cache、Fast-xml-parser和Cron。…

一图看懂 pkg_resources 模块:包资源API,资料整理+笔记(大全)

本文由 大侠(AhcaoZhu)原创&#xff0c;转载请声明。 链接: https://blog.csdn.net/Ahcao2008 一图看懂 pkg_resources 模块&#xff1a;包资源API&#xff0c;资料整理笔记&#xff08;大全&#xff09; &#x1f9ca;摘要&#x1f9ca;模块图&#x1f9ca;类关系图&#x1f9…

JavaEE(系列15) -- 多线程(JUC中常见的类)

JUC----- java.util.concurrent(并发) 1. ReentrantLock 1. 可重入互斥锁. 和 synchronized 定位类似, 都是用来实现互斥效果, 保证线程安全. 2. ReentrantLock 也是可重入锁. "Reentrant" 这个单词的原意就是 "可重入". 1. ReentrantLock 的用法: lock():…

【花雕学AI】微软 Bing 图像魔法师:让你的描述变成图像,让你的图像变成现实

你有没有想过&#xff0c;如果你能够用语言来创造图像&#xff0c;那该有多么神奇和有趣&#xff1f;你有没有想过&#xff0c;如果你能够看到你想象中的图像&#xff0c;那该有多么震撼和美妙&#xff1f;现在&#xff0c;这一切都可以实现了&#xff0c;因为微软 Bing 图像魔…

NetApp EF 系列全闪存阵列——性能极佳,性价比优势突出

NetApp EF 系列全闪存阵列——性能极佳&#xff0c;性价比优势突出 如果您需要为实时分析、HPC 和数据库等性能敏感型工作负载提供强劲动力&#xff0c;NetApp EF 系列全闪存阵列的性价比优势不言自明。其可为要求最苛刻的应用程序提供微秒级响应&#xff0c;最大限度地延长正…

电源方案对比

电源 1.方案选择&#xff1a;1 LM2596 2 MP1584 3&#xff1a;TPS54301LM25962.MP1584&#xff1a;3.TPS5430 2.1输出2A电流的纹波2.2 输出3A电流的纹波3.动态响应4.发热5.电源转换效率6.综合指标reference 1.方案选择&#xff1a;1 LM2596 2 MP1584 3&#xff1a;TPS5430 1LM…

Unity之ShaderGraph节点介绍 Channel通道

目录 Channel&#xff08;通道&#xff09;  1、Combine&#xff08;合并&#xff09;  2、Flip&#xff08;反转&#xff09;  3、Split&#xff08;拆分&#xff09;  4、Swizzle&#xff08;通道调配&#xff09; Channel&#xff08;通道&#xff09; 1、Combine&am…

win可以上网,但是右下方显示“无internet链接“

使用了下面链接的方法&#xff0c;成功解决 Win10可以联网但右下角显示无法连接到Internet怎办 首先&#xff0c;打开控制面板(control)&#xff0c;右上角&#xff0c;将查看方式切换为小图标 调整计算机的设置下&#xff0c;找到并点击网络和共享中心 网络和共享中心窗口&a…

即时通讯软件(企业IM)对企业的作用

随着网络时代的来临&#xff0c;即时通讯软件也开始逐渐在企业中流行起来&#xff0c;甚至很多公司都已经将即时通讯软件作为内部沟通的主要工具&#xff0c;那么这种情况下&#xff0c;即时通讯软件对企业究竟有什么作用呢&#xff1f; 首先&#xff0c;即时通讯软件对于企业内…

20年前,微软给金山那刀,现今一举将WPS推上领奖台,WPS,赢了

WPS&#xff0c;赢了 正如姚冬&#xff08;金山办公副总裁&#xff09;所说&#xff1a; 文本的命令行到图形界面的那次&#xff0c;改变整个人机交互的方式&#xff0c;我们公司历史上最大的一次危机也是那一次&#xff0c; 但我们依然挺过来了&#xff0c;我们相信这次技术浪…

走进Linux世界,学习Linux系统的必备指南

随着计算机技术的不断发展&#xff0c;Linux操作系统已成为IT行业中备受关注的操作系统之一。Linux以其安全性、稳定性和开放性&#xff0c;受到了广泛的认可和欢迎。学习Linux系统对于IT行业的从业者来说是非常重要的。但是&#xff0c;对于初学者来说&#xff0c;学习Linux可…

CANopenNode Master 配置

文章目录 CANopenNode 简介CANopenNode 主栈SDO ClientPDO 通讯参数RPDO 通讯参数RPDO 通信参数设置实例TPDO 通讯参数TPDO 通信参数设置实例 PDO 映射参数RPDO 映射参数设置实例TPDO 映射参数设置实例 CANopenNode 简介 CANopenNode 是一个开源的免费的开源 CANopen 协议栈。…

【谷粒商城笔记】1.基于docker的mysql、redis环境配置

0.系统 宝塔 v7.5.1 Centos v8.2 1. 安装Docker 直接yum install docker会提示找不到 > docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ docker-logrotate \ docker-engine Loaded plugins: fastestmirror No Match for argument: …

Ae:常用内置抠像效果

Ae 中的抠像都是基于效果控件来实现的&#xff0c;最终生成动态遮罩来控制画面像素的透明度。 常用的内置抠像效果有&#xff1a;提取、线性颜色键、颜色差值键、内部/外部键等。 黑色或白色背景的抠像 对于白色或黑色背景的素材&#xff0c;可直接尝试图层混合模式。 或者&…

一文打通File类

目录 基本概述 常用构造器 构造方法 路径分隔符 常用方法 File类的获取功能 File类的重命名功能 File类的判断功能 File类的创建功能 File类的删除功能 在 Java 中&#xff0c;File 类是 java.io 包中唯一代表磁盘文件本身的对象&#xff0c;也就是说&#xff0c;如果…