Spark,HDFS概述

news2025/4/8 22:08:41

HDFS组成构架:

注:

NameNode(nn):就是 Master,它是一个主管、管理者。

(1) 管理 HDFS 的名称空间;

(2) 配置副本策略。记录某些文件应该保持几个副本;

(3) 管理数据块(Block)映射信息; 一个大文件可能有多个数据块(一块为128M),每个块保存在哪里

(4) 处理客户端读写请求。

DataNode:就是 Slave。NameNode 下达命令,DataNode 执行实际的操作。

(1) 存储实际的数据块;

(2) 执行数据块的读 / 写操作。

Secondary NameNode:并非 NameNode 的热备。当 NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。 真实的开发中,我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;

(2) 在紧急情况下,可辅助恢复 NameNode。

Client:就是客户端。 

(1)文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;

(2)与 NameNode 交互,获取文件的位置信息;

(3)与 DataNode 交互,读取或者写入数据;

(4) Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;

(5) Client 可以通过一些命令来访问 HDFS,比如对 HDFS 增删查改操作;

HDFS文件默认大小是128M

shell操作文件上传

1.从本地剪切粘贴到HDFS把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。

基本格式是:

hadoop fs -moveFormLocal  (本地文件路径 服务器上的文件路径)

可以通过如下命令把这个文件上传到服务器上。

[root@hadoop100 hadoop-3.1.3]$ hadoop fs  -moveFromLocal  /opt/tmp/sanguo.txt  /sanguo.txt

注意到,它会把本地的文件删除掉。

2.如果要保留本地的文件,可以使用 -put 命令。具体如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo

shell操作文件下载

下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。

基本格式是:

hadoop fs -get  (服务器上的文件路径 本地文件路径)

示例需求: 把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。

对应的命令:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

其他shell操作

1.显示目录信息

使用-ls命令,示例如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -ls /

上面的命令用来查看根目录(/)下的文件。

2.创建文件夹。

使用-mkdir命令。格式是:hadoopfs -mkdir 文件名。 示例如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mkdir /jinguo

3.显示文件内容

使用-cat命令。示例如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cat /sanguo/shuguo.txt

3.拷贝文件。

使用-cp命令。表示HDFS的一个路径拷贝到HDFS的另一个路径

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo

4.移动文件

使用-mv命令,它的格式是: hadoop fs -mv 文件起点 终点

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo

5.删除文件或文件夹。

使用-rm 命令,它的格式是: -rm 要删除的文件

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -rm /sanguo/shuguo.txt

6.递归删除

使用-rm -r命令, 它用来删除目录及目录里面内容,它的格式是: -rm -r 要删除的文件夹。

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /sanguo

7.统计文件夹的大小信息。使用命令 -du。示例如下

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo
27  81  /jinguo
这个文件夹下面的文件信息
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -du  -h /jinguo
14  42  /jinguo/shuguo.txt
7   21   /jinguo/weiguo.txt
6   18   /jinguo/wuguo.txt

说明:27表示文件大小;81表示27*3个副本;/jinguo表示查看的目录

8. -setrep:设置HDFS中文件的副本数量

 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -setrep 10 /jinguo/shuguo.txt 

效果如下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2329500.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构】图论进阶:生成树、生成森林与权值网络的终极解析

图的基本概念 导读一、图中的树与森林1.1 生成树与生成森林1.1.1 生成树1.1.2 生成森林1.1.3 生成树、生成森林与连通分量结点的关系边的关系 1.2 有向图中的树与森林1.2.1 有向树与有向森林1.2.2 生产有向树与生成有向森林1.2.3 有向树与生成有向树的区别1.2.4 有向森林与生成…

C和C++(list)的链表初步

链表是构建其他复杂数据结构的基础,如栈、队列、图和哈希表等。通过对链表进行适当的扩展和修改,可以实现这些数据结构的功能。想学算法,数据结构,不会链表是万万不行的。这篇笔记是一名小白在学习时整理的。 C语言 链表部分 …

【KWDB创作者计划】_KaiwuDB 2.1.0 单节点裸机部署

大家好,这里是 DBA学习之路,专注于提升数据库运维效率。 目录 前言KWDB 介绍安装准备环境信息配置要求操作系统软件依赖端口要求安装包下载 部署 KWDB简单实用连接数据库创建数据库创建用户创建时序表 前言 今天无意间在墨天轮看到一个征文活动 征文大赛…

前端快速入门学习3——CSS介绍与选择器

1.概述 CSS全名是cascading style sheets,中文名层叠样式表。 用于定义网页样式和布局的样式表语言。 通过 CSS,你可以指定页面中各个元素的颜色、字体、大小、间距、边框、背景等样式,从而实现更精确的页面设计。 HTML与CSS的关系:HTML相当…

Redash:一个开源的数据查询与可视化工具

Redash 是一款免费开源的数据可视化与协作工具,可以帮助用户快速连接数据源、编写查询、生成图表并构建交互式仪表盘。它简化了数据探索和共享的过程,尤其适合需要团队协作的数据分析场景。 数据源 Redash 支持各种 SQL、NoSQL、大数据和 API 数据源&am…

嵌入式Linux驱动—— 1 GPIO配置

目录 1.GPIO操作 1.1 IO命名 1.2 GPIO 时钟使能(CCM) 1.3 IO 复用(IOMUXC) 1.4 IO 配置 1.5 GPIO 配置 1.GPIO操作 GPIO操作主要是以下流程: 使能某组GPIO模块(GPIO1、2、...)&#…

[ICLR 2025]Biologically Plausible Brain Graph Transformer

论文网址:Biologically Plausible Brain Graph Transformer 英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用 目录 …

SpringBoot+MyBatis Plus+PageHelper+vue+mysql 实现用户信息增删改查功能

静态资源展示 (1)静态资源下载 (2)下载后文件放到resources/static 目录下 (3) main函数启动项目访问对应文件,http://127.0.0.1:8080/user-list.html 数据库添加表和数据 SET FOREIGN_KEY_CHECKS0;-- --------…

企业常用Linux服务搭建

1.需要两台centos 7服务器,一台部署DNS服务器,另一台部署ftp和Samba服务器。 2. 部署DNS 服务器​ #!/bin/bash# 更新系统 echo "更新系统..." sudo yum update -y# 安装 BIND 和相关工具 echo "安装 BIND 和相关工具..." sudo y…

Qwen-7B-Chat 本地化部署使用

通义千问 简介 通义千问是阿里云推出的超大规模语言模型,以下是其优缺点: 优点 强大的基础能力:具备语义理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演等多种能力。可以续写小说、编写邮件、解…

QGIS获取建筑矢量图-Able Software R2V

1.QGIS截图 说明:加载天地图矢量图层,然后进行截图。 2.Able Software R2V 说明:Able Software R2V 是一款​​将光栅图像(如扫描图纸、航拍照片)自动转换为矢量图形(如DXF格式)​​的软件&a…

form实现pdf文件转换成jpg文件

说明: 我希望将pdf文件转换成jpg文件 请去下载并安装 Ghostscript,gs10050w64.exe 配置环境变量:D:\Program Files\gs\gs10.05.0\bin 本地pdf路径:C:\Users\wangrusheng\Documents\name.pdf 输出文件目录:C:\Users\wan…

STM32单片机入门学习——第13节: [6-1] TIM定时中断

写这个文章是用来学习的,记录一下我的学习过程。希望我能一直坚持下去,我只是一个小白,只是想好好学习,我知道这会很难,但我还是想去做! 本文写于:2025.04.04 STM32开发板学习——第13节: [6-1] TIM定时中断 前言开发板说明引用解答和科普一…

【2】搭建k8s集群系列(二进制)之安装etcd数据库集群

一、etcd服务架构 Etcd 是一个分布式键值存储系统,Kubernetes 使用 Etcd 进行数据存储,所以先 准备一个 Etcd 数据库,为解决 Etcd 单点故障,应采用集群方式部署,这里使用 3 台组建集群,可容忍 1 台机器故障…

Linux常用命令详解:从基础到进阶

目录 一、引言 二、文件处理相关命令 (一)grep指令 (二)zip/unzip指令 ​编辑 (三)tar指令 (四)find指令 三、系统管理相关命令 (一)shutdown指…

基于spring boot的外卖系统的设计与实现【如何写论文思路与真正写出论文】

目录 系统开发实现链接: 背景与分析: 背景(题目): 用户功能 配送员功能 管理员功能 分析: 过程(主体展示为主,部分功能不一一展示): 目录 论文前面…

Kubernetes 存储 Downward API

1.介绍 1.提供容器元数据 比如我们 golang语言 我们说他会根据当前CPU的数量 以此去确认我们的进程 线程 和协程之间的关系 以此去释放我们当前CPU的更大的 这么一个并行任务的能力 但是这里会出现一个问题 容器它是把当前的应用 封装在我们固定的名称空间了 而且给它以特定的…

01人工智能基础入门

一、AI应用场景和发展历程 1.1行业应用 1、deepdream图像生成、yolo目标检测 2、知识图谱、画风迁移 3、语音识别、计算机视觉 4、用户画像 5、百度人工智能布局 1.2发展历程 人工智能的发展经历了 3 个阶段: 1980年代是正式成形期,尚不具备影响力。 …

进程和内存管理

目录 一.进程的基本信息 1.1进程的定义 1.2进程的特征 1.3进程的组成 1.4线程产生的背景 1.5线程的定义 1.6进程与线程的区别 1.7进程的类别 1.8进程的优先级 1.8.1进程优先级的概念 1.8.2PRI和NI 1.9僵尸进程 1.9.1僵尸进程的定义 1.9.2僵尸进程产生的原因 1.9…

React 项目使用 pdf.js 及 Elasticpdf 教程

摘要:本文章介绍如何在 React 中使用 pdf.js 及基于 pdf.js 的批注开发包 Elasticpdf。简单 5 步可完成集成部署,包括数据的云端同步,示例代码完善且简单,文末有集成代码分享。 1. 工具库介绍与 Demo 1.1 代码包结构 ElasticP…