【大数据 复习】第3章 分布式文件系统HDFS(重中之重)

news2024/10/7 14:29:00

一、概念

1.分布式文件系统把文件分布存储到多个计算机节点上,通过网络实现、文件在多台主机上进行分布式存储的文件系统。(就是你的电脑存a,我的电脑存pple)

2.降低了硬件开销:

与之前使用多个处理器和专用高级硬件的并行化处理装置相比,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的。

3.设计目标:透明性、并发控制、可伸缩性、容错及安全需求 等 。

4.数据磁盘读写的最小单位是块。

(1)一个文件被分成多个块,以块作为存储单位。

(2)块的大小远远大于普通文件系统,可以最小化寻址开销。

5.采用块的好处

(1)支持大规模文件存储

(2)简化系统设计

(3)适合数据备份

二、名称节点

1.“主节点”(Master Node)或者也被称为“名称结点”(NameNode)

(1)存储元数据

(2)元数据保存在内存

(3)保存文件,块,数据节点 之间的映射关系

(4)在内存中保存着名称空间和文件数据块的地址映射,管理文件系统的命名空间,维护文件系统树及树内所有的文件和目录(通过fsimage)。

2.名称节点和数据节点的关系:

(1)记录每个文件中各个块所在的数据节点信息(即保存在数据节点的位置),但并不永久保存,这些信息会在系统启动时根据数据节点信息重建。

(2)整个HDFS可存储的文件数受限于NameNode的内存大小。

(3)数据流不经过NameNode,  会询问NameNode与哪个DataNode联系。

3.Fslmage、EditLog

(1)每个文件和每个数据块的引用关系数据会定期保存到本地磁盘,信息以两个文件形式永久保存在本地磁盘:FsImage镜像文件,EditLog日志文件。

(2)FsImage文件用于维护文件系统树和元数据,EditLog用于记录关于文件的操作。

(3)在Namenode 启动的时候,它会将FsImage文件中的内容加载到内存中,之后再执行EditLog文件中的各项操作,使得内存中的元数据和实际的同步。一旦在内存中成功建立文件系统元数据的映射,则创建一个新的FsImage文件和一个空的EditLog文件。

4.什么是命名空间?

主要包括以下几个方面的功能:

(1)文件系统的命名管理

(2)元数据存储:

(3)命名空间操作的控制与管理:

(4)数据块的管理:

所以命名空间和名称节点可以说就是一个玩意???

三、第二名称节点

1.用来EditLog 不断变大的问题

(1)用EditLog的操作更新FsImage里面的记录,然后格式化EditLog

(2)作为NameNode的检查点,周期性的备份名称节点的元数据信息。

四、数据节点

1.“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)

(1)存储文件内容

(2)文件内容保存在磁盘

(3)维护了 块id到 数据节点本地文件 的映射关系

(4)向名称节点定期发送自己所存储的块的列表

2.结构:

五、数据错误与恢复

1.名称节点出错

HDFS 设置了备份机制,故障时用第二名称节点当名称节点使用,但是我们的习题告诉我们这样说是不对的,估计是因为这样做仍然会丢失部分数据,所以判定为不对吧。

2.数据节点出错

每个数据节点会定期向名称节点发送“心跳”信息,向名称节点报告自己的状态,如果不发了就是认为死机了,就不用它了。

3.数据出错

有校验机制,如果校验失败,就报告这个数据块出错了。

HDFS 和其它分布式文件系统的最大区别就是可以调整冗余数据的位置。

六、HDFS常用命令(重点)

1.hadoop fs -ls <path>:显示路径指定文件的详细信息(不是内容)

2.hadoop fs -cat<path>:将该路径文件输出(就是运行)

3.hadoop fs -chown:改变路径文件的对应权限。

4.hadoop fs -touchz <path>:在该路径创建一个空文件

5.hadoop fs -mkdir <paths>:创建一个文件夹

6.hadoop fs -put <localsrc> <dst>:从本地通过hdfs上传到dst(就是上传到其他电脑那了)

7.hadoop fs -mv <src> <dest>:将文件从路径下移动到<dst>

8.hadoop fs -rm <path>:删除指定文件

9.hadoop fs -rm -r <path>:删除指定文件夹下所有文件还有文件夹自己

七、习题

单选题

1.HDFS核心的概念是()

A. 单元  

B. 节点  

C. 块  

D. 文件

正确答案:C

记住,记住,记住

2.下面哪个程序负责 HDFS 数据文件存储。( )

A. NameNode  

B. Jobtracker  

C. DataNode  

D. secondaryNameNode

正确答案:C

3.HDFS和其它分布式文件系统的最大区别就是 ( )

A. 可以调整冗余数据的位置  

B. HDFS在部署时都提供了客户端  

C. HDFS是一个部署在集群上的分布式文件系统  

D. HDFS集群中只有一个命名空间

正确答案:A

4.名称结点在分布式文件系统中又叫做( )

A. 数据节点  

B. 从节点  

C. 集群节点  

D. 主节点

正确答案:D

5.如何解决名称节点运行期间EditLog不断变大导致的名称节点启动缓慢的问题?( )

A. 第二名称节点  

B. FsImage  

C. 数据节点协议  

D. RPC(Remote Procedure Call)

正确答案:A

6.Hadoop平台中,创建一个或多个指定文件夹的命令是()。

A. hadoop fs -ls  

B. hadoop fs -chown  

C. hadoop fs -mkdir  

D. hadoop fs -copyFromLocal

正确答案:C

7.Hadoop平台中,显示指定文件夹详细信息的命令是()

A. hadoop fs -ls  

B. hadoop fs -chown  

C. hadoop fs -mkdir  

D. hadoop fs -copyFromLocal

正确答案:A

8.当客户端读取数据时,从名称节点获得数据块不同副本的存放位置列表,列表中包含了副本所在的数据节点,客户端通过什么判断读取那个副本?()

A. 块编号  

B. 地理位置  

C. 机架ID  

D. 名称节点指定

正确答案:C

记住,记住,记住

9.名称节点命名空间不足的问题通过下列哪种技术可以解决?()

A. HDFS Federation  (联邦)

B. HDFS HA  

C. SecondaryNameNode

正确答案:A

在后面的第8章会讲

10.副本复制的方式是()

A. 客户端同时在多个数据节点上执行写操作  

B. 数据节点之间流水线复制  

C. 名称节点将数据分别发送到多个数据节点  

D. 客户端直接将数据发送给名称节点

正确答案:B

多选题

11.下列各项中,属于名称节点的功能的有()

A. 管理分布式文件系统系统的命名空间  

B. 记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息  

C. 管理数据块(Block)映射信息  

D. 在运行过程中合并FSImage和Editlog的内容

正确答案:A,B,C

12.下列各项中,属于DataNode的功能的是()

A. 存储实际的数据块  

B. 执行数据块的读/写操作  

C. 周期性向NameNode汇报心跳信息和数据块信息  

D. 自动配置副本策略

正确答案:A,B,C

13.下列各项中,属于SecondaryNameNode的功能的有()

A. 辅助恢复NameNode  

B. NameNode出现故障的时候直接接管系统  

C. 解决单点故障  

D. 定期合并fsimage和edits,并推送给NameNode

正确答案:A,D

HDFS通过HA(高可用性)机制来解决单点故障问题。第8章内容。

14.下列属于正确的副本存放策略的是()

A. 第一个副本:放置在上传文件的数据节点;如果是集群外提交,则随机挑选一台磁盘不太满、CPU不太忙的节点  

B. 第二个副本:放置在与第一个副本不同的机架的节点上  

C. 第三个副本:与第一个副本相同机架的其他节点上  

D. 更多副本:随机节点

正确答案:A,B,C,D

这个属于副本存放策略内容,建议记忆,讲的是复制一堆作备用的。

15.下列对于HDFS错误与恢复的机制中,描述正确的有()

A. 名称节点出错时,就可以根据备份服务器SecondaryNameNode中的FsImage和Editlog数据进行恢复。  

B. 当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为“宕机”,节点上面的所有数据都会被标记为“不可读”,名称节点不会再给它们发送任何I/O请求  

C. 由于一些数据节点的不可用,会导致一些数据块的副本数量小于冗余因子;名称节点会定期检查这种情况,一旦发现某个数据块的副本数量小于冗余因子,就会启动数据冗余复制,为它生成新的副本  

D. 当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块

正确答案:A,B,C,D

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1854747.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

公司倒闭被迫踏上海投简历道路,经历打压受挫后总结的Android面经,互相激励!

红黑树有啥特性? 在oncreate里面可以得到view的宽高吗? view的getwidth和getmesurewidth有啥区别? 遍历hashmap的原理? 23种设计模式 中园博林(有笔试) 如何避免out of menmory和anr? arraymap和hashmap的区别? 如何实现线程同步? 简述android事件分发机制 简…

pytorch国内镜像源安装及测试

一、安装命令&#xff1a; pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple 二、测试&#xff1a; import torch x torch.rand(5, 3) print(x)

示例:推荐一个基于第三方开源控件库DataGridFilter封装的FilterColumnDataGrid,可以像Excel拥有列头筛选器

一、目的&#xff1a;基于第三方开源控件库DataGridFilter封装的FilterColumnDataGrid&#xff0c;可以像Excel拥有列头筛选器&#xff0c;感兴趣的可以去下方链接地址查看开源控件库地址。本控件封装的目的在于将第三方库的皮肤和样式封装到皮肤库中可统一设置样式&#xff0c…

【教学类65-02】20240622秘密花园涂色书02(通义万相)(A4横版2张,一大 68张纸136份)

背景需求 【教学类65-01】20240622秘密花园涂色书01&#xff08;通义万相&#xff09;&#xff08;A4横版2张&#xff0c;一大3小 38张纸76份&#xff09;-CSDN博客文章浏览阅读118次。【教学类65-01】20240622秘密花园涂色书01&#xff08;通义万相&#xff09;&#xff08;A…

已解决javax.management.BadBinaryOpValueExpException异常的正确解决方法,亲测有效!!!

已解决javax.management.BadBinaryOpValueExpException异常的正确解决方法&#xff0c;亲测有效&#xff01;&#xff01;&#xff01; 目录 问题分析 出现问题的场景 报错原因 解决思路 解决方法 分析错误日志 检查操作数合法性 确认操作数类型匹配 优化代码逻辑 增…

Day 46 Redis缓存集群

Redis缓存集群 redis缓存服务 缓存数据库 缓存 ​ 读取数据 cpu ​ L1 L2 L3 L4 ​ 一级缓存 二级缓存 ​ cs context switch 上下文交换 free -m ​ buffer cache mysql服务器 ​ 缓存 表缓存 数据缓存 nginx ​ expire 1d ​ 304响应码 ​ 200 ​ 301 ​ 30…

机器学习周记(第四十四周:Robformer)2024.6.17~2024.6.23

目录 摘要ABSTRACT1 论文信息1.1 论文标题1.2 论文摘要1.3 论文引言1.4 论文贡献 2 论文模型2.1 问题描述2.2 Robformer2.2.1 Encoder2.2.2 Decoder 2.3 鲁棒序列分解模块2.4 季节性成分调整模块 摘要 本周阅读了一篇利用改进 Transformer 进行长时间序列预测的论文。论文模型…

Linux系统编程--软/硬连接

真正找到磁盘上文件的并不是文件名&#xff0c;而是inode。 其实在linux中可以让多个文件名对应于同一个inode。 命令&#xff1a; 软连接&#xff1a;ln -s 原文件名 新文件名 硬链接&#xff1a;ln 原文件名 新文件名 删除链接文件&#xff1a;unlink 文件名执行上面两条命令…

Python学习打卡:day14

day14 笔记来源于&#xff1a;黑马程序员python教程&#xff0c;8天python从入门到精通&#xff0c;学python看这套就够了 目录 day14102、封装三大特性对用户隐藏的属性和行为私有成员使用私有成员 103、封装的课后习题104、继承单继承多继承 105、复写父类成员和调用父类成…

论文《Geom-GCN:Geometric Graph Convolutional Networks》笔记

【Geom-GCN】现有的MPNNs方法具有两个基本弱点&#xff1a;①丢失邻域节点的结构信息&#xff1b;②缺乏捕获非同配性图的长距离依赖的能力。本文从经典神经网络和网络几何学的观察出发&#xff0c;提出了一种新的几何聚合方案&#xff0c;该方案利用图背后的连续空间进行聚合&…

小白学react之Next.js 14(一)不配置路由的玩法

Next.js 14是目前最新版本&#xff0c;我们用就用最新的玩一下。 建一个示例之后&#xff0c;我在找配置&#xff0c;我应该在那建一个新的页面。找半天硬是没找着&#xff0c;答案是现在不需要配置。 我们来看一下Next.js 14的项目结构&#xff1a; 很明显&#xff0c;在src/…

Object、Class、Module之间关系

文章目录 1. 从继承关系来说&#xff0c;是Class --> Module --> Object&#xff0c;即Object是继承树的顶层&#xff0c;紧接着是Module&#xff0c;然后是Class。2. module 与Class 区别 1. 从继承关系来说&#xff0c;是Class --> Module --> Object&#xff0c…

我国目前常用的卫星影像星座有哪些(高分二号、高分七号、吉林一号、高景一号······)

​ 点击下方全系列课程学习 点击学习—>ArcGIS全系列实战视频教程——9个单一课程组合系列直播回放 点击学习——>遥感影像综合处理4大遥感软件ArcGISENVIErdaseCognition 中国目前的遥感卫星在数量、种类和应用领域上都取得了显著进展&#xff0c;覆盖了陆地、气象、海…

6月21日训练 (东北林业大学)(个人题解)

前言&#xff1a; 这次训练是大一大二一起参加的训练&#xff0c;总体来说难度是有的&#xff0c;我和队友在比赛时间内就写出了四道题&#xff0c;之后陆陆续续又补了了三道题&#xff0c;还有一道题看了学长题解后感觉有点超出我的能力范围了&#xff0c;就留给以后的自己吧。…

常见的七大排序

目录 前言 冒泡排序 选择排序 插入排序 堆排序 希尔排序 快排 归并排序 前言 本文介绍七种常见的排序方式&#xff1a;冒泡排序&#xff0c;选择排序&#xff0c;插入排序&#xff0c;堆排序&#xff0c;希尔排序&#xff0c;快排&#xff0c;归并排序 冒泡排序 将每2…

Day59 代码随想录打卡|二叉树篇---把二叉搜索树转换为累加树

题目&#xff08;leecode T538&#xff09;&#xff1a; 给出二叉 搜索 树的根节点&#xff0c;该树的节点值各不相同&#xff0c;请你将其转换为累加树&#xff08;Greater Sum Tree&#xff09;&#xff0c;使每个节点 node 的新值等于原树中大于或等于 node.val 的值之和。…

浅聊Cookie

前言 在客户端使用Nuxt的useFetch调用接口并存储cookie&#xff0c;发现一些趣事~ cookie存储需要遵守同源策略~ 理论我们是知道的&#xff0c;但具体是怎么一回事呢~ 实现 在Nuxt中是这样的~ 直接访问 Nuxt <template><div>{{ data }}</div> </te…

【chatgpt】train_split_test的random_state

在使用train_test_split函数划分数据集时&#xff0c;random_state参数用于控制随机数生成器的种子&#xff0c;以确保划分结果的可重复性。这样&#xff0c;无论你运行多少次代码&#xff0c;只要使用相同的random_state值&#xff0c;得到的训练集和测试集划分就会是一样的。…

Vision Pro的3D跟踪能力:B端应用的工作流、使用教程和经验总结

Vision Pro的最新3D跟踪能力为工业、文博、营销等多个B端领域带来了革命性的交互体验。本文将详细介绍这一功能的工作流、使用教程,并结合实际经验进行总结。 第一部分:工作流详解 一、对象扫描 使用Reality Composer iPhone应用程序对目标对象进行3D扫描,如吉他或雕塑,…

粉笔1000题——判断推理

目录 一、图形推理1. 位置规律平移旋转、翻转 二、定义判断三、类比推理四、逻辑判断 一、图形推理 1. 位置规律 平移 旋转、翻转 二、定义判断 三、类比推理 四、逻辑判断