优质博文:IT-BLOG-CN
一、HDFS 概述
HDFS 产生背景: 随着数据量越来越多,一个系统存储不下所有的数据,那么就需要分配到多个操作系统的磁盘中进行存储,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统的一种。
HDFS 定义: HDFS(Hadoop Distributed File System)分布式文件系统,用于存储文件,通过目录树来定位文件,其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
HDFS 的使用场景: 适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。
二、HDFS 优缺点
优点:
【1】容错性: 数据自动保存多个副本。通过增加副本的形式,提高容错性。如下三个副本中其中一个副本挂掉了:
某一个副本丢失以后,它可以自动恢复
【2】适合处理大数据:数据规模:能够处理数据规模达到 GB、TB、甚至 PB级别的数据。文件规模:能够处理百万规模以上的文件数量,数量相当之大。
【3】可以构建在廉价机器上,通过多副本机制,提高可靠性。
缺点:
【1】不适合低延时数据访问:比如毫秒级的存储数据,是做不到的。
【2】无法高效对大量小文件进行存储:存储大量小文件的话,它会占用 NameNode 大量的内存来存储文件目录和块信息。这样是不可取的,因为 NameNode的内存总是有限的。同时,小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
【3】不支持并发写入、文件随机修改:一个文件只能有一个写,不允许多个线程同时写。仅支持数据 append(追加),不支持文件的随机修改。
三、HDFS 组成架构
HDFS(Hadoop Distributed File System)的架构概述,易懂版,如图所示。
HDFS 组成架构(官网)
【1】NameNode(nn): 就是Master,作为管理者:
(1)管理 HDFS 的名称空间;
(2)配置副本策略;
(3)管理数据块(Block)的映射信息;
(4)处理客户端读写请求;
【2】DataNode: 就是 Slave。NameNode 下达命令,DataNode 执行实际操作。
(1)存储实际的数据块;
(2)执行数据块的读/写操作;
【3】Secondary NameNode: 非 NameNode 的热备。当 NameNode 挂掉时,它并不能马上替换 NameNode 并提供服务。
(1)辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;
(2)在紧急情况下,可辅助恢复 NameNode;
【4】Client: 客户端
(1)文件切分。文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;
(2)与 NameNode 交互,获取文件的位置信息;
(3)与 DataNode 交互,读取或者写入数据;
(4)Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;
(5)Client 可以通过一些命令来访问 HDFS,比如对 HDFS 的增删改查操作;
【5】副本的复制策略: 首先 HDFS副本复制策略基于的前提是机架感知,对此首先需要了解网络的带宽是如何计算:
(1)相同机架的不同节点之间的网络传输速度都是2;
(2)不同机架的不同节点之间的网络传输速度是4;
【策略如下】:
第一个副本:如果客户端在当前 DataNode节点上发送请求,第一个副本就保存在客户端所在的节点上(遵循就近原则) 如果客户端不在集群的任意节点上,则随机选择一个节点保存副本;
第二个副本:和第一个副本不同的机架上的随机节点上 (为了保证数据的安全) ;
第三个副本:和第二个副本在同机架的不同节点上(为了副本的复制速度) ;
四、HDFS 文件块大小
HDFS 中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认在 Hadoop2.x版本中是 128M,老版本是 64M。
HDFS 块大小设置: 为什么块的大小不能设置太小,也不能设置太大
【1】HDFS 块设置太小,会增加寻址时间,程序一直在找块的位置;
【2】如果块设置的太大,从磁盘传输数据的时间会明显大于块定位的时间。导致程序在处理块数据时,会非常慢。
总结: HDFS 块的大小设置取决于磁盘传输速率