Hadoop HDFS
- 分布式文件系统
- 分布式文件系统的优点
- HDFS(Hadoop分布式文件系统)
- 应用常见
- hdfs集群
- 存储机制
- 元数据管理
- namespace
分布式文件系统
既然我们要学习hdfs那就不能不提分布式文件系统
文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问 和查找变得容易,以树形目录的抽象逻辑来对硬盘的数据块进行表示。在文件系统记录者各种数据和元数据
数据:指存储的内容本身
元数据:也叫解释性数据,也就是记录数据的数据,也就记录数据的各种信息
我们大家都知道大数据之所以叫大数据进士因为它具有海量的数据,但是这种海量的数据该如何进行储存呢,我们的计算机的硬盘物理接口也是有限的,不能够无限制的去加硬盘,在这样的环境下分布式文件系统就诞生了
分布式文件系统(Distributed File System,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连;或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的有层次的文件系统。DFS为分布在网络上任意位置的资源提供一个逻辑上的树形文件系统结构,从而使用户访问分布在网络上的共享文件更加简便。单独的 DFS共享文件夹的作用是相对于通过网络上的其他共享文件夹的访问点 。
分布式文件系统的优点
1、多机横向扩展:机器不够加机器,理论上无限扩展
2、元数据记录的功能对数据进行记录,快速对位文件的位置
3、分块存储,文件分块存储在不同机器,针对块并行操作提高效率
4、副本机制,不同机器设置备份,冗余存储,保障数据安全
HDFS(Hadoop分布式文件系统)
HDFS是Hadoop的核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在,
hdfs虽然将数据保存到多个机器中存储但是提供了一个统一访问接口
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sHmxKwxs-1672740886927)(C:\Users\HONOR\AppData\Roaming\Typora\typora-user-images\image-20230103174729312.png)]
应用常见
hdfs大多被应用于存储大量数据,而且存储上去数据基本不被修改。交互不频繁,以及一次存储多次访问等环境中
hdfs集群
HDFS集群是标准的主从架构集群hdfs集群是由一个Namenode
和一定数目的Datanode
组成Namenode
是HDFS主节点,Datanode
是HDFS从节,Namenode管理的元数据,Datanode复制对数据块的存储
存储机制
分块存储:HDFS中的文件在物理上是分块存储(block)的,默认大小是128M(134217728),不足128M则本身就是一块
副本机制:将文件进行分块后创建副本(默认值是3,也就是会额外再复制2份,连同本身总共3份副本)并分别存储到不同的datanode中,
hdfs数据的传输方式是通过pipline管道方式进行传输,成线形传输方式
元数据管理
在HDFS中,Namenode管理的元数据具有两种类型:
文件自身属性信息: 文件名称、权限,修改时间,文件大小,复制因子,数据块大小。
文件块位置映射信息 :记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点,方便快找到每个文件的block
namespace
它由Namenode对它进行维护任何对文件系统名称空间或属性的修改都将被Namenod记录下来。
愿君前程似锦,未来可期去💯,感谢您的阅读,如果对您有用希望您留下宝贵的点赞和收藏
本文章为本人学习笔记,学习网站为黑马程序员的Hadoop可以一起学习共同进步谢谢,如有请侵权联系,本人会立即删除侵权文章。可以一起学习共同进步谢谢,如有请侵权联系,本人会立即删除侵权文章。