Hadoop HDFS

news2024/12/27 16:43:01

Hadoop HDFS

  • 分布式文件系统
    • 分布式文件系统的优点
  • HDFS(Hadoop分布式文件系统)
  • 应用常见
  • hdfs集群
  • 存储机制
  • 元数据管理
    • namespace

请添加图片描述

分布式文件系统

既然我们要学习hdfs那就不能不提分布式文件系统

文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问 和查找变得容易,以树形目录的抽象逻辑来对硬盘的数据块进行表示。在文件系统记录者各种数据和元数据

数据:指存储的内容本身

元数据:也叫解释性数据,也就是记录数据的数据,也就记录数据的各种信息

我们大家都知道大数据之所以叫大数据进士因为它具有海量的数据,但是这种海量的数据该如何进行储存呢,我们的计算机的硬盘物理接口也是有限的,不能够无限制的去加硬盘,在这样的环境下分布式文件系统就诞生了

分布式文件系统(Distributed File System,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连;或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的有层次的文件系统。DFS为分布在网络上任意位置的资源提供一个逻辑上的树形文件系统结构,从而使用户访问分布在网络上的共享文件更加简便。单独的 DFS共享文件夹的作用是相对于通过网络上的其他共享文件夹的访问点 。

分布式文件系统的优点

1、多机横向扩展:机器不够加机器,理论上无限扩展

2、元数据记录的功能对数据进行记录,快速对位文件的位置

3、分块存储,文件分块存储在不同机器,针对块并行操作提高效率

4、副本机制,不同机器设置备份,冗余存储,保障数据安全

HDFS(Hadoop分布式文件系统)

HDFS是Hadoop的核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在,

hdfs虽然将数据保存到多个机器中存储但是提供了一个统一访问接口

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sHmxKwxs-1672740886927)(C:\Users\HONOR\AppData\Roaming\Typora\typora-user-images\image-20230103174729312.png)]

应用常见

hdfs大多被应用于存储大量数据,而且存储上去数据基本不被修改。交互不频繁,以及一次存储多次访问等环境中

hdfs集群

HDFS集群是标准的主从架构集群hdfs集群是由一个Namenode和一定数目的Datanode组成Namenode是HDFS主节点,Datanode是HDFS从节,Namenode管理的元数据,Datanode复制对数据块的存储

存储机制

分块存储:HDFS中的文件在物理上是分块存储(block)的,默认大小是128M(134217728),不足128M则本身就是一块

副本机制:将文件进行分块后创建副本(默认值是3,也就是会额外再复制2份,连同本身总共3份副本)并分别存储到不同的datanode中,

hdfs数据的传输方式是通过pipline管道方式进行传输,成线形传输方式

元数据管理

在HDFS中,Namenode管理的元数据具有两种类型:

文件自身属性信息: 文件名称、权限,修改时间,文件大小,复制因子,数据块大小。

文件块位置映射信息 :记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点,方便快找到每个文件的block

namespace

它由Namenode对它进行维护任何对文件系统名称空间或属性的修改都将被Namenod记录下来。

愿君前程似锦,未来可期去💯,感谢您的阅读,如果对您有用希望您留下宝贵的点赞和收藏
本文章为本人学习笔记,学习网站为黑马程序员的Hadoop可以一起学习共同进步谢谢,如有请侵权联系,本人会立即删除侵权文章。可以一起学习共同进步谢谢,如有请侵权联系,本人会立即删除侵权文章。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/138098.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux DNS 解析与配置 nslookup使用 与 /etc/resolv.conf文件的配置

Linux DNS 解析与配置 序 当我接收到一批新的服务器时,尝试连接外网,比如访问百度的首页: curl www.baidu.com发现报错,不能解析正确的主机名。这个其实就是主机在解析主机名时没能正确发现对应的主机的 ip。当我们使用类似于域…

华为交换机配置笔记

交换机(Switch)是一种用于电信号转发的网络设备,它可以为接入交换机的任意两个网络节点提供独享的电信号通路,最常见的交换机是以太网交换机,其他常见的还有电话语音交换机、光纤交换机等,交换机是集线器的升级替代产品,理论上讲交换机就是按照通信两端传输信息的需求,将需要的…

ONES 入选极客公园「2022 中国创新力量 50 」榜单

极客公园调研发现,2022 年是企业服务的「双杀」转折点:内部造血的难度升级,外部输血的可能性降低。为了表彰逆流而上的企服公司,极客公园对其给予了重点鼓励和点评。其中,企业级研发管理平台 ONES 入选了极客公园 2022…

vue js游戏,抗疫小游戏,抗疫的汤圆,仅以此小游戏献给所有为抗击疫情做出贡献的人

vue js游戏,抗疫小游戏,抗疫的汤圆,仅以此小游戏献给所有为抗击疫情做出贡献的人 完整代码下载地址:vue js游戏,抗疫小游戏,抗疫的汤圆 建议在pc上使用Chrome浏览器进行访问,如果只能手机玩&a…

还不快收藏起来!何恺明全网最全论文合集

原创/文 BFT机器人 人物简介 何恺明,Facebook AI Research (FAIR) 的一名科学家,研究领域包括计算机视觉和深度学习,并且在计算机视觉和深度学习方面发表了众多极具影响力的论文。 他发表的论文中,有关深度残差网络 (ResNets) 的…

当下的零售新进化,同以往的电商时代还是有着很多区别的

一场数字化的浪潮,正在各行各业深刻上演着。在零售领域,亦不例外。以往,提及零售,我们更多地想到的是,各式各样的电商平台,我们看到的是,各式各样的电商模式;现在,提及零…

学习一下如何使用python实现一个超级卡哇伊的五角星吧

Hello呀朋友们~ 今天实在想不出要写啥了,但是前两天有朋友让我写一个五角星,这个好说呀,必须安排的妥妥当当的!!!!! 在这里我就不多说了,这个也挺简单的,那…

新代机床联网

一、设备信息确认 1、确认型号 数控面板拍照确认: 此系统为:6TA 2、确认通讯接口 1、数控面板的后面 2、其他位置 其他位置一般是前面两个位置用网线引出来后做的网口母头,常见在机床数控面板侧面,机床电器柜后面等等。 3、…

Kubernetes知识扫盲

1. Kubernetes介绍 1.1 应用部署方式演变 在部署应用程序的方式上,主要经历了三个时代: 传统部署:互联网早期,会直接将应用程序部署在物理机上 优点:简单,不需要其它技术的参与 缺点:不能为应…

SQL数据库—事务(ACID特性、数据库恢复技术)

各位朋友大家好,博主新创立了一个公众号《自学编程村》哈,感兴趣的可以也关注关注捏~~ 【简介】 它是由村长发起,然后邀请了一些小伙伴来作为自己的嘉宾,不定时的为大家分享学习、生活、信息。他们中间,有来自中国科学…

调整网关或iptables导致ssh连接未响应

同一子网之间可以相互连接,问题服务器可以通过同一子网的其他机器ssh连接,通过VPN可以直接连接到同一子网的其他服务器,但是无法直接连接问题服务器 ssh连接一直停在连接状态 xshell连接如图 问题服务器A无法上外网,之前调整过网…

node.js创建网站实例2

1.在cmd中输入:npm install express -s 2.在demo01文件夹中新建api.js,代码如下: // 1.先引入express模块,express是一个函数 var express require("express") //2.执行express函数;用变量接收express函数…

《图的基础概念》

【一】图的基本概念 图是由顶点集合和顶点之间的关系组成的一部分&#xff1a;G&#xff08;V&#xff0c;E&#xff09;&#xff0c;其中&#xff1a; 顶点集合V {x|x属于某个数据对象集}是有穷非空集合&#xff1b; E {(x,y)|x,y属于V}或者E {<x, y>|x,y属于V &…

ElasticSearch6.x版本的SpringBoot增删改查操作和ElasticSearch6.x版本的过滤查询

文章目录一、SpringBoot操作ElasticSearch前期准备工作二、SpringBoot增删改查ElasticSearch1.新增修改2.删除3.查询三、ElasticSearch中的过滤查询1.概念介绍2.过滤语法3.常见的过滤器类型① term filter② terms filter③ ranage filter④ exists filter⑤ ids filter一、Spr…

【阶段二】Python数据分析Pandas工具使用05篇:数据预处理:数据的规范化

本篇的思维导图: 数据预处理:数据的规范化 数据标准化(归一化)处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按…

LEETCODE 98. 验证二叉搜索树

给你一个二叉树的根节点 root &#xff0c;判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下&#xff1a; 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当前节点的数。所有左子树和右子树自身必须也是二叉搜索树。示例 1&#xff1a; 输入&a…

+ 数学与算法系列之牛顿、二分迭代法求解非线性方程

1. 前言 前文介绍了如何使用“高斯消元法”求解线性方程组。 本文秉承有始有终的态度&#xff0c;继续介绍“非线性方程”的求解算法。 本文将介绍 2 个非线性方程算法&#xff1a; 牛顿迭代法。二分迭代法。 牛顿迭代法&#xff08;Newtons method&#xff09;又称为牛顿…

C#,图像二值化(13)——基于双峰平均值的全局阈值算法与源程序

1、图像二值化概述 图像二值化是将彩色图像转换为黑白图像。大多数计算机视觉应用程序将图片转换为二进制表示。图像越是未经处理&#xff0c;计算机就越容易解释其基本特征。 二值化过程 在计算机存储器中&#xff0c;所有文件通常以灰度级的形式存储&#xff0c;灰度级具有…

Linux Free 命令

目录 Free命令有什么用 各项名词解释 服务器实际可用内存看哪个值 为什么free2是实际可用内存 结论 Free命令语法 Free命令有什么用 熟悉的都知道&#xff0c;这是用来Linux主机内存使用情况的。如下&#xff1a; 各项名词解释 可以把上图看为3部分&#xff0c;分别是 M…

介绍一个Python可视化神器,绘制出来的图表惊艳了所有的人!!

新年快乐&#xff0c;时间过得真的是很快&#xff0c;已经到了新的一年了&#xff0c;今天小编给大家来介绍一款十分好用的可视化模块&#xff0c;D3Blocks&#xff0c;不仅可以用来绘制可动态交互的图表&#xff0c;并且导出的图表可以是HTML格式&#xff0c;方便在浏览器上面…