【Hadoop|HDFS篇】HDFS概述

news2024/11/15 10:25:20

1. HDFS产出背景及定义

1.1 HDFS产生背景

随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系
统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这
就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。


1.2 HDFS 定义


HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目
录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务
器有各自的角色。
HDFS 的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭
之后就不需要改变。

2. HDFS的优缺点

2.1 HDFS的优点

高容错性:

  • 数据自动保存多个副本。它可以通过增加副本的形式,提高容错率。
  • 某个副本丢失后,它可以自动恢复。

适合处理大数据:

  • 数据规模:能够处理数据规模达到GB,TB,甚至是PB级别的数据。
  • 文件规模:能够处理百万规模以上的文件数量,数量相当之大。 

可构建在廉价的机器上,通过多副本机制,提高可靠性。

2.2 HDFS的缺点

1) 不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
2) 无法高效的对大量小文件进行存储。

  • 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;
  • 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。

3) 不支持并发写入、文件随机修改。

  • 一个文件只能有一个写,不允许多个线程同时写,
  • 仅支持数据append(追加),不支持文件的随机修改

3. HDFS的组成架构

1)NameNode(nn):就是master,它是一个主管,管理者。

  • 管理HDFS的名称空间。
  • 配置副本策略。
  • 管理数据块(Block)的映射信息。
  • 处理客户端读写请求。

2)DateNode:就是slave。NameNode下达命令,DateNode执行操作。

  • 存储实际的数据块。
  • 执行数据块的读写操作。

3)Client:就是客户端。

  • 文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传。
  • 与NameNode交互,获取文件的位置信息。
  • 与DataNode交互,读取或写入数据。
  • Client提供一些命令来管理HDFS,比如NameNode的格式化。
  • Client可以通过一些命令来访问HDFS,比如对HDFS的增删改查。

4)Secondary NameNode:并非NameNode热备。当NameNode挂掉的时候,并不能马上替换NameNode并提供服务。

  • 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode。
  • 在紧急情况下,可辅助恢复NameNode。

4. HDFS文件块大小

HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs blocksize)来规定,默认大小在Hadoop3.x/2.x版本是128M,1.x版本是64M.

为什么块的大小不能设置太大,也不能设置太小。

(1)HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置。

(2)如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据的时候,会非常慢。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2101656.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Oracle授权如何购买?多少钱?如何计算?

前言 作为DBA时常也会遇到一些商务的问题,比如购买Oracle 的授权,比如老板问用oracle有没有法律风险,这个组件是否收费?如何计算授权数?等等,本文根据博主的经验和一些Oracle公开的资料,来做一个…

DBNET文字检测

原文:DBNET文字检测 - 知乎 (zhihu.com) 一、DBNET介绍 DBNET核心采用的是基于分割的做法进行文本检测,即将每个文本块都进行语义分割,然后对分割概率图进行简单二值化、最终转化得为box或者poly格式的检测结果。除去网络设计方面的差异,最大特点是引入了Differentiable …

Python 从入门到实战6(二维列表)

我们的目标是:通过这一套资料学习下来,通过熟练掌握python基础,然后结合经典实例、实践相结合,使我们完全掌握python,并做到独立完成项目开发的能力。 之前的文章我们通过举例学习了python 中列表的相关操作&#xff0…

什么是阿凡达2.0直播模式?

要了解什么是什么是阿凡达2.0直播模式,首先要了解什么是的阿凡达直播模式。 我们知道真人直播,播不了几个小时,主播就讲累了。且真人主播的价格又贵,以小时计费。所以很多数字人厂商推出了数字人直播。用数字人代替真人直播。在前几年的时候…

强烈建议!重罚自燃车企

文 | AUTO芯球 作者 | 雷慢 想想就叫人害怕啊, 广东惠州电车自燃那个事,你们看了吗 3辆汽车和多辆电动自行车被烧毁,住宅变危房, 最触目惊心的还是浓烟,许多住户咳呛不止, 周边小区也惨遭浓烟毒害&…

Css:css的属性选择器vs关系选择器及css中伪元素

css的属性选择器&#xff1a; 注&#xff1a;属性值只能由数字&#xff0c;字母&#xff0c;下划线&#xff0c;中划线组成&#xff0c;并且不能以数字开头。 1、[属性] 选择含有指定属性的元素&#xff0c;用[]中括号表示。 <style> [title]{color:red;} p[title]{col…

「Python数据分析」Pandas进阶,使用groupby分组聚合数据(一)

在数据分析过程中&#xff0c;groupby语句&#xff0c;起到对原始数据集&#xff0c;进行分组和聚合的作用。我们在进行数据处理的时候&#xff0c;经常需要对不同的数据维度&#xff0c;以及不同的数据切片集合&#xff0c;进行操作和处理。 比如说&#xff0c;假设我们有全国…

零基础国产GD32单片机编程入门(十二)FreeRTOS实时操作系统移植含源码

文章目录 一.概要二.什么是实时操作系统三.FreeRTOS的特性四.FreeRTOS的任务详解1.任务函数定义2.任务的创建3.任务的调度原理 五.FreeRTOS系统移植到GD32F103C8T6单片机1.硬件准备2.程序移植3.调试FreeRTOS任务调度 六.工程源代码下载七.小结 一.概要 FreeRTOS是一个迷你的实…

海外直播对网速、带宽、安全的要求

要满足海外直播的要求&#xff0c;需要拥有合适的网络配置。在全球化的浪潮下&#xff0c;海外直播正逐渐成为企业、个人和各类组织的重要工具。不论是用于市场推广、品牌宣传&#xff0c;还是与观众互动&#xff0c;海外直播都为参与者带来了丰富的机会。然而&#xff0c;确保…

KTH2502 系列车规数字锁存霍尔效应传感器

KTH2502 采用了先进的斩波技术&#xff0c;集成了温度补偿电路和过流、负压保护电路&#xff0c;具有卓越的灵敏度和温度稳定 性。磁场通过数字双极锁存器输出指示。该芯片具有开漏输出级以及 30mA 的灌电流能力。 2.7~32 V 的宽电压工 作范围&#xff0c;反极性保护高达 -22…

渗透测试靶机--- DC系列 DC-9

渗透测试靶机— DC系列 DC-9 开启靶机&#xff0c;依旧登录窗&#xff0c;平平无奇 扫描信息 访问页面看看 页面中存在查询接口&#xff0c;这里页面输入的内容是get请求&#xff0c;可以尝试sql注入&#xff0c;如果是post请求&#xff0c;那么抓包。将请求体放入sqlmap跑一下…

太速科技-基于Kintex-7 XC7K160T 的CameraLink转四路光纤数据转发卡(Full Camera Link图像转万兆以太网适配器 )

基于Kintex-7 XC7K160T 的CameraLink转四路光纤数据转发卡&#xff08;Full Camera Link图像转万兆以太网适配器 &#xff09; 一、板卡概述 该板卡是一款CameraLink&#xff08;Full&#xff09;转4路光纤接口板&#xff0c;可以实现1路CamerLink Full模式的图像信号转换成…

Druid未授权访问解决

Druid未授权访问原因分析 漏洞说明&#xff1a;Druid由阿里巴巴数据库出品&#xff0c;为监控而生的数据库连接池&#xff0c;并且Druid可以提供监控&#xff0c;监控SQL的执行时间、监控Web URI的请求、Session监控等功能&#xff0c;使用广泛。 需要明确&#xff1a; Druid…

物联网(IoT)支持的小型水处理厂实时硬件在环(HIL)仿真

这篇论文的标题是《Real-Time Hardware-In-The-Loop Simulation of IoT-Enabled Mini Water Treatment Plant》&#xff0c;作者是 Mohamad Taib Miskon 等人&#xff0c;发表在 2024 年 IEEE 自动控制与智能系统国际会议&#xff08;I2CACIS&#xff09;上。以下是该论文的主要…

搭建 xxl-job 调度中心

文章目录 1、初始化“调度数据库”2、修改“调度中心”配置3、打包运行”调度中心“ 1、初始化“调度数据库” 请下载项目源码并解压&#xff0c;获取 “调度数据库初始化SQL脚本” 并执行即可。 “调度数据库初始化SQL脚本” 位置为&#xff1a;/xxl-job/doc/db/tables_xxl_j…

微服务日常总结

1.当我们在开发中&#xff0c;需要连接多个库时&#xff0c;可以在yml中进行配置。 当在查询的时候&#xff0c;跨库时&#xff0c;需要通过DS 注解来指定&#xff0c;需要yml配置需要保持一致。 2. 当我们想把数据存入到clob类型中&#xff0c;需要再字段 的占位符后面加上j…

鸢尾花书实践和知识记录[数学要素3-1万物皆数]

章节框图 文章目录 本章用到的函数使用math库来打印出一些常用的值判断奇数偶数两数加减产生序列矩阵向量的表示&#xff1a;取数组矩阵元素的方法streamlit的绘图矩阵的一般类型构造二维矩阵矩阵的加和运算 本章用到的函数 复数和自然数 使用math库来打印出一些常用的值 i…

多表查询_关联查询

inner join:通常关联项on后面的是主外键&#xff0c;两个表都有的才显示 left join:左连&#xff0c;select * from S left join B on s.字段 B.字段&#xff0c;一定会将左边表的数据全部查询出来 right join:select * from S right join B on s.字段 B.字段一定会将右边表的…

Unity面向对象补全计划 之 List<T>与class(非基础)

C# & Unity 面向对象补全计划 泛型-CSDN博客 关于List&#xff0c;其本质就是C#封装好的一个数组&#xff0c;是一个很好用的轮子&#xff0c;所以并不需要什么特别说明 问题描述 假设我们有一个表示学生的类 Student&#xff0c;每个学生有姓名和年龄两个属性。我们需要创…

Git学习尚硅谷(002 git常用命令)

尚硅谷Git入门到精通全套教程&#xff08;涵盖GitHub\Gitee码云\GitLab&#xff09; 总时长 4:52:00 共45P 此文章包含第8p-第p15的内容 文章目录 git常用命令设置用户签名初始化本地库查看本地库状态添加暂存区提交本地库日志查看修改文件版本穿梭 git常用命令 设置用户签名…