大数据——HDFS(分布式文件系统）

news2025/4/27 13:04:45

一，分布式系统概述

Hadoop的两大核心组件

HDFS（Hadoop Distributed Filesystem）：是一个易于扩展的分布式文件系统，运行在成百上千台低成本的机器上。HDFS具有高度容错能力，旨在部署在低成本机器上。HDFS主要用于对海量文件信息进行存储和管理，也就是解决大数据文件（如TB乃至PB级）的存储问题，是目前应用最广泛的分布式文件系统。

分布式系统的演变：

传统文件系统遇到的问题：

传统文件系统的问题：

•当数据量越来越大时，会遇到存储瓶颈，需要扩容；

•由于文件过大，上传下载都非常耗时

分布式文件系统的雏形：

•横向扩容，即增加服务器数量，构成计算机集群

•将大文件切割成多个数据块，将数据块以并行的方式，分布地在多个计算机节点上进行存储、读取

DHFS集群架构：

普通Hadoop集群结构由一个两阶网络构成。
机架内的节点之间、机架之间，通过光纤高速交换机完成彼此的连接与交互。
每个机架（Rack）有30-40个服务器，配置一个1GB的交换机，并向上连接到一个核心交换机或者路由器（1GB或以上）。

HDFS的集群中的节点分为两类：

• 名称结点（NameNode）：又称为主节点 (Master Node) ，存储元数据，元数据可看作是数据目录，存放一些其他服务器的信息（相当于一个代理服务器）；

• 数据节点（ DataNode）：又称为从节点（ Slave Node ）存储数据块，即实际数据。

DHFS的优点：

支持超大文件

流式数据读写

高数据吞吐量

硬件设备要求低

高容错性

……

一次写入、多次读取的流式数据访问模式：

•一次写入：	从数据源收集或生成的数据集，向HDFS中的文件一次性写入，关闭之后不可修改，只能在文件末尾追加。
•多次读取：	在该数据集上进行各种分析，每次分析都需要读取该数据集的大部分甚至全部数据
•流式数据访问：	读取数据文件就像流水一样，不是一次性过来而是 “流”过来，来一部分、处理一部分。例如，下载电影，用迅雷边下边播。

• 综上：即批量数据处理，不能随机读写、不能交互式处理

DHFS的缺点：

不适合低延迟数据访问

无法高效存储大量小文件

不支持多用户写入和修改

……

无法高效存储大量小文件：

由于名称节点将HDFS文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于名称节点的内存容量。一般每个文件、目录和数据块的元数据存储信息大约占150字节（B）。因此，如果有一百万个文件，且每个文件占一个数据块，那至少需要300MB的内存。尽管存储上百万个文件是可行的，但是存储数十亿个文件就超出了当前硬件的能力。

二，相关的概念

1,(block）数据块的概念：

• 在 HDFS 中，文件被拆分成多个数据块，在 Hadoop2.x 版本下，默认是 128MB ，每个块作为独立单元进行存储。

• 所有的块（ block ）同样大小，除了最后一个块

• 每个块备份3 份，存储于不同的数据节点 DataNode 中。

如果一个文件有1000MB则在hadoop2.x版本下，将会被分成7份128MB的数据块和一个0.812MB的数据块。

2，元数据

• HDFS中文件和目录的信息 ：文件名 (/user/data/File.txt )、目录名、父目录信息、文件大小、文件的创建修改时间等；

• 文件数据块及其存储信息 ：文件分块情况（块数、块的编号）、副本个数、每个副本所在的DataNode信息等；

• HDFS中所有DataNode的信息 ：用于DataNode管理。

/user/data/File.txt是文件所在的路径，有三个备份，2号，8号，9号，然后每个里面备份三个不同服务器的数据。

3,(NameNode）名称结点（我的理解是代理服务器）

NameNode 是 HDFS 集群的 主服务器 ，通常称为 名称节点 或者 主节点 。一旦 NameNode 关闭，就无法访问 Hadoop 集群。

主要作用：

• 存储、管理、更新 元数据

• 管理 客户端 对文件的访问，记录对文件系统的更改操作

4,(DtaNode)数据节点

数据节点是HDFS集群中的从服务器，称为数据节点，它与NameNode保持不断的通信，其主要作用：

• 负责 数据块 的存储和读取

• 根据客户端或名称节点的调度，存储并检索数据块，对数据块进行创建、删除等操作

• 向名称节点定期发送自己存储的数据块的列表信息（心跳信息）

• 每个数据节点存储的实际数据，保存在该节点本地的Linux文件系统中

总结图：

我的理解就是，你上传到服务器的数据，为了保证数据的安全性，如果一个服务器出现了问题，那么必须保证你的数据不能丢失，那么在其他服务器上也会备份一份出问题服务器的数据，以保证数据不丢失，就是一个存有你数据的服务器坏掉了，也不会影响你的数据。

以上仅仅是我的理解，仅供参考。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/440996.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

日撸 Java 三百行day34

日撸 Java 三百行day34

文章目录说明Day34 图的深度优先遍历1.思路2.代码3.总结1.在广度遍历中借助了队列2.在深度优先遍历借助了栈。说明闵老师的文章链接： 日撸 Java 三百行（总述）_minfanphd的博客-CSDN博客自己也把手敲的代码放在了github上维护&#xff1a…

阅读更多...

Android 开发之核心技术点——性能优化篇（带面试题）~

Android 开发之核心技术点——性能优化篇（带面试题）~

性能优化对于Android开发的重要性非常大。随着Android设备的不断升级，用户对应用的要求也越来越高，包括应用的运行速度、响应速度、流畅度等方面。如果应用的性能不能满足用户的需求，很可能会导致用户流失、差评以及应用被卸载等情况。另外…

阅读更多...

boot-admin整合flowable官方editor-app进行BPMN2.0建模

boot-admin整合flowable官方editor-app进行BPMN2.0建模

boot-admin整合flowable官方editor-app源码进行BPMN2.0建模正所谓百家争鸣、见仁见智、众说纷纭、各有千秋！在工作流bpmn2.0可视化建模工具实现的细分领域，网上扑面而来的是 bpmn.js 这个渲染工具包和web建模器，而笔者却认为使用flowable官…

阅读更多...

2023零基础快速跟上人工智能第一梯队

2023零基础快速跟上人工智能第一梯队

写在前面：有关人工智能学什么，怎么学，什么路线等一系列问题。我决定整理一套可行的规划路线，希望帮助准备入门的朋友们少走些弯路。下面我会推荐一个比较快速可行的学习模板，并附上我认为比较好的学习资料。新手不建…

阅读更多...

git使用规范文档

git使用规范文档

git使用规范文档 Git使用规范流程图开发人员操作步骤： 第一步：clone代码在你的本地代码库进行从远程仓库clone代码操作（100%表示clone完成） 进入项目文件，右键Git Bash Here 切换到你所进行开发的分支上拉取该分…

阅读更多...

JavaSE学习进阶day05_02 常见的数据结构和List接口

JavaSE学习进阶day05_02 常见的数据结构和List接口

第三章数据结构（掌握） 3.1 数据结构介绍数据结构 : 数据用什么样的方式组合在一起。科班出身的同学我想你对数据结构一点也不陌生，不知道你记不记得，当时学习数据结构的逻辑结构中的集合时，只是简单了解它&#…

阅读更多...

hackathon 复盘：niche 海外软件工具正确的方法 6 个步骤

hackathon 复盘：niche 海外软件工具正确的方法 6 个步骤

上周末，去参加了北京思否 hackathon，两天时间内从脑暴 & 挖掘软件 IDEA -> Demo 研发路演，这次经历让我难忘。这里我的看法是每个开发者圈友，都应该去参加一次 hackathon ~ 做 niche 软件正确的方法这边先说结论&#xf…

阅读更多...

vmware下Ubuntu系统中安装vscode

vmware下Ubuntu系统中安装vscode

文章目录前言：在线下载：离线下载包：配置C/C环境前言： 这篇博客是为后面交叉编译程序放到树莓派上运行做的准备。同时也是自己在装过程中的一个记录。在线与离线安装的唯一不同就是获取安装包是在线下载还是别的地方拷贝过来以…

阅读更多...

【数据结构】- 链表之单链表(中)

【数据结构】- 链表之单链表(中)

文章目录前言一、单链表(中)1.1 头删1.2尾删1.2.1第一种方法：1.2.2第二种方法：1.2.3多因素考虑二、完整版代码2.1 SList.h2.2 SList.c2.3 Test.c 总结前言千万不要放弃最好的东西总是压轴出场本章是关于数据结构中的链表之单链表(中) 提示&#…

阅读更多...

数据结构与算法基础（王卓）（26）线性表的查找（2）：顺序查找（二分查找、分块查找)

数据结构与算法基础（王卓）（26）线性表的查找（2）：顺序查找（二分查找、分块查找)

二、折半查找（二分或对分查找) 前置条件和前面一样最开始根据PPT示(实)例写出的程序框架： 一开始： low：第一位 high：最后一位 mid：正中间查找数小于mid： 把high移动到mid前面一位（…

阅读更多...

从0搭建Vue3组件库(四): 如何开发一个组件

从0搭建Vue3组件库(四): 如何开发一个组件

本篇文章将介绍如何在组件库中开发一个组件,其中包括如何本地实时调试组件如何让组件库支持全局引入如何在 setup 语法糖下给组件命名如何开发一个组件目录结构在packages目录下新建components和utils两个包,其中components就是我们组件存放的位置,而utils包则是存放一些…

阅读更多...

观看js编程范式笔记（函数式编程）

观看js编程范式笔记（函数式编程）

js为什么鼓励函数式编程？ JavaScript（简称 JS）是一种面向对象和函数式编程语言，但它在语言层面上更加鼓励函数式编程。以下是几个原因： 函数是一等公民：在 JavaScript 中，函数被视为一等公民&a…

阅读更多...

HANA SDA连接外部数据库到BW的步骤

HANA SDA连接外部数据库到BW的步骤

咱都知道，我们不能直接从BW连接到外部数据库。第一步得从HANA database通过SDA去建一个到外部DB的连接。数据库连接好了，那么接下来别忘了，还得建一个源系统。也就是说第一步，我们要用HANA SDA通过Linux ODBC driver去连接外部…

阅读更多...

Vue3表格（Table）

Vue3表格（Table）

Vue2表格（Table） 可自定义设置以下属性： 表格列的配置项（columns），类型：Array<{title?: string, width?: number, dataIndex?: string, slot?: string}>，默认 [] 表格数…

阅读更多...

史上最全面的苹果公司PMO的运作模式详解

史上最全面的苹果公司PMO的运作模式详解

01 苹果公司PMO的发展历程 1. 初期阶段： 在苹果公司刚创立的早期，没有明确的PMO组织。项目经理直接向CEO Steve Jobs汇报，项目管理在公司内部较为分散。 2. 1997年-2001年： 在这段时间内，苹果公司开始成立项目管理…

阅读更多...

PasteSpider之关于字符串模板占位字符等的说明

PasteSpider之关于字符串模板占位字符等的说明

PasteSpider中，构建，部署等都是通过命令执行的，为了更加的灵活，引入了不同的变量，以便适合不同的需求使用。命令占位符注！！！，占位符的格式为{{对象.属性}},他们之间没有…

阅读更多...

【LeetCode: 1691. 堆叠长方体的最大高度 | 暴力递归=＞记忆化搜索=＞动态规划】

【LeetCode: 1691. 堆叠长方体的最大高度 | 暴力递归=＞记忆化搜索=＞动态规划】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持，因为它具有很高的价值，算法就是这样✨ 🌲 作者简介：硕风和炜，…

阅读更多...

vue2+vue3——42+

vue2+vue3——42+

vue2vue3——42 vue2 v-cloak指令【14:14】调网速 ： no throttling 不让慢 ； offline 断网JS 阻塞红色外部JS ； 绿色网页核心 ； 粉色 JS 脚本红色外部JS 我要走不了， 谁都别想走 ： 绿色不可以渲染到页面…

阅读更多...

【安全与风险】互联网协议漏洞

【安全与风险】互联网协议漏洞

互联网协议漏洞互联网基础设施TCP协议栈因特网协议（IP）IP路由IP协议功能(概述)问题:没有src IP认证用户数据报协议（UDP）传输控制协议 (TCP)TCP报头TCP(三向)握手基本安全问题数据包嗅听TCP连接欺骗随机初始TCP SNs 路由的漏洞Arp…

阅读更多...

【OJ比赛日历】快周末了，不来一场比赛吗？ #04.15-04.21 #17场

【OJ比赛日历】快周末了，不来一场比赛吗？ #04.15-04.21 #17场

CompHub 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…）比赛。本账号同时会推送最新的比赛消息，欢迎关注！ 更多比赛信息见 CompHub主页或点击文末阅读原文以下信息仅供参考，以比赛官网为准目录 2023-04-15&…

阅读更多...

推荐文章

最新文章