【大数据】HDFS概述(学习笔记)

news2024/10/5 5:32:57

一、文件系统、分布式文件系统

1、传统文件系统

文件系统是一种存储组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作。

文件系统使用树形目录抽象逻辑概念代替了硬盘等物理设备使用数据块的概念。

数据:指存储的内容本身。这些数据底层是存储在存储介质上的,用户只需要基于目录树进行增删改查即可,实际针对数据的操作由文件系统完成。

元数据(解释性数据):记录数据的数据。

文件系统元数据:指文件大小、最后修改时间、底层存储位置、底层存储位置、属性、所属用户、权限等信息。

2、分布式文件系统

1)分布式存储

单机纵向扩展:磁盘不够加磁盘,有上限瓶颈限制

多机横向扩展:机器不够加机器,理论上无限扩展

2)元数据记录

元数据记录下文件及其存储位置信息,快速定位文件位置

3)分块存储

文件分块存储在不同机器,针对块并行操作提高效率

4)副本机制

不同机器设置备份,冗余存储,保障数据安全

二、HDFS简介

HDFS:Hadoop分布式文件系统。

  • HDFS作为大数据生态圈最底层的分布式存储服务而存在。
  • 大数据首先要解决的问题就是海量数据的存储问题
  • 分布式说明HDFS是横跨在多台计算机上的存储系统。
  • HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的。
  • HDFS使用多台计算机存储文件,并且提供统一的访问接口

三、HDFS设计目标

HDFS具有故障检测和自动快速恢复。

HDFS用于批处理,而不是用户交互式的。(相较于数据访问的反应时间,更注重数据访问的高吞吐量。)

HDFS支持大文件,提供很高的聚合数据带宽。

write-one-read-many访问模型,文件不允许修改。简化了数据一致性问题,提高数据吞吐量。

移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效。将计算移动到数据附近,比之将数据移动到应用所在显然更好。

HDFS可从一个平台轻松移植到另一个平台。

四、HDTS重要特性

1、主从架构

HDFS集群是标准的master/slave主从架构集群。

HDFS集群是有一个Namenode和一定数目的Datanode组成。

Namenode是HDFS主节点,Datanode是HDFS从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。

2、分块存储

HDFS中的文件在物理上是分块存储的,默认大小是128M ,不足128M则本身就是一块。

3、副本机制

文件的所有block都会有副本。副本系数可以在文件创建的时候指定,也可以在之后通过命令改变。

副本数由参数dfs.replication控制,默认值是3,也就是会额外再复制2份 ,连同本身总共3份。

4、元数据记录

1、文件自身属性信息:文件名称 权限,修改时间,文件大小,复制因子,数据块大小。

2、文件块位置映射信息:记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点上。

5、目录树结构 Namespace

HDFS支持传统的层次型文件组织结构。

Namenode负责维护文件系统的namespace名称空间 ,任何对文件系统名称空间或属性的修改都将被Namenode记录下来。

HDFS会给客户端提供一个统一的抽象目录树

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1085662.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端发展趋势:WebAssembly、PWA 和响应式设计

文章目录 WebAssembly:超越JavaScript的性能渐进式Web应用(PWA):离线可用和更好的用户体验响应式设计:适应多种设备总结延伸阅读 🎉欢迎来到Java学习路线专栏~前端发展趋势:WebAssembly、PWA 和…

文本情感计算技术(深度)

文本情感计算技术的发展得益于社交媒体的蓬勃发展。文本情感计算的研究至今已有 20年的历史,仍是国内外学术界和产业界的研究热点。随着新技术的变迁、新任务的出现,以及更高性能算法需求的增长,文本情感计算涉及多项有挑战性的研究任务。文本…

git rebase与git merge图文详解(一文看懂区别)

git rebase与git merge图文详解 大家在工作中团队开发的时候对于拉取分支和合并代码时就会涉及到两种选择,git rebase与git merge: rebase:变基,会有一个干净的分支,但是对于记录来源不够清晰merge:合并&am…

有未经处理的异常: 0xC00000FD: Stack overflow 问题解决

Visual Studio 调试运行程序时出现xxx处有未经处理的异常(在 yyy.exe 中): 0xC00000FD: Stack overflow (参数: 0x0000000000000001, 0x000000015C203000) 报错 解决方法如下: 在属性 > 配置属性 > 链接器 > 系统 > 堆栈保留大小及堆栈提交大小&#…

C语言,标志法

标志法通常用来检查或者进行过程中一些状态变化。 有一些是为了观察变化&#xff0c;举出一些以往代码的例子&#xff1a; 1.找出一串数字中没有重复出现过的数字 #include <stdio.h> int main() {int arr[1000] { 0 };int n 0;scanf("%d", &n);int i…

布局--QT Designer

一、在我们使用Qt做界面设计时&#xff0c;为了界面的整洁美观&#xff0c;往往需要对界面中的所有控件做一个有序的排列&#xff0c;以及设置各个控件之间的间距等等&#xff0c;为此Qt为界面设计提供了基本布局功能&#xff0c;使用基本布局可以使组件有规则地分布。 1.1 基…

项目管理的优秀软件推荐,助力提升团队效能!

我们知道&#xff0c;每个产品在上市的过程中都需要经历市场调研、研发设计、功能测试、上市评估、营销推广等阶段。作为项目经理&#xff0c;最关键的任务不仅是确保产品的顺利孵化和上市&#xff0c;还有管理团队。我们研究了许多项目管理用户&#xff0c;工作的难点是如何在…

软件测试学习(三)易用性测试、测试文档、软件安全性测试、网站测试

目录 易用性测试 用户界面测试 优秀Ul由什么构成 符合标准和规范 直观 一致 灵活 舒适 正确 实用 为有残疾障碍的人员测试&#xff1a;辅助选项测试 测试文档 软件文档的类型 文档测试的重要性 软件安全性测试 了解黑客的动机 威胁模式分析 网站测试 网页基…

springBoot依赖管理机制

springBoot依赖管理机制 1、为什么导入starter-web所有相关依赖都导进来&#xff1f;2、为什么版本号都不用写&#xff1f;3、自定义版本号利用maven的就近原则 4、第三方的jar包 1、为什么导入starter-web所有相关依赖都导进来&#xff1f; 开发是什么场景导入什么场景启动器…

苍穹外卖(一)

苍穹外卖项目介绍 项目介绍 本项目&#xff08;苍穹外卖&#xff09;是专门为餐饮企业&#xff08;餐厅、饭店&#xff09;定制的一款软件产品&#xff0c;包括 系统管理后台 和 小程序端应用 两部分。其中系统管理后台主要提供给餐饮企业内部员工使用&#xff0c;可以对餐厅…

ACDSee Photo Studio Ultimate 2024特别版(图片编辑器)

ACDSee Photo Studio Ultimate 2024是一款功能全面、易于使用的图像编辑和管理软件&#xff0c;为摄影师和设计师提供了强大的工具和功能。无论您是进行基本的图像优化还是进行复杂的创作&#xff0c;ACDSee Photo Studio Ultimate 2024都将成为您的得力助手。 软件下载&#x…

u-boot 编译与运行

文章目录 u-boot 编译与运行环境配置ubuntu 版本qemu 版本u-boot 版本&#xff08;master&#xff09;交叉工具链版本 u-boot 源码下载编译情况一情况2编译报错解决编译日志编译产物 运行 u-boot 编译与运行 本文主要介绍 u-boot 编译&#xff0c;即 qemu 如何运行 u-boot 环…

堆1111111111111111

1)一个java进程对应这个一个JVM实例&#xff0c;Runtime&#xff0c;就对应着一个运行时数据区&#xff0c;一个进程中的多个线程&#xff0c;共享同一份堆空间和方法区&#xff0c;而栈和程序计数器使每一个线程私有的 2)通过-Xms10m -Xmx10m是初始堆空间和最大堆空间 3)堆空间…

Ceph介绍与部署

Ceph介绍与部署 一、存储基础1.1、单机存储设备1.1.1、单机存储的问题 1.2、商业存储解决方案1.3、分布式存储&#xff08;软件定义的存储 SDS&#xff09;1.3.1、分布式存储的类型 二、Ceph 简介三、Ceph 优势四、Ceph 架构五、Ceph 核心组件5.1、Pool中数据保存方式支持两种类…

LeetCode2562

public static long jointArrayData(int[] nums) {//定义变量存放数据long num 0;//头尾“相加”for (int i 0,j nums.length-1; i < j; i,j--) {if (i!j){//String.valueOf先将Int转String&#xff0c;进行字符串的连接&#xff0c;再用Integer.parseInt方法转回IntStri…

Qt Core篇 后端上位机界面开发

Qt Core篇 后端上位机界面开发 Qt Core 我选择了Qt,依旧度日如年&#xff0c;简单发布一篇&#xff0c;代表我还活着 Qt Core Qt Core是Qt框架的核心模块之一&#xff0c;它提供了一套跨平台的C类库&#xff0c;用于处理事件循环、线程、文件和目录操作、数据类型、日期和时间…

PTA 7-5 令人抓狂的四则运算

题目 曾记否&#xff0c;我们小学时&#xff0c;遇到这种四则运算&#xff0c;心情是抓狂的&#xff1a; 那么当我们学会使用计算机&#xff0c;自然是要程序去完成这个工作啦~ 现在请对输入的四则运算求值。注意&#xff1a; 四则运算表达式必定包含运算数&#xff0c;还可能…

2023NOIP A层联测10-子序列

给定一个长为 n n n 的仅有小写英文字母构成字符串 S S 1 S 2 ⋯ S n SS_1S_2\cdots S_n SS1​S2​⋯Sn​。我们定义一个字符串是好的&#xff0c;当且仅当它可以用两个不同的字母 x 和 y 表示成 xyxyxyx... 的形式。例如&#xff0c;字符串 abab、tot、z 是好的&#xff0c…

3.4 数据查询

思维导图&#xff1a; 前言&#xff1a; --- ### 概述 - 数据查询是数据库操作的核心&#xff0c;主要通过SQL中的SELECT语句来实现。 - SELECT语句提供了非常丰富的查询功能&#xff0c;包括单表查询、多表连接查询和嵌套查询等。 ### SELECT语句的基本格式 SELECT [ALL|D…

【MySQL】存储引擎简介、存储引擎特点、存储引擎区别

&#x1f40c;个人主页&#xff1a; &#x1f40c; 叶落闲庭 &#x1f4a8;我的专栏&#xff1a;&#x1f4a8; c语言 数据结构 javaEE 操作系统 Redis 石可破也&#xff0c;而不可夺坚&#xff1b;丹可磨也&#xff0c;而不可夺赤。 MySQL 一、MySQL体系结构二、存储引擎简介三…