Datawhale组队学习:大数据 D2——分布式文件系统(HDFS)

news2025/1/12 20:00:49

妙趣横生大数据 Day2

    • 三、Hadoop 分布式文件系统(HDFS)
      • 1. 分布式文件系统
      • 2. HDFS 简介
      • 3. HDFS 体系结构
      • 4. HDFS存储原理
        • 数据冗余存储
        • 数据存储策略
        • 数据错误与恢复
      • 5. HDFS数据读写过程
        • 读写过程
        • HDFS故障类型和其检测方法
      • HDFS编程实验
        • 1. 本地和集群文件间操作
        • 2. 基本文件操作
        • 3. Hadoop 系统操作

Datawhale在这里插入图片描述
大数据技术相关内容的导论课程:妙趣横生大数据 Juicy Big Data


三、Hadoop 分布式文件系统(HDFS)

1. 分布式文件系统

分布式文件系统:管理网络中跨多台计算机存储的文件系统;解决海量数据的高效存储。

文件采取“块”的方式存储,块是数据读取的基本单元。HDFS默认一个块大小为64MB(普通文件系统磁盘块为512字节),设计比较大的块的目的是为了最小化寻址开销;同时也要避免块过大影响MapReduce并行速度。

设计:“客户机/服务器”(Client/Server)

img

物理结构:

  • 主节点(Master Node),名称节点(NameNode)
    • 文件和目录的创建、删除和重命名
    • 管理数据节点和文件快的映射关系
  • 从节点(Worker Node),数据节点(DataNode)
    • 数据的存储和读取
img
  1. 分布式文件系统采用多副本存储,以保证数据完整性
  2. 分布式文件系统为大规模数据存储设计(TB级文件)

2. HDFS 简介

HDFS(Hadoop Distribute File System)

  • 是大数据领域中以分布式方式存储超大数据量文件的存储系统
  • HDFS是Hadoop和其他组件的数据存储层

优点:

  • 兼容廉价的硬件设备:实现在硬件故障的情况下也能保障数据的完整性
  • 流数据读写:不支持随机读写的操作
  • 大数据集:数据量一般在GB、TB以上的级别
  • 简单的文件模型:一次写入、多次读取
  • 强大的跨平台兼容性:采用Java语言实现

局限性:

  • 不适合低延迟数据访问:流式数据读取,较高延迟
  • 无法高效存储大量小文件:影响元数据减少效率、增加Mpa任务线程管理开销、数据节点间跳跃频繁影响性能
  • 不支持多用户写入及任意修改文件:一个文件只有一个写入者,只允许对文件追加操作

3. HDFS 体系结构

主从(Master/Slave)结构模型

一个HDFS集群包括:

  • 一个名称节点(NameNode)
  • 若干个数据节点(DataNode)
    • 周期性发送“心跳”信息,报告状态
img

【说明】用户使用 HDFS,

客户端存储时:

  1. 一个文件分为若干个数据块存储
  2. 每个数据块分布存储到若干个 DataNode 上

客户端读取时:

  1. 根据文件名从 NameNode 获取 数据块数据块位置(DataNode)
  2. 访问 DataNode 获取数据

【优点】提高了数据访问速度,读取一个文件时从不同 DataNode 上并发访问

4. HDFS存储原理

数据冗余存储

多副本方式,一个数据块的多个副本被分布到不同的数据节点上

  • 加快数据传输速度
  • 容易检出数据错误
  • 保证数据的可靠性
img

数据存储策略

  1. 数据存储

    • HDFS采用了以 **机架(Rack)**为基础的数据存放策略,一个HDFS集群通常包含多个机架

      • 不同机架之间的数据通信需要经过交换机或路由器
      • 同一机架的不同机器之间数据通信不需要交换机或路由器(通信带宽比不同机架间通信带宽大)
    • HDFS 默认每个数据节点都是在不同机架上

      • 缺点:写入数据的时候不能充分利用同一机架内部机器之间的带宽

      • 优点:1. 很高的数据可靠性

        ​ 2. 多机架并行读取数据,提高数据读取速度

        ​ 3. 更容易实现系统内部负载均衡和错误纠正

    • HDFS默认的冗余复制因子是 3

      • 每一个文件会被同时保存到 3 个地方
        • 两份副本放在同一个机架的不同机器上面
        • 第三个副本放在不同机架的机器上面
  2. 数据读取

    • HDFS提供了一个确定DataNode所属机架 ID 的 API,读取时就近读取
  3. 数据复制

    • 流水线复制(第一个DataNode写入数据后,会根据列表中DataNode将数据和列表传给第二个DataNode,以此类推)

数据错误与恢复

  1. NameNode 出错

    • NameNode 元数据信息同步存储到其他文件系统
    • 第二名称节点
  2. DataNode 出错

    • NameNode 没收到 DataNode 的‘心跳’信息,便定义为‘宕机’,数据标记为不可读,取消 I/O 请求
    • 名称节点检查发现某个数据的副本数量小于冗余因子时,启动数据冗余复制生成新的副本
  3. 数据出错

    • 网络传输磁盘错误
    • md5sha1校验、信息文件校验

5. HDFS数据读写过程

读写过程

翻译经典 HDFS 原理讲解漫画 之一----系统构成和写数据过程_笑寒x的博客-CSDN博客

img img

HDFS故障类型和其检测方法

  • 读写故障的处理
    • 读:从其他备份的节点读取(NameNode会返回数据块存在的所有DataNode)
    • 写:没有收到DataNode接受数据块的应答信号,调整通道跳过这个节点

翻译经典 HDFS 原理讲解漫画 之二----读数据和容错_笑寒x的博客-CSDN博客

  • DataNode故障处理

    • NameNode 表

      • 数据块列表:数据块N —— 存储在 DN1, DN2, DN3
      • DataNode列表:DATANODE 1 —— 存储数据块1,…,数据块N
    • 持续更新这两个表

    • 数据未充分备份会启动DataNode备份(前提是HDFS至少存在一个备份)

  • 副本布局策略

    • 第一个:就近
    • 后续:不同机架(每个机架最多存储两份副本)

翻译经典 HDFS 原理讲解漫画 之三—容错和副本布局策略_笑寒x的博客-CSDN博客

HDFS编程实验

1. 本地和集群文件间操作

# 拷贝目录到集群
hadoop fs -put <local dir> <hdfs dir>
# 拷贝文件
hadoop fs -put <local file> <hdfs dir>

# 拷贝到本地
hadoop fs -get < hdfs file or dir > < local file or dir>

# 拷贝并移除
hadoop fs -moveFromLocal <local src> <hdfs dst>

在这里插入图片描述

请添加图片描述

2. 基本文件操作

# 查看
hadoop fs -ls /    # -R: 包含子目录下文件

# 删除
hadoop fs -rm -r <hdfs dir> ...
hadoop fs -rm <hdfs file> ...

# 创建
hadoop fs -mkdir <hdfs path>

# 复制
hadoop fs -cp <hdfs file or dir>... <hdfs dir>

# 移动
hadoop fs -mv <hdfs file or dir>... <hdfs dir>
# 统计路径下的目录个数,文件个数,文件总计大小
hadoop fs -count <hdfs path>

#显示文件夹和文件的大小
hadoop fs -du <hdsf path>

# 查看文件
hadoop fs -cat /demo.txt
hadoop fs -tail -f /demo.txt

# 更改权限
hadoop fs -chown user:group /datawhale
hadoop fs -chmod 777 /datawhale

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ObVAZO1S-1676724750207)(HDFS/image-20230218171901366.png)]

# 本地文件内容追加到hdfs文件系统中的文本文件
hadoop fs -appendToFile <local file> <hdfs file>

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H9cJuM6m-1676724750207)(HDFS/image-20230218202538200.png)]

这里遇到一个错误:Failed to APPEND_FILE /p1 for DFSClient_NONMAPREDUCE_985284284_1 on 192.168.137.101 because lease recovery is in progress. Try again later.

解决:hdfs dfs -appendToFile error 问题解决_故事の尾音的博客-CSDN博客_hdfs appendtofile

# 修改 hdfs-stie.xml 文件
<!-- appendToFile追加 -->
<property>
        <name>dfs.support.append</name>
        <value>true</value>
</property>
 
<property>
        <name>dfs.client.block.write.replace-datanode-on-failure.policy</name>
        <value>NEVER</value>
</property>
<property>
        <name>dfs.client.block.write.replace-datanode-on-failure.enable</name>
        <value>true</value>
</property>

3. Hadoop 系统操作

# 改变文件在hdfs文件系统中的副本个数
hadoop fs -setrep -R 3 <hdfs path>

# 查看对应路径的状态信息
hdoop fs -stat [format] < hdfs path >

# %b:文件大小
# %o:Block大小
# %n:文件名
# %r:副本个数
# %y:最后一次修改日期和时间


# 手动启动内部的均衡过程(DataNode 数据保存不均衡)
hadoop balancer    # 或 hdfs balancer


# 管理员通过 dfsadmin 管理HDFS
hdfs dfsadmin -help
hdfs dfsadmin -report
hdfs dfsadmin -safemode <enter | leave | get | wait>

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WPScNjvH-1676724750207)(HDFS/image-20230218204809616.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IjuanMXa-1676724750208)(HDFS/image-20230218205017836.png)]


Datawhale在这里插入图片描述
大数据技术相关内容的导论课程:妙趣横生大数据 Juicy Big Data

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/354898.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java基本语法【未完待续】

目录 一、注释方式 1、单行注释 // 2、多行注释 /*...*/ 3、文档注释 /**....*/ 二、标识符和关键字 三、数据类型 拓展及面试题讲解 1、整数拓展 进制 二进制0b 八进制0 十六进制0x 2、字符拓展 编码Unicode表 2字节 0~65536 3、字符串拓展 4、布尔值拓展 四、类型…

CleanMyMac X软件下载及详细功能介绍

mac平台的知名系统清理应用CleanMyMac在经历了一段时间的测试后&#xff0c;全新设计的X正式上线。与CleanMyMac3相比&#xff0c;新版本的UI设计焕然一新&#xff0c;采用了完全不同的风格。使用Windows电脑时&#xff0c;很多人会下载各类优化软件&#xff0c;而在Mac平台中&…

jsp高校教职工管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 jsp 高校教职工管理系统 是一套完善的web设计系统&#xff0c;对理解JSP java编程开发语言有帮助mvc模式 serlvetdaobean方式开发&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式 开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#…

tomcat安装和配置

目录 1.下载tomcat 2.解压tomcat压缩包 3.配置端口号 4.启动 命令行窗口日志乱码的解决 5.验证 tomcat 如果已经安装配置过jdk&#xff0c;则向下执行&#xff0c;若无&#xff0c;请先安装jdk。 1.下载tomcat 路径&#xff1a; Apache Tomcat - Apache Tomcat 9 Sof…

Windows 系统从零配置 Python 环境,安装CUDA、CUDNN、PyTorch 详细教程

文章目录1 配置 python 环境1.1 安装 Anaconda1.2 检查环境安装成功1.3 创建虚拟环境1.4 进入/退出 刚刚创建的环境1.5 其它操作1.5.1 查看电脑上所有已创建的环境1.5.2 删除已创建的环境2 安装 CUDA 和 CUDNN2.1 查看自己电脑支持的 CUDA 版本2.2 安装 CUDA2.3 安装 CUDNN2.4 …

LabVIEW中CPU和内存使用情况在NI分布式系统管理器中不可见

LabVIEW中CPU和内存使用情况在NI分布式系统管理器中不可见想使用NI分布式系统管理器监测网络连接实时控制器的CPU和内存使用情况。从左侧窗口的树中选择了感兴趣的实时目标&#xff0c;然后通过选择视图自动视图来确保启用自动查看。希望看到CPU/内存选项卡&#xff0c;但它有显…

算法导论【在线算法】—The Ski-Rental Problem、The Lost Cow Problem、The Secretary Problem

算法导论【在线算法】The Ski-Rental Problem问题描述在线算法证明The Lost Cow Problem问题描述在线算法类似问题—寻宝藏The Secretary Problem问题描述在线算法The Best Possible kThe Ski-Rental Problem 问题描述 假设你正在上滑雪课。每节课结束后&#xff0c;你决定&a…

【Element】el-table 表格

目录 ElementUI 表格分页&#xff08;每页20条&#xff09; 表格分页&#xff08;全部数据&#xff09; 表格排序&#xff08;全部数据&#xff09; 表格排序&#xff08;默认&#xff09; 两个el-table冲突 加载数据前显示“ 暂无数据 ” 表格项为路由 表头样式 树形…

Homebrew 安装遇到的问题

Homebrew 安装遇到的问题 例如&#xff1a;第一章 Python 机器学习入门之pandas的使用 文章目录Homebrew 安装遇到的问题前言一、安装二、遇到的问题1.提示 zsh: command not found: brew三、解决问题前言 使用 Homebrew 能够 安装 Apple&#xff08;或您的 Linux 系统&#…

React 合成事件理解

1 事件三个阶段 捕获、目标、处理 &#xff08;具体百度&#xff0c;后面有空补全&#xff09;2import React from "react";class Test extends React.Component {parentRef;childRef;constructor(props) {super(props);this.parentRef React.createRef();this.chil…

cmd 窗口、记事本打开后一片空白且几秒钟后闪退的问题解决方案汇总

前言 前段时间&#xff0c;电脑忽然出现了问题&#xff0c;首先是通过 微软应用商店 Microsoft Store 下载安装的 Snipaste 截图软件崩溃&#xff0c;不过将其卸载后&#xff0c;通过电脑管家下载后又可以正常使用了。 之后就是突然发现&#xff0c;记事本文本文档不能使用了…

分享112个HTML娱乐休闲模板,总有一款适合您

分享112个HTML娱乐休闲模板&#xff0c;总有一款适合您 112个HTML娱乐休闲模板下载链接&#xff1a;https://pan.baidu.com/s/15uBy1SVSckPPMM55fiudeQ?pwdkqfz 提取码&#xff1a;kqfz Python采集代码下载链接&#xff1a;采集代码.zip - 蓝奏云 Bootstrap视频网站模板 …

Terraform基础入门 (Infrastructure as Code)

文章目录前言介绍Terraform 术语Terraform 如何工作关于provider安装开启本地缓存demo1(dockernginx)demo2(dockerzookeeperkafka)参考资料前言 像写代码一样管理基础设施。 Terraform 使用较为高级的配置文件语法来描述基础设施&#xff0c;这个特性让你对配置文件进行版本化…

Ubuntu升级cmake

目录 1、下载cmake安装包 2、开始安装 3、查看cmake版本 参考链接&#xff1a; https://blog.csdn.net/qq_27350133/article/details/121994229 1、下载cmake安装包 cmake安装包下载&#xff1a;download | cmake 我们根据自身需求下载所需版本的cmake安装包&#xff0c;这…

万字干货 | 荔枝魔方基于云原生的架构设计与实践

近年来&#xff0c;荔枝集团在国内和海外的业务迅速发展&#xff0c;业务数据规模也是成几何式地增长&#xff0c;海量数据的计算分析场景、业务智能算法应用需求随之而生&#xff0c;为了快速地满足业务发展的需要&#xff0c;我们面临着诸多的技术挑战。技术挑战工程问题资源…

计算机如何思考与图灵完备

图灵完备是针对一套数据操作规则而言的概念,数据操作规则可以是一门编程语言,也可以是计算机实现里面的指令集,比如C/C++是图图灵完备的,通用CPU也是图灵完备的,但是GPU却不一定是图灵完备的。说白了图灵完备定义了一套规则,当这套规则可以实现图灵迹模型里的全部功能时,…

Unreal Engine09:自定义Pawn运动组件

写在前面 这里介绍一下如何为Pawn定制自定义的运动组件。 一、新建一个运动组件C类 需要在Editor中新建类&#xff0c;不要直接Visual Studio中新建&#xff1b;Pawn的运动组件继承自UPawnMovementComponent&#xff0c;需要勾选显示所有类才能找到&#xff1b; 初始时&…

【PowerQuery】PowerBI 的PowerQuery支持的数据集成

PowerBI中的各个Power组件已经被深度集成到PowerBI中,不再作为像Excel一样的独立组件而存在。在PowerBI的界面中为了快速导入这些常用的数据,也有相应的快速导入界面。PowerBI的快速导入界面位于主页面中,下图就是PowerBI的快速导入界面。 在PowerBI中的数据导入界面相比Exc…

Leetcode.958 二叉树的完全性检验

题目链接 Leetcode.958 二叉树的完全性检验 Rating : 1703 题目描述 给定一个二叉树的 root&#xff0c;确定它是否是一个 完全二叉树 。 在一个 完全二叉树 中&#xff0c;除了最后一个关卡外&#xff0c;所有关卡都是完全被填满的&#xff0c;并且最后一个关卡中的所有节点…

【郭东白架构课 模块一:生存法则】11|法则五:架构师为什么要关注技术体系的外部适应性?

你好&#xff0c; 我是郭东白。 前四条法则分别讲了目标、资源、人性和技术周期&#xff0c;这些都与架构活动的外部环境有关。那么今天我们来讲讲在架构活动内部&#xff0c;也就是在架构师可控的范围内&#xff0c;应该遵守哪些法则。今天这节课&#xff0c;我们就先从技术体…