大数据存储技术笔记

news2025/1/10 16:47:56

目录

大数据的特性

HDFS 读流程的基本步骤

HDFS 写流程的基本步骤

Mapreduce的执行过程

MapReduce 中 combiner 作用

hadoop 调度器及其工作方法

Hive 中内部表与外部表区别(创建删除角度)

Hadoop 的 2 个主要组件及其功能

Hadoop MapReduce 的工作流程

正常工作的 hadoop 集群中 Hadoop 分别启动哪些进程及其作用

Hadoop 中的 NameNode 和 DataNode 分别承担的角色

Hadoop 集群中的 NameNode 如何保证单点故障问题

Hadoop 中的 Block 是什么及其作用

Hadoop 在大数据处理中的优势

FsImage 镜像文件和 EditLog 日志文件 HDFS 中提供的 Secondary NameNode 节点的职责

Hadoop 中的分区器(Partitioner)的作用

YARN 提交作业的流程


大数据的特性

全样而非抽样、效率而非精确 、相关而非因果

HDFS(Hadoop Distributed File System)的读流程主要涉及客户端(Client)、NameNode 和 DataNode 之间的交互。

HDFS 读流程的基本步骤

文件切分(对于上传操作): 当文件上传到 HDFS 时,客户端(Client)首先将文件切分成一个个的数据块(Block),然后进行上传。

与 NameNode 交互: 客户端向 NameNode 发送请求,获取要读取文件的位置信息。这个位置信息包括了组成该文件的所有数据块(Block)以及它们所在的 DataNode 的地址。

与 DataNode 交互: 一旦客户端获得了文件的数据块及其所在的 DataNode 的位置信息,它就会与这些 DataNode 进行交互,以读取数据。 客户端可能会并行地从多个 DataNode 读取数据块,以提高读取效率。

数据读取: 客户端从 DataNode 读取数据块,并在本地重新组装这些数据块,以还原原始文件。

关闭连接: 当文件读取完成后,客户端关闭与 DataNode 和 NameNode 的连接。

HDFS(Hadoop Distributed File System)的写流程涉及客户端(Client)、NameNode 和 DataNode 之间的交互。

HDFS 写流程的基本步骤

客户端发起请求: 客户端(Client)首先向 HDFS 的 NameNode 发送写入文件的请求。NameNode 是 HDFS 的 主节点,负责管理文件系统的命名空间和元数据信息。

NameNode 响应请求: NameNode 接收到客户端的请求后,会检查自身是否正常运行,判断要创建的文件是否存在, 以及客户端是否具有创建文件的权限。如果以上检查都通过,NameNode 会在 HDFS 文件系 统中创建一个空文件,并将这一操作记录在 edits.log 文件中。如果检查中有任何一项未通过, NameNode 会向客户端抛出异常,文件创建失败。

文件切分: 客户端将待写入的文件切分成固定大小的数据块(通常为 128MB)。每个数据块都会被分配一个唯一的块标识符。

数据块副本选择: 在写入数据块之前,客户端需要选择数据块的副本位置。这通常是基于 HDFS 的副本放置策略,旨在减少数据传输的开销和延迟。

数据块写入: 客户端将数据块分别发送给副本位置所在的 DataNode。DataNode 接收到数据块后,会将数据块暂存到本地磁盘上的临时文件中。

数据块复制: 一旦数据块被写入到一个 DataNode 的临时文件中,该 DataNode 会将其复制到其他副本位置所在的 DataNode 上。

副本确认: 当所有副本都完成数据写入后,DataNode 会向客户端发送副本确认信息。客户端收到所有副本的确认信息后,将告知 NameNode 数据块的写入完成。

Mapreduce的执行过程

MapReduce 中 combiner 作用

Hadoop 中的 Combiner 是 MapReduce 作业中的一个可选组件,用于在 Map 阶段对输出数据进行部分聚合。

Combiner 可以减少 Map 和 Reduce 之间传输的数据量,从而降低网络带宽的消耗。

同时,Combiner 还可以减少 Reduce 阶段的计算量,提高作业的执行效率。

hadoop 调度器及其工作方法

Fifo schedular:默认,先进先出的原则。

Capacity schedular:计算能力调度器,选择占用最小,优先级高的先执行,以此类推。

Fair schedule:公平调度,所有的 job 具有相同的资源。

Hive 中内部表与外部表区别(创建删除角度)

创建表阶段: 外部表创建表的时候,不会移动数到数据仓库目录中(/user/hive/warehouse),只会记录表数 据存放的路径,内部表会把数据复制或剪切到表的目录下。

删除表阶段: 外部表在删除表的时候只会删除表的元数据信息不会删除表数据,内部表删除时会将元数据 信息和表数据同时删除

Hadoop 的 2 个主要组件及其功能

Hadoop 主要由两个核心组件组成:Hadoop Distributed File System (HDFS) 和 MapReduce。

HDFS:Hadoop 的分布式文件系统,用于存储和管理大数据集。它采用主/从架构,包括一个 NameNode(主节点)和多个 DataNode(从节点)。NameNode 管理文件系统的元数据, 而 DataNode 存储实际的数据块。

MapReduce:Hadoop 的编程框架,用于处理存储在 HDFS 中的大数据。它将复杂的数据处 理任务分解为两个主要阶段:Map 阶段和 Reduce 阶段。Map 阶段将数据划分为多个键值对,Reduce 阶段则对这些键值对进行聚合和输出。

Hadoop MapReduce 的工作流程

输入阶段:MapReduce 作业从 HDFS 或其他输入源读取数据。

Map 阶段:Map 任务将输入数据划分为多个键值对,并对其进行处理。处理结果作为中间 键值对输出到本地磁盘。

Shuffle 阶段:MapReduce 框架将 Map 任务输出的中间键值对按照键进行排序和分组,并将 相同键的值传递给 Reduce 任务。

Reduce 阶段:Reduce 任务接收 Shuffle 阶段传递过来的键值对,对它们进行聚合处理,并将 结果输出到 HDFS 或其他输出源。

输出阶段:MapReduce 作业将 Reduce 任务输出的结果存储到 HDFS 或其他输出目标。

正常工作的 hadoop 集群中 Hadoop 分别启动哪些进程及其作用

Namenode:管理集群,并记录 datanode 文件信息。

Secondnamenode:可以做冷备,对一定范围内数据做快照性备份。

Datanode:存储数据 。

ResourceManager:负责集群中所有资源的统一管理和分配,它接收来自各个节点 (nodemanager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是 applicationmanager)

NodeManager:是 yarn 中每个节点上的代理,它管理 hadoop 集群中单个计算节点,包括与 resoucemanager 保持通信,监督 container 的生命周期管理,监控每个 container 的资源 使用(内存、cpu 等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务。

Hadoop 中的 NameNode 和 DataNode 分别承担的角色

NameNode:NameNode 是 HDFS 中的主节点,负责维护文件系统的元数据,如文件目录结 构、文件块与 DataNode 的映射关系等。它不接受客户端的读写请求,而是将请求转发给 DataNode,并协调数据的读写操作。

DataNode:DataNode 是 HDFS 中的从节点,负责存储实际的数据块。客户端通过与 NameNode 通信获取数据块的存储位置,然后直接与 DataNode 进行数据的读写操作。DataNode 还会定 期向 NameNode 发送心跳信息,以报告自身的状态和数据块的完整性。

Hadoop 集群中的 NameNode 如何保证单点故障问题

Hadoop 集群中的 NameNode 单点故障问题可以通过设置 NameNode 的高可用性(HA)来解 决。

HA 配置使用两个 NameNode 实例,一个处于活动状态(Active),另一个处于备用状态 (Standby)。

当活动 NameNode 出现故障时,备用 NameNode 会自动接管其工作,从而确保集群的连续 性和可用性。

此外,还可以使用 Zookeeper 等分布式协调服务来监控和管理 NameNode 的状态和切换过程。

Hadoop 中的 Block 是什么及其作用

Hadoop 中的 Block 是 HDFS 中数据存储的基本单位,通常大小为 128MB(可配置)。HDFS 将数据划分为多个 Block,并将它们分散存储在集群中的多个 DataNode 上。

这种设计提高了数据的可靠性和可扩展性,因为每个 Block 都有多个副本存储在不同的节点上,并且可以通过增加节点来扩展存储能力。

Hadoop 在大数据处理中的优势

可扩展性:Hadoop 能够处理 PB 级甚至更大的数据集,通过增加节点可以轻松地扩展集群的处理能力。

容错性:Hadoop 采用分布式存储和计算的方式,将数据分散存储在多个节点上,并通过数据冗余和故障恢复机制保证数据的高可用性。

灵活性:Hadoop 支持多种编程语言和工具进行数据处理,如 Java、Python 等,同时提供了丰富的 API 和生态系统供开发者使用。

成本效益:Hadoop 运行在普通硬件上,相比传统的高性能计算集群具有更低的成本。同时, Hadoop 的开源特性使得用户可以免费获取和使用它。

FsImage 镜像文件和 EditLog 日志文件 HDFS 中提供的 Secondary NameNode 节点的职责

FsImage 镜像文件用于存储整个文件系统命名空间的信息,EditLog 日志文件用于持久化记录文件系统元数据发生的变化。

Secondary NameNode 节点主要是周期性的把 NameNode 中的 EditLog 日志文件合并到 FsImage 镜像文件中,从而减小 EditLog 日志文件的大小,缩短集群重启时间,并且也保证 了 HDFS 系统的完整性。

Hadoop 中的分区器(Partitioner)的作用

在 Hadoop 的 MapReduce 作业中,分区器用于确定 Map 阶段输出的键值对应该发送到哪个 Reducer 进行处理。

分区器根据键的哈希值或其他逻辑将数据划分为不同的分区,并将每个分区的数据发送到对应的 Reducer。

这种设计可以确保具有相同键的数据被发送到同一个 Reducer 进行处理,从而便于在 Reduce 阶段进行聚合操作。

YARN(Yet Another Resource Negotiator)是 Hadoop 的一个资源管理系统,它负责集群中的 资源管理和作业调度。

YARN 提交作业的流程

作业提交: Client(客户端)调用 job.waitForCompletion 方法,向整个集群提交 MapReduce 作业。 Client 向 ResourceManager(RM)申请一个作业 ID。 RM 给 Client 返回该 job 的资源提交路径和作业 ID。 Client 提交 jar 包、切片信息和配置文件到指定的资源提交路径。 Client 提交完资源后,向 RM 申请运行 MRAppMaster(MapReduce 应用程序主)。

作业初始化: 当 RM 收到 Client 的请求后,将该 job 添加到容量调度器中。 某一个空闲的 NodeManager(NM)领取到该 Job。 该 NM 创建 Container,并产生 MRAppMaster。 下载 Client 提交的资源到本地。

资源分配: MRAppMaster 与 RM 的应用程序管理器(Application Manager)进行交互,协商以获取运行 作业所需的资源。 RM 的调度器根据集群的资源情况和配置的调度策略(如容量调度、公平调度等),将资源 分配给 MRAppMaster。

任务执行: MRAppMaster 将获取到的资源分配给各个 NM。 NM 上的 Executor(执行器)根据分配到的资源和作业的具体任务,开始执行 Map Task 或 Reduce Task。

作业监控和完成: RM 的应用程序管理器负责监控 MRAppMaster 的运行状态,并在必要时进行重启。 当所有任务执行完毕后,MRAppMaster 通知 RM 作业已完成。 Client 通过 RM 获取作业完成状态,并获取结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1849746.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

百余App通过蚂蚁数科mPaaS启动鸿蒙开发测试

6月21日,在华为开发者大会主论坛上,蚂蚁数科mPaaS公布了三方生态共建进展:华夏银行、广发银行、中石油、中国移动等200余App启动鸿蒙开发测试。此前,该产品已全量适配鸿蒙100余个SDK,并提供20余项安全能力,…

vue3中h函数的使用

h函数是用于创建一个 vnodes ,它既可以用于创建原生元素,也可以创建组件,其渲染后的效果等同于使用模版语言来进行创建。 h函数的传参如下: // 完整参数签名 function h(type: string | Component,props?: object | null,child…

XMLXXE实体注入

XML&XXE实体注入 原理 XML被设计为传输和存储数据,XML文档结构包括XML声明、DTD文档类型定义(可选)、文档元素,其焦点是数据的内容,其把数据从HTML分离,是独立于软件和硬件的信息传输工具。等同于JSO…

h5兼容问题 复制粘贴移动端无法粘贴复制内容

const selectText (textbox, startIndex, stopIndex) > {if (textbox.createTextRange) {//ieconst range textbox.createTextRange();range.collapse(true);range.moveStart(character, startIndex);//起始光标range.moveEnd(character, stopIndex - startIndex);//结束光…

Web渗透:XSS-DOM-based XSS

DOM-based XSS(基于DOM的跨站脚本攻击)是一种XSS攻击类型,其特点是恶意脚本通过操作文档对象模型(DOM)直接在客户端执行,而无需经过服务器的处理。这种攻击主要利用客户端JavaScript代码中的漏洞&#xff0…

如何利用数据仓库进行业务分析:一名大数据工程师的视角

在大数据时代,数据的有效利用对企业的成功至关重要。 本文将基于上面的流程图,详细介绍如何利用数据仓库进行业务分析,并提供实际的例子和代码演示,以帮助读者更好地理解和应用相关技术。 数据仓库的基本流程 上图展示了一个典…

【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验6 生成树协议STP的功能

一、实验目的 1.验证以太网交换机生成树协议的功能; 2.理解网络环路对网络的负面效应; 3.理解生成树协议的作用。 二、实验要求 1.使用Cisco Packet Tracer仿真平台; 2.观看B站湖科大教书匠仿真实验视频,完成对应实验。 三、实…

【2024最新精简版】网络_Linux操作系统面试篇

文章目录 简述 tcp 和 udp的区别?get 和 post 请求有哪些区别?常用HTTP请求方式有哪些 ?进程跟线程的区别?僵尸进程?IO的多路复用?虚拟内存什么是OSI模型说一说HTTP协议说一说HTTPS协议HTTPS协议和HTTP协议有什么区别…

使用阿里开源的Spring Cloud Alibaba AI开发第一个大模型应用

背景 前段时间看到Spring推出了SpringAI,可以方便快速的接入ChatGPT等国外的大模型,现在阿里巴巴也紧追脚步推出了Spring Cloud Alibaba AI,Spring Cloud Alibaba AI 目前基于 Spring AI 0.8.1 版本 API 完成通义系列大模型的接入。通义接入…

PHP发送HTML邮件的步骤?设置模板的技巧?

PHP发送HTML邮件怎么设置模板?如何用PHP群发邮件? PHP提供了强大的功能来发送HTML格式的电子邮件,这在需要发送格式化内容的邮件时特别有用。AokSend将详细介绍PHP发送HTML邮件的步骤,涵盖了必要的准备工作和实际操作过程。 PHP…

离线源码编译安装zabbix-agent

文章目录 1,先进zabbix官网下载zabbix的源码包2,把这个zabix源码包上传到需要安装的目标机器上去3,编译安装3.1 ,解压软件包得到一个zabbix-5.0.42的文件夹3.2,进入/vdb/zabbix-5.0.42文件夹,依次执行命令 …

STM32单片机USART串口收发数据包

文章目录 1. 串口通信 1.1 串口初始化 1.2 库函数 2. 串口收发HEX数据包 2.1 Serial.c 2.2 Serial.h 2.3 main.c 3. 串口收发文本数据包 3.1 Serial.c 3.2 Serial.h 3.3 main.c​​​​​​​ 1. 串口通信 对于串口通信的详细​​​​​​​解析可以看下面这篇文章…

锂磷硫(LPS)属于硫化物固态电解质 Li7P3S11是代表性产品

锂磷硫(LPS)属于硫化物固态电解质 Li7P3S11是代表性产品 锂磷硫(LPS),为非晶态材料,是硫化物固态电解质代表性产品之一,具有热稳定性好、成本较低等优点,在固态电解质中离子电导率较…

C#实现边缘锐化(图像处理)

在 C# 中进行图像的边缘锐化,可以通过卷积滤波器实现。边缘锐化的基本思想是通过卷积核(也称为滤波器或掩模)来增强图像中的边缘。我们可以使用一个简单的锐化核,例如: [ 0, -1, 0][-1, 5, -1][ 0, -1, 0]这个卷积核…

【Deep Learning】Meta-Learning:训练训练神经网络的神经网络

元学习:训练训练神经网络的神经网络 本文基于清华大学《深度学习》第12节《Beyond Supervised Learning》的内容撰写,既是课堂笔记,亦是作者的一些理解。 1 Meta-Learning 在经典监督学习中,给定训练数据 { ( x i , y i ) } i \{…

javaSE字符串学习笔记

API和API帮助文档 API API(Application Programming Interface):应用程序编程接口简单理解:API酒啊别人已经写好的东西,我们不需要自己编写,直接使用即可。 API这个术语在编程圈中非常常见.我第一次接触API这个词语是在大一下。老…

【会议征稿,IEEE出版】第三届机器人、人工智能与智能控制国际会议(RAIIC 2024,7月5-7)

第三届机器人、人工智能与智能控制国际会议(RAIIC 2024)将于2024年7月5-7日中国绵阳举行。 RAIIC 2024是汇聚业界和学术界的顶级论坛,会议将邀请国内外著名专家就以传播机器人、人工智能与智能控制领域的技术进步、研究成果和应用做专题报告…

vs工程添加属性表

一、简介 1、 vs工程属性表以(.props)为后缀 2、 作用:当多个工程需要配置很多相同的属性配置时方便同步,比如多个工程需要链接相同的头文件,库文件,输出路径,中间目录等 3、本章内容测试环境&a…

Web渗透-SSRF服务端请求伪造

SSRF(Server-Side Request Forgery,服务器端请求伪造)是一种由攻击者利用漏洞服务器发送恶意请求的攻击方式。SSRF漏洞通常出现在服务器端的web应用中,应用允许用户提供的输入被服务器用来发起请求,而没有对输入进行充…

数据结构:为什么说链表是顺序表的升级版(c语言实现)

前言: 我们在之前的几篇文章中详细的讲解了顺序表的特点,增删改查操作和动态顺序表的优点,并使用顺序表的底层结构实现了通讯录项目,似乎顺序表是一个非常完美的数据结构,它可以实现按照需求实现增删查改,对…