【大数据】深入浅出Hadoop,干货满满

news2025/1/23 2:19:13

【大数据】深入浅出Hadoop

  • 文章脉络
  • Hadoop
  • HDFS
  • MapReduce
  • YARN
  • Hadoop集群硬件架构

假设现在有一个PB级别的数据库表要处理。

在单机情况下,只能升级你的内存、磁盘、CPU,那么这台机器就会变成 “超算”,成本太高,商业公司肯定是没法这么干的。

考虑在多主机情况下,如果把PB级别的表先拆分成若干个GB级别的数据包,每台计算机处理好了之后,再归并到一起,那么就是可行的,并且每台机器也不贵,而且存储和算力不够时还可以继续加机器。

无论是线上的web应用,还是偏离线的数仓服务,一旦流量和数据量大了之后必须得走集群多节点这个方案。而一旦涉及到集群场景,就必然产生资源调度、负载均衡、高可用、高容错、可拓展等等的问题,因此要设计一系列补丁(框架和中间件)去拆东墙补西墙,保证多集群多节点下任务不出错。

于是Hadoop及其生态就应运而生了。


文章脉络

在这里插入图片描述

图1 本文知识点

Hadoop

  Hadoop是一个开源的分布式计算平台,由Apache软件基金会开发和维护。它是大数据处理的基石,能够高效地存储和处理大规模数据。目前业界基本上用的都是Hadoop及其生态下的产品。Hadoop的主要特点是高可靠性和高扩展性,它可以在成百上千个节点上运行,每个节点都可以存储和处理数据。

  狭义的Hadoop,通常就指HDFS + MapReduce + YARN。

  但是随着其生态的发展,今天我们再提及Hadoop,通常指的是它的整个生态,包括Hive、Hbase、Spark、Pig、Flume、Sqoop等等。

【注意】本文主要介绍“狭义的Hadoop”,指HDFS、MapReduce、YARN这三个组件。

在这里插入图片描述

图2 Hadoop1.x和2.x的架构对比

  图2是Hadoop的版本1和版本2的架构对比。在早期,Hadoop的生态还不齐全,因此MapReduce既负责计算,也负责对多节点的资源进行管理,以完成作业的合理分配。

  升级到2.x后,把1.x中MapReduce的功能剥离开,新增了YARN组件做统一的资源管理和调度。

【注意】像Spark这种基于内存的计算框架,不会使用MapReduce,但是Spark也没有资源调度(进而控制HDFS)的功能,因此新增的YARN可以友好地支持类似于Spark这种不会使用MapReduce的技术。

  Hadoop主要由以下三个组件构成:

  1、Hadoop分布式文件系统(HDFS):HDFS是Hadoop的存储系统,用于存储大量的数据。 它通过将数据分散存储在多个节点上来实现数据的可靠存储和高吞吐量访问。数据被分割成块(通常是128MB或256MB大小),并在多个节点上复制,以提高数据的可靠性和系统的容错能力。

  2、MapReduce:MapReduce是Hadoop的处理框架,用于大规模数据处理。它将数据处理任务分解成两个函数:Map和Reduce。Map函数处理输入数据,并生成中间键值对。Reduce函数则对这些中间键值对进行聚合处理,生成最终的结果。

  3、YARN(Yet Another Resource Negotiator):YARN是Hadoop的资源管理器,负责管理集群中的计算资源。它允许各种数据处理应用在Hadoop集群上运行,不仅仅限于MapReduce。

HDFS

  Hadoop Distributed File System (HDFS) 是Hadoop的最核心组件,用来存储大量数据。HDFS是一种分布式文件系统,它将数据存储在由大量廉价硬件组成的集群上,并提供高吞吐量的数据访问,适合用于大规模数据处理场景。

  由于要具有高容错性、高吞吐量的特点,HDFS在存储数据时会进行切块,然后对每个块进行多副本存储,每个副本存储在不同的从节点上,以避免因单节点故障造成数据丢失。

【注意】正因为HDFS是多副本存储的(默认副本数为3),如果你看到你在你们公司自研的管理平台上看到的表总大小是3GB,那么其实它有可能实际上只有1GB。要注意分清文件大小统计的计算方法。

  HDFS的系统架构如下:

在这里插入图片描述

图3 HDFS架构(图片来源于Hadoop官方文档)

  HDFS主要有三个核心概念:
  · Client:用于与HDFS交互的接口,比如命令hadoop fs或者Java接口。通过RPC与节点通信。
  · NameNode:HDFS集群中的主节点,负责维护整个文件系统的命名空间和元数据。
  · DataNode:存储实际的数据块,负责处理文件系统客户端的读写请求,发送心跳。

【注意】一个HDFS集群只有一个活跃的NameNode,虽然在HDFS的高可用性(HA)配置中,会有两个NameNode(一个主NameNode和一个备用NameNode)以提供故障转移功能。

  Namenode和Datanode可以在普通的商用机器上运行。这些机器一般运行着GNU/Linux操作系统。HDFS采用Java语言开发,因此任何支持Java的机器都可以部署Namenode或Datanode。由于采用了可移植性极强的Java语言,使得HDFS可以部署到多种类型的机器上。一个典型的部署场景是一台机器上只运行一个Namenode实例,而集群中的其它机器分别运行一个Datanode实例。这种架构并不排斥在一台机器上运行多个Datanode,只不过这样的情况比较少见。

  集群中单一Namenode的结构大大简化了系统的架构。Namenode是所有HDFS元数据的仲裁者和管理者。

MapReduce

  在介绍MapReduce之前,先介绍大数据的计算模式。

  大数据的计算模式主要分为 批计算(batch computing)、流计算(stream computing)、交互计算(interactive computing)、图计算(graph computing) 等。其中,流计算和批计算是两种主要的大数据计算模式,分别适用于不同的大数据应用场景。

  批式处理框架主要有Hadoop MapReduce和Spark等。Hadoop MapReduce组件封装了MapReduce并行编程模型。Spark是对Hadoop MapReduce组件的改进,通过对中间结果使用内存存储,大幅提高了计算速度,目前是批处理应用的主流选择。

【注意】计算框架又可称为“引擎”,比如你写Hive(Hadoop生态的其他工具)SQL查表,那么就可以选择是使用MapReduce还是Spark来执行,因此计算框架又可以称为执行引擎。

  流式处理框架主要有Storm、Spark Streaming、Flink等。Storm是较早成熟的低延迟流式数据处理框架,可以进行事件级(单条数据)处理。Spark Streaming是基于Spark批处理实现的微批式的流式处理,延迟较高,可以和Spark一起应用,实现流批一体的数据处理。Flink是当前最出色的流式数据处理框架,可以进行事件级数据处理,具有低延迟、吞吐量大、支持SQL等优点。

【注意】
批计算场景be like 先拿到截至昨天用户表的所有数据,然后进行处理(比如group by),最后得到结果,抽象理解为“全量且T+1”。

流计算场景be like 我要实时监控我这家公司的订单情况,并需要一些处理和分析操作,然后输出出来,需要实时(延迟低,1s内),此时就不得不用Flink、Storm之流。

  接下来正式介绍MapReduce。

  MapReduce作为一种全新的通用并行编程模型,是基于集群的并行计算方式的创新抽象,非常简单易用,开发友好。MapReduce处理数据为Key-Value格式,其主要思想是从函数式编程借鉴而来的。MapReduce模型将计算分为两个阶段。

  Map(映射)阶段:对每条数据记录进行独立处理,其处理逻辑相当于对每条输入执行一个映射变换(即函数的计算),因此可以在大量节点进行并行处理(通常在数据所在节点)。

  Reduce(规约)阶段:汇总计算阶段,即处理逻辑具有记录之间的相关性,例如按Key对Value进行加和运算,此阶段一般会产生节点间的数据传输(即Shuffle操作)。

  MapReduce的系统架构如下:

在这里插入图片描述

图4 MapReduce架构

  MapReduce主要有四个核心概念:
  · Client:用于提交和管理MapReduce作业的工具,如命令行hadoop jar
  · JobTracker:JobTracke负责资源监控和作业调度。JobTracker监控所有TaskTracker与job的健康状况,一旦发现失败,就将相应的任务转移到其他节点;同时,JobTracker会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务调度器,而调度器会在资源出现空闲时,选择合适的任务使用这些资源。
  · TaskTracker:TaskTracker会周期性地通过Heartbeat将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)。
  · Task:Task 分为Map Task和Reduce Task两种,均由TaskTracker启动。

【注意】Map Task和Reduce Task是可以编写Java脚本或者Python脚本等去执行的,但是学习成本和使用成本都比较高。一般不是特别需要,写HQL就能搞定工作需要。

  MapReduce内部逻辑的大致流程主要由以下几步完成:

  Mapper阶段

  1) 对输入数据进行解析的组件:因为不同的数据可能存储的数据格式不一样,这就需要有一个InputFormat组件来解析这些数据。默认情况下,它提供了一个TextInputFormat来解释数据。TextInputFormat会将文件的每一行解释成(key,value),key代表每行偏移量,value代表每行数据内容。通常情况我们不需要自定义InputFormat,因为MapReduce提供了很多种InputFormat的实现,我们根据不同的数据格式,选择不同的InputFormat来解释就可以了。

  2) 输入数据处理:使用Mapper来完成,这个Mapper是必须要实现的,因为根据不同的业务对数据有不同的处理。当缓冲区满了之后,数据被写入到本地磁盘上的一个临时文件中。

  Shuffle阶段

  (在Mapper和Reducer阶段之间)
  3) 排序和分组:在Mapper任务完成之后,Shuffle阶段开始,这个阶段包括排序和分组操作,确保相同键的所有值都在一起。
  4) 压缩:为了减少网络传输的数据量,中间数据可能会被压缩。
  5) 数据传输:根据Partitioner的决策,中间数据被传输到对应的Reducer节点。默认的情况下,Partitioner会对map输出的key进行hash取模,比如有6个Reduce Task,它就是模(mod)6,如果key的hash值为0,就选择第0个Reduce Task,如果key的hash值为1,就选择第一个Reduce Task。这样不同的map对相同单词key,它的hash值取模是一样的,所以会交给同一个reduce来处理。

  Reduce阶段

  6) 数据合并:Reducer从不同的Mapper节点接收数据,并进行合并。
  7) 数据处理:Reducer的reduce函数被调用,对每个键的所有值进行处理,生成最终的结果。
  8) 数据输出:Reducer的输出结果被写入到OutputFormat指定的输出位置,通常是HDFS。

【注意】在集群中,MapReduce是处在DataNode的节点上的,也就是说每个从节点都会有MapReduce。

YARN

  YARN(Yet Another Resource Negotiator)是Hadoop集群的资源管理器,它是在Hadoop 2.x版本中引入的,用来替代Hadoop 1.x中的传统MapReduce架构中的JobTracker和TaskTracker组件。YARN为Hadoop集群提供了一个更加通用的资源管理平台,不仅支持MapReduce作业,还支持其他类型的数据处理框架,如Apache Spark、Apache Flink等。

  YARN采用了经典的Master-Slave架构, 其中ResourceManager对应主, NodeManager对应从。

  YARN的系统架构如下:

在这里插入图片描述

图5 YARN架构(图片来源于Hadoop官方文档)

  YARN主要有四个核心概念:
  · Client:负责提交应用程序到YARN集群,并处理与应用程序相关的配置和提交细节,比如命令yarn jar或者Java接口。
  · ResourceManager:YARN集群的资源管理器,负责整个集群的资源分配和调度。
  · NodeManager:是YARN集群中的每个节点的代理,负责该节点的资源管理和任务执行。
  · ApplicationMaster:是应用程序的代理,负责与ResourceManager协商资源,并与NodeManager协调任务的执行。每个提交到YARN集群的应用程序都有一个ApplicationMaster实例。

Hadoop集群硬件架构

在这里插入图片描述

图6 Hadoop集群硬件架构

  现在再看这张图,想必大家已经是一目了然。

  主节点上:部署HDFS的NameNode组件,管理命名空间,管理客户端对文件的访问,负责跟踪数据块到DataNode的映射;部署Yarn的ResourceManager组件,管理整个集群中的资源。

  从节点上:部署HDFS的DataNode组件,服务于客户端的读/写请求;部署Yarn的NodeManager组件,监视本节点容器的资源使用情况,并将其报告给Resource-Manager;运行MapReduce的容器。

【注意】至此Hadoop基本盘已经说清楚了,除非去做云原生开发、运维这些工作,否则对于大数据开发、推荐算法的朋友们掌握这些已经够用了。

  对于其他Hadoop生态的产品,浅浅拓展下(如图7),以后还会对常用的框架进行专门介绍。

在这里插入图片描述

图7 Hadoop体系的分层架构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2114539.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java基础知识回顾-匿名内部类

文章目录 知识学习实现案例第一步、父类定义方法第二步、子类中定义匿名内部类第三步、执行方法 最近在复习Java知识点的时候,在看匿名内部类,记录下来,方便备查。 知识学习 匿名内部类,即一种特殊的局部内部类,不需要…

java opencv no opencv_java490 in java.library.path

java使用opencv处理图片,idea运行程序,报错异常信息: Exception in thread "main" java.lang.UnsatisfiedLinkError: no opencv_java490 in java.library.path: /Users/carter/Library/Java/Extensions:/Library/Java/Extensions:…

Canvas Confetti - 免费开源的五彩纸屑飞舞特效的 JS 库,多用于在网页上实现欢乐庆祝的场景

今天看科技周刊看到的一个酷炫的动效库,使用简单,视觉效果很好,推荐给大家。 Canvas Confetti 是一个基于 JavaScript 的特效动画库,可以在网页界面上轻松地实现五彩纸屑飞舞的庆祝场景特效。这个特效库封装了几种酷炫的特效&…

Linux系统之实现dhcp功能(Implementation of DHCP Function in Linux System)

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…

tabBar设置底部菜单以及选项iconfont图标

1.tabBar设置底部菜单 在官网里面可以了解到tabBar组件的一些知识和注意点: 需要给页面设置一个底部导航的话可以在pages.json里面设置一个tabBar标签,在其里面设置pagePath和text属性。 可以看的pagePath是跳转的地址,text是下面导航的文字…

string详解

Golang详解string 文章目录 Golang详解stringGolang中为什么string是只读的?stirng和[]byte的转化原理[]byte转string一定需要内存拷贝吗?字符串拼接性能测试 Golang中为什么string是只读的? 在Go语言中,string其实就是一个结构体…

SSM项目使用AOP技术进行日志记录

本步骤只记录完成切面所需的必要代码 本人开发中遇到的问题: 切面一直切不进去,最后发现需要在springMVC的核心配置文件中中开启注解驱动才可以,只在spring的核心配置文件中开启是不会在web项目中生效的。 之后按照下面的代码进行配置&…

【Python篇】PyQt5 超详细教程——由入门到精通(中篇二)

文章目录 PyQt5超详细教程前言第7部分:生成图表与数据可视化7.1 matplotlib 与 PyQt5 的结合7.2 在 PyQt5 中嵌入 matplotlib 图表示例 1:嵌入简单的 matplotlib 图表代码详解: 7.3 动态生成图表示例 2:动态更新图表代码详解&…

jmeter之TPS计算公式

需求: 如何确定环境当中的TPS指标 PV:(Page View)即页面访问量,每打开一次页面PV计数1,刷新页面也是。PV只统计页面访问次 数。 UV(Unique Visitor),唯一访问用户数,用来衡量真实访问网站的用户数量。 一般…

在亚马逊云科技上利用Graviton4代芯片构建高性能Java应用(上篇)

简介 在AI迅猛发展的时代,芯片算力对于模型性能起到了至关重要的作用。一款能够同时兼具高性能和低成本的芯片,能够帮助开发者快速构建性能稳定的生成式AI应用,同时降低开发成本。今天小李哥将介绍亚马逊推出的4代高性能计算处理器Gravition…

【Python 千题 —— 算法篇】无重复字符最长子段

Python 千题持续更新中 …… 脑图地址 👉:⭐https://twilight-fanyi.gitee.io/mind-map/Python千题.html⭐ 题目背景 在编程过程中,处理字符串的任务时常遇到,其中一个经典问题是查找无重复字符的最长子串。这在很多应用场景中…

Linux网络测试和故障排查命令

文章目录 ping 命令常用选项:使用示例:域名解析和 IP 地址响应数据停止 ping 命令统计数据延迟统计 traceroute 命令常用选项:使用示例:命令执行:路由节点详情: mtr 命令使用示例:使用结果详解输…

【持续更新】Adoobe Acroobat Pro DC 2024 (v24.3.20054)最新修改版

Adoobe Acroobat Pro DC 拥有智能工具,为您的沟通能力增添更多力量。使用包含丰富媒体元素的PDF文件进行创建与编辑,更加安全地分享信息,并且更高效地收集反馈意见。这款先进的软件程序是商务专业人士的理想选择,能够创建、合并、…

jmeter之ForEach控制器使用

ForEach控制器作用: 一般和用户自定义变量或者正则表达式提取器配合使用,读取返回结果中一系列相关的变量值,该控制器下的取样器都会被执行一次或多次,每次读取不同的变量值(类似python当中的for语句,用来遍历操作) 本节代码已上…

Spring6详细学习笔记(IOC+AOP)

一、Spring系统架构介绍 1.1、定义 Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器(框架)。Spring官网 Spring是一款主流的Java EE 轻量级开源框架,目的是用于简化Java企业级引用的开发难度和开发周期。从简单性、可测试性和松耦…

Qt-常用控件(3)-输入类

1. QLineEdit QLineEdit 用来表示单行输入框.可以输入一段文本,但是不能换行 核心属性 属性说明text输入框中的文本inputMask输入内容格式约束maxLength最大长度frame是否添加边框echoMode显示方式. QLineEdit::Normal :这是默认值,文本框会显示输入的文本。QLineE…

物联网之流水LED灯、正常流水灯、反复流水灯、移动流水灯

MENU 硬件电路设计软件程序设计正常流水LED灯反复流水LED灯移动流水LED灯 硬件电路设计 材料名称数量直插式LED1kΩ电阻杜邦线(跳线)若干面包板1 每一个LED的正极与开发板一个GPIO引脚相连,并串联一个电阻,负极接GND。 当然也可以选择只使用一个电阻。 软…

DELTA_IA-ASD_ASDA-A2简明教程

该文章仅供参考,编写人不对任何实验设备、人员及测量结果负责!!! 0 引言 文章主要介绍电机的硬件连接、软件配置、转动调试以及软件控制。文章中提到的内容在产品手册中都有说明,强烈建议在操作前通读产品手册&#…

1-17 平滑处理——中值滤波 opencv树莓派4B 入门系列笔记

目录 一、提前准备 二、代码详解 cv2.medianBlur函数用于对图像进行中值滤波。中值滤波是一种去噪声的技术,可以有效地去除图像中的盐和胡椒噪声。函数的两个参数如下: 三、运行现象 四、完整代码贴出 一、提前准备 1、树莓派4B 及 64位系统 2、提前…

【2024 版】最新 kali linux 入门及常用简单工具介绍(非常详细)

一、介绍 kali Linux Kali Linux 是一个基于 Debian 的 Linux 发行版,主要用于数字取证和渗透测试。它预装了大量的安全审计和渗透测试工具,被广泛应用于网络安全领域。 (一)特点 工具丰富:集成了数百种用于渗透测试…