Hadoop生态圈拓展内容(一)

news2024/12/23 14:54:51

1. Hadoop的主要部分及其作用

HDFS(Hadoop分布式文件系统)

HDFS是一个高容错、高可靠性、高可扩展性、高吞吐率的分布式文件存储系统,负责海量数据的存储。

YARN(资源管理调度系统)

YARN是Hadoop的资源管理调度系统,负责Hadoop生态系统中任务的调度和监控。

MapReduce(分布式并行计算框架)

MapReduce是基于HDFS和YARN的分布式并行计算框架,负责海量数据的计算。

2. Hadoop生态圈组件及其作用

Hive(离线数据仓库)

Hive是基于HDFS,结合类SQL引擎,底层执行MapReduce任务,用于OLAP分析查询的数据仓库。它使得不熟悉MapReduce的用户也能通过类SQL语言(HQL)进行数据查询和分析。

Zookeeper(管理员)

Zookeeper是一个分布式协调服务,为用户的分布式应用程序提供协调服务,如主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等。

Kafka(消息通信中间件)

Kafka是一个高吞吐量的分布式发布订阅消息系统,主要用于处理实时数据流。

Flume(日志传输组件)

Flume是一个分布式、可靠、高可用的海量日志收集、聚合、移动的工具,通俗来说,Flume就是一个日志采集工具。

Spark(批处理计算框架)

Spark是一个快速、通用的集群计算系统,支持批处理和流处理,适用于数据挖掘和机器学习等需要迭代的算法。

Flink(流处理计算框架)

Flink是一个基于内存的分布式并行处理框架,主要用于流数据处理,但也支持批处理。

3. Hadoop集群工作时启动的进程及其作用

NameNode(NN)

NameNode是Hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件访问。

Secondary NameNode(SNN)

Secondary NameNode不是NameNode的冗余守护进程,而是提供周期性检查点和清理任务,帮助NameNode合并editslog,减少NameNode的启动时间。

DataNode(DN)

DataNode提供真实的文件数据的存储服务,以数据块的形式存储HDFS文件,并响应HDFS客户端的读写请求。

ResourceManager(RM)

ResourceManager负责整个集群资源的管理和调度,包括对ApplicationMaster的管理、NodeManager的管理、Application管理等。

NodeManager(NM)

NodeManager主要处理来自ResourceManager分配的任务,监测并报告Container使用信息给ResourceManager。

JournalNode(JN)

JournalNode用于两个NameNode之间的数据同步,确保在集群出错时,命名空间状态已经完全同步。

4. Hadoop集群计算的主要瓶颈

  1. 网络带宽:网络带宽不足会导致数据传输速度慢,影响集群计算性能。
  2. 存储性能:存储系统的读写能力较低会影响数据的读取和写入速度。
  3. 处理能力:节点的计算能力和数据量都会影响整体计算能力。
  4. 内存容量:内存不足会导致数据无法完全加载到内存中,影响性能。
  5. 数据倾斜:数据分布不均匀会导致某些节点的数据负载过重,成为集群的瓶颈。

5. Hadoop集群的XML配置文件

  1. core-site.xml:配置Hadoop的核心参数,如文件系统默认方案、HDFS地址等。
  2. hdfs-site.xml:配置HDFS的相关参数,如副本数量、数据块大小等。
  3. mapred-site.xml:配置MapReduce相关参数,如作业跟踪器地址、任务分配器等。
  4. yarn-site.xml:配置YARN相关参数,如资源管理器地址、节点管理器等。
  5. hive-site.xml:配置Hive的相关参数,如元数据存储位置、数据库连接等。

6. Hadoop的Checkpoint流程

  1. 启动 Secondary NameNode

    Secondary NameNode 启动并定期检查 NameNode 的 EditLog 和 FsImage。
  2. 下载元数据

    Secondary NameNode 从 NameNode 下载最新的 FsImage 和 EditLog 文件。
  3. 合并元数据

    Secondary NameNode 将 EditLog 中的变更操作应用到下载的 FsImage 上,生成一个新的合并后的 FsImage 文件。
  4. 上传新 FsImage

    Secondary NameNode 将新的 FsImage 文件上传回 NameNode,并通知 NameNode 该文件已生成。
  5. 更新元数据

    NameNode 将新的 FsImage 文件保存为当前的元数据快照,并将 EditLog 文件截断或重命名为新的文件,开始记录新的变更操作。

补充说明:

EditLog(edits)

NameNode 持续记录文件系统元数据的所有变更操作到 EditLog 文件中。

FsImage(fsimage)

NameNode 会定期将当前的文件系统元数据快照存储到 FsImage 文件中。

Checkpoint

Secondary NameNode 会周期性地将 EditLog 应用到最新的 FsImage 上,并生成一个新的合并后的 FsImage 文件,称为 checkpoint。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2145154.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】权限理解(超详细)

目录 用户 角色切换 创建和删除普通用户 权限管理 文件访问者分类(人) 文件类型和访问权限(事物属性)​编辑 文件访问权限的相关设置方法 chmod chown chgrp 问题解答 粘滞位 用户 Linux下有两种用户:超级…

什么是期权日内交易?怎么做日内期权策略?

今天带你了解什么是期权日内交易?怎么做日内期权策略?期权日内交易是一种高频、快速的交易方式,适合能够快速反应并进行市场分析的交易者。 50ETF期权日交易额 50ETF期权日交易额也就是常说的50ETF期权成交量,大多数投资者们都听过交易要买…

程序员修炼之道 11:当你编码时

不记录,等于没读。 这里是我阅读《程序员修炼之道》这本书的记录和思考。 编码阶段不是机械性工作,而是每一分钟都要做出决定——深思熟虑后的决定。如果把编码阶段当成机械性工作,认为这个阶段只是把设计翻译成可运行的代码段,这…

初识 performance_schema:轻松掌握MySQL性能监控

什么是 performance_schema performance_schema 是 MySQL 5.8 版本的一个强大功能,它就像是一个内置的**“性能侦探”**,专门用来监控和分析 MySQL 服务器的资源消耗和等待情况。有了它,数据库管理员和开发者就能实时了解服务器的运行状态&a…

【LLM】中国在 GPT/LLM 大模型上是否已经实现了弯道超车?

还是谈一下现状吧。中国的大模型公司与美国的大模型公司其实在数量上可能中国更多一些吧。 美国的 OpenAI:No.1,毫无疑问!Google:尽管落了,但是依然是全球第二的实力吧?Meta:开源全靠它家的Ll…

字幕编辑用什么软件好?盘点国内外7款视频加字幕软件,简单高效!

视频添加字幕被认为是让观众更好理解您在视频中讲述内容的最佳和最常见的方式。例如,您可以给视频中的某些文字添加不同的颜色,以帮助观众识别视频中的角色。然而,在制作视频过程中,添加字幕往往是个耗时耗力的任务。因此&#xf…

rsync 服务详解

目录 1.前言 2. rsync 常用选项 3.rsync应用场景 4.rsync使用模式 5.rsync推与拉​编辑 5.1rsync推送 ​编辑5.2rsync拉取 6.rsync本地模式 7.远程模式 8.rsync守护进程 8.2改配置文件 8.3添加虚拟用户 8.4创建密码文件 8.5给文件给予权…

牛客周赛 Round 59(思维、构造、数论)

文章目录 牛客周赛 Round 59(思维、构造、数论)A. TDB. 你好,这里是牛客竞赛C. 逆序数(思维)D. 构造mex(构造)E. 小红的X型矩阵F. 小红的数组回文值(数论、范德蒙恒等式) 牛客周赛 Round 59(思维…

C++之仿函数和虚函数

仿函数(Functor)和虚函数(Virtual Function)是 C 中两个不同的概念,它们在功能和使用场景上有显著的区别。 1. 仿函数(Functor) 定义: 仿函数(也称为函数对象&#xf…

【原理图PCB专题】案例:原理图设计检查为什么要检查全局网络?

本案例发生在新人的PCB设计文件中,当然就算硬件老人们,其实只要不注意也很容易出现这种全局网络乱用的问题。 如下所示是给新人的接口参考图纸,要求使用嘉立创绘制16个相同的接口做一个工装板。同时还要增加单片机实现切换控制功能。可以看到座子的24个管脚中使用到了3.3V、…

五种MP3转换器推荐,音频转换不发愁!

每当遇到心仪的歌曲或珍贵的音频资料,却因为格式不兼容而无法在所有设备上顺畅播放时,是否感到一丝遗憾?现在,是时候告别这种烦恼了!分享五种功能强大、操作简便的MP3转换器,从此音频转换不发愁&#xff01…

MySQL字符集的转换

背景介绍 在使用MySQL过程中,如果字符集配置不当,可能会出现插入失败、数据乱码、 索引失效、数据丢失、查询不到期望结果等一系列使用异常的情况。因此,熟练掌握MySQL字符集和比较规则的配置方法,并在此基础上了解MySQL字符集与…

AI编程的特点及SCSAI平台在AI编程方面的一些思路

团长团 AI智造AI编程 2024年09月18日 18:25 北京 说先来看看AI编程的优缺点,然后我们再看看SCSAI在AI编程方面的一些可能选择 使用AI编程的优点 ‌AI编程的优点包括提升编程效率、降低编程门槛、优化程序结构、加强软件可靠性、促进跨领域融合,而缺点则…

龙海家园的免费停车点探寻

​第一次去龙海家园就把我羡慕到了,楼下就是鲤鱼门地铁,龙海家园底商的餐饮好吃又实惠,还有特别多的超市,空中花园也很大,还可以共享前海基金小镇的花园环境。虽然我看到很多车排队等进龙海家园,但是我还是…

红帽 Quay- 配置镜像代理缓存

《OpenShift / RHEL / DevSecOps 汇总目录》 说明:本文已经在 Quay 3.12 环境中验证 说明:可先根据《红帽 Quay - 安装篇》完成 Quay 安装。 镜像代理缓存功能 Quay 的镜像代理缓存功能可以将用户拉取的远程镜像保存到本地 Quay 的 proxy cache 中&am…

阿里巴巴搜索API返回值:电商市场竞争的新武器含

阿里巴巴搜索API返回值在电商市场竞争中扮演着至关重要的角色,它为企业提供了深入了解市场、分析竞争对手的宝贵资源。以下是对阿里巴巴搜索API返回值及其在电商市场竞争中应用的详细解析,并附上示例代码。 一、阿里巴巴搜索API返回值概述 阿里巴巴搜索…

微波无源器件 功分器3 一种用于多端口辐射单元的紧凑四路双极化正交模功分器的设计

摘要: 一种有着双极化能力并且能作为一个Fabry-Perot谐振腔天线的馈源包含四个输入端口的新型紧凑功分器的概念和设计被提出了。在四个圆波导中的双同相极化通过使用四个5端口十字转门结合两个8by1(八合一) 功分网络。功分器末端接了两个端口…

排序----数据结构

Comparable Integer Double 默认情况下都是按照升序排列的 string 按照字母再ASCII码表中对应的数字升序进行排列 冒泡排序 时间复杂度O(x^2) 选择排序 时间复杂度O(x^2) 插入排序 时间复杂度O(x^2) 希尔排序 时间复杂度O(x) 归并排序 时间复杂度O(nlogn) 快速排序

一文搞定WeakHashMap

写在前面 在缓存场景下,由于内存是有限的,不能缓存所有对象,因此就需要一定的删除机制,淘汰掉一些对象。这个时候可能很快就想到了各种Cache数据过期策略,目前也有一些优秀的包提供了功能丰富的Cache,比如…

Pandas的入门操作-Series对象

Pandas的数据结构 Series对象 class pandas.Series(dataNone, indexNone) data参数 含义:data是Series构造函数中最主要的参数,它用来指定要存储在Series中的数据。 数据类型:data可以是多种数据类型,例如: Python 列…