hadoop分布式计算组件

news2025/2/25 20:26:11

什么是计算、分布式计算?

·计算:对数据进行处理,使用统计分析等手段得到需要的结果
·分布式计算:多台服务器协同工作,共同完成一个计算任务

分布式计算常见的2种工作模式
  1. 分散->汇总(MapReduce就是这种模式)
  2. 中心调度->步骤执行(大数据体系的Spark、Flink等是这种模式)

hadoop分布式计算框架-MapReduce

MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。
MapReduce提供了2个编程接口:
·Map
·Reduce
其中
·Map功能接口提供了“分散”的功能,由服务器分布式对数据进行处理
·Reduce.功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计
用户如需使用MapReduce框架完成自定义需求的程序开发
只需要使用Java、Python等编程语言,实现Map Reduce.功能接口即可。
目前map reduce框架代码开发已经逐渐淘汰,但由于hive分布式sql框架底层是map reduce实现的,所以map reduce仍活跃在一线。
MapReduce是基于YARN运行的,99%场景下map reduce都是集成在yarn集群中运行的

YARN的资源调度

YARN管控整个集群的资源进行调度,那么应用程序在运行时,就是在YARN的监管(管理)下去运行的。
这就像:全部资源都是公司(YARN)的,由公司分配给个人(具体的程序)去使用。
比如,一个具体的MapReduce程序。
我们知道,MapReduce程序会将任务分解为若干个Map任务和Reduce任务。
假设,有一个MapReduce程序,分解了3个Map任务,和1个Reduce任务,每个map任务需要2GB运行内存,每个reduce任务需要4GB运行内存,那么如何在YARN的监管(管理)下运行呢?
在这里插入图片描述

map程序和reduce程序会告诉yarn所需的资源情况,向yarn申请资源,yarn则会根据资源情况,分配具体的任务运行

在这里插入图片描述

YARN的核心架构

YARN,主从架构,有2个角色
·主(Master)角色:ResourceManager
整个集群的资源调度者,负责协调调度各个程序所需的资源。
·从(Slave)角色:NodeManager
单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用

在这里插入图片描述

如上图,某个程序告知yarn我需要的资源情况,yarn的resource manager查看资源情况,并通知到node manager,node manager会通过容器技术,创建容器来占用对应的资源,然后再分配具体的程序来运行。yarn能抢占资源及精准分配资源是通过容器技术实现的。

YARN辅助角色

YARN的架构中除了核心角色,即:
·ResourceManager:集群资源总管家
·NodeManager:单机资源管家
还可以搭配2个辅助角色使得YARN集群运行更加稳定
。代理服务器(ProxyServer):Web Application Proxy Web应用程序代理
。历史服务器(obHistoryServer):应用程序历史信息记录服务

Web应用代理(Web Application Proxy)

代理服务器,即W2b应用代理是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但是可以配置为在独立模式下运行。使用代理的原
因是为了减少通过YARN进行基于网络的攻击的可能性。
这是因为,YARN在运行时会提供一个WEB UI站点(同HDFS的WEB UIS站点一样)可供用户在浏览器内查看YARN的运行信息
对外提供WEB站点会有安全性问题,而代理服务器的功能就是最大限度保障对WEB UIE的访问是安全的。比如:

  • 警告用户正在访问一个不受信任的站点
  • 剥离用户访问的Cookie等

代理服务器默认集成在了ResourceManager中
也可以将其分离出来单独启动,如果要分离代理服务器

  1. 在yarn-site.xml中配置yarn.web-proxy.address参数即可(部署环节会使用到)
    在这里插入图片描述

2.并通过命令启动它即可$HADOOP_YARN_HOME/sbin/yarn-daemon.sh start proxyserver

JobHistoryServer历史服务器

历史服务器的功能很简单:记录历史运行的程序的信息以及产生的日志并提供WEBU站点供用户使用浏览器查看。它可以收集各个服务器的日志数据并统一汇总到hdfs上,方便用户查看

开启历史服务器需要配置:

  1. 开启日志聚合,允许从容器中抓取日志到hdfs中集中存储
    在这里插入图片描述

  2. 配置历史服务器端口和主机
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1575894.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《价值》-张磊-高瓴资本-5-投资是一场修行;坚持第一性原理;避开陷阱;信誉就是生命

第五章:价值投资者的自我修养 价值投资不是投资者之间的零和游戏,而是共同把蛋糕做大的正和游戏。 从事投资的过程中,我渐渐发觉,投资 一方面是对真理的探寻,探索外部世界;另一方面是谋求心灵的宁静&#x…

Java: LinkedList的模拟实现

一、双向链表简介 上一篇文章我介绍了单向链表的实现,单向链表的特点是:可以根据上一个节点访问下一个节点!但是,它有个缺点,无法通过下一个节点访问上一个节点!这也是它称为单向链表的原因。 那么&#x…

K8S - Service简介和 1个简单NodePort例子

大纲图 流量方向 如上图, 当用户or 别的service 从k8s 集群外部访问 集群内的services 流量方向有两种 一种是垂直方向, 通过域名 -> Load Balancer -> gateway -> services , 在k8s 一般是通过ingress 来实现, 而ingress 不是本文…

免费https详细教程

简单叙述一下https的定义和实现https的一些基本作用,然后会给到申请SSL证书的方式以及安装部署流程,最终实现网站的https访问。 随着互联网的快速发展,网络安全问题日益凸显。在互联网上传输敏感信息、进行在线交易和共享个人数据时&#xf…

万界星空科技生产工时管理系统

生产工时管理系统是一个管理系统,生产管理人员可以详细地、逐项活动地查看生产和即时劳动力数据,特别是活动级劳动力信息,辅助生产管理人员利用从车间获得的效率数据,实时监控生产流程,并在提高生产率,控制…

TLF9471 V33 WK/ VSENSE

1 WK/VSENSE 输入框图 TLF9471实现以下唤醒源: Static Sense:WK/VSENSE输入和/或GPIO WK输入作为尾流源永久激活,即WK/VSENSE输入和/或GPIO WK输入作为尾流源永久激活。Cyclic Sense:WK/VSENSE输入仅在循环感知周期的开启时间内激活。内部定时器在接通时激活GPIO HS,用于感…

C语言开发实战:使用EasyX在Visual Studio 2022中创建井字棋游戏

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

CVE-2024-3148 DedeCms makehtml_archives_action sql注入漏洞分析

DedeCMS(也称为织梦CMS)是一款基于PHPMySQL的开源内容管理系统。 在 DedeCMS 5.7.112 中发现一个被归类为严重的漏洞。此漏洞会影响某些未知文件dede/makehtml_archives_action.php的处理。操作导致 sql 注入。攻击可能是远程发起的。该漏洞已向公众披露…

Word wrap在计算机代表的含义(自动换行)

“Word wrap”是一个计算机术语,用于描述文本处理器在内容超过容器边界时自动将超出部分转移到下一行的功能。在多种编程语言和文本编辑工具中,都有实现这一功能的函数或选项。 在编程中,例如某些编程语言中的wordwrap函数,能够按…

pdf、docx、markdown、txt提取文档内容,可以应用于rag文档解析

返回的是文档解析分段内容组成的列表,分段内容默认chunk_size: int 250, chunk_overlap: int 50,250字分段,50分段处保留后面一段的前50字拼接即窗口包含下下一段前面50个字划分 from typing import Union, Listimport jieba import recla…

鸿蒙ArkTS开始实例:【canvas实现签名板功能】

使用ArkTS中的canvas实现签名板的功能,canvas画布大家都很熟悉,我们会用它经常实现一些画板或者图表、表格之类的功能。canvas签名板是我在开发APP过程中实现的一个功能,开发过程中也是遇到比较多的问题。我会按照以下几点来讲解开发整个过程…

npm版本切换工具nvm

有了nvm,可以在一台机器上同时安装多个版本的nodejs,然后指定使用某个版本。 前端开发的时候,安装依赖一直是个令我头痛的问题。总是报错,或者不是少了这样就是少了那样,鸡飞狗走。以往,一般要装个enpm&am…

HCIA-Datacom H12-811 题库补充(4/7)

完整题库及答案解析,请直接扫描上方二维码,持续更新中 共享介质型网络使用哪一种技术进行数据转发? A:CDMA/CD B:CSMA/AC C:TDMA/CD D:CSMA/CD 答案:D 解析:以太网 CSMA …

SQL Server语法基础:入门到精通

博客前言 在数据库管理的世界中,SQL Server无疑是一个重要的角色。无论是初学者还是经验丰富的数据库管理员,都需要对SQL Server的查询语法有深入的理解。本文将带领大家深入解析SQL Server的查询语法,并分享一些实用的技巧,帮助…

OpenAI 推出新网络爬虫GPTBot,为GPT-5做准备

目录 一、GPTBot是什么?它是如何工作的?二、GPTBot 与 Google Bot 等搜索引擎网络爬虫有何不同?三、GPTBot 与 Perplexity AI 的网络爬虫有何不同?四、允许 GPTBot 爬取有哪些风险和好处?4.1 允许 GPTBot 的好处4.2 允…

麒麟系统ARM安装rabbitmq

简单记录下,信创服务器:麒麟系统,安装rabbitmq的踩坑记录。 本文章参考了很多大佬文章,我整理后提供。 一、安装基础依赖 yum -y install make gcc gcc-c kernel-devel m4 ncurses-devel openssl-devel unixODBC-devel 二、下载…

手机如何在线制作gif?轻松一键在线操作

现在大家都喜欢使用手机来拍摄记录有趣的事物,但是时间长了手机里的视频越来越多导致手机存储空间不够了,这些视频又不想删除时应该怎么办呢?这个很简单,下面就给大家分享一款不用下载手机就能操作的视频转gif网站-GIF中文网&…

四大生成式模型的比较——GAN、VAE、归一化流和扩散模型

比较四大模型的本质 four modern deep generative models: generative adversarial networks, variational autoencoders, normalizing flows, and diffusion models 待写

经典文章:卷积神经网络的运作原理

https://brohrer.mcknote.com/zh-Hans/how_machine_learning_works/how_convolutional_neural_networks_work.html 参考资料 https://aitechtogether.com/article/38900.html https://www.ruanyifeng.com/blog/2017/07/neural-network.html http://neuralnetworksanddeeplea…

drawio画图编辑图形颜色

drawio画图编辑图形颜色 团队的安全第一图表。将您的存储空间带到我们的在线工具中,或使用桌面应用程序进行本地保存。 1.安装准备 1.1安装平台 多平台 1.2在线使用 浏览器打开网页使用 1.3软件下载 drawio官网github仓库下载 2.在浏览器的网页中使用drawio…