Hadoop集群配置与管理指南

news2024/11/23 20:09:59

目录

  • 前言
  • 一、Hadoop集群配置历史服务器
  • 二、配置日志的聚集
  • 三、集群启动/停止方式总结
  • 四、编写Hadoop集群常用脚本
  • 五、常用端口号说明
  • 最后

前言

这篇文章内容覆盖了Hadoop集群中一些重要且常用的配置和管理任务。首先,我们将介绍如何配置Hadoop集群的历史服务器,这对于查看和分析任务的历史信息非常有帮助。其次,我们将探讨如何配置日志的聚集和管理,以便有效地监控和故障排查集群。然后,我们将总结集群的启动和停止方式,包括常见的启动脚本和命令。接下来,我们将给出一些编写Hadoop集群常用脚本的建议和实例。最后,我们将简要介绍Hadoop集群中常用的端口号,并解释其作用。

一、Hadoop集群配置历史服务器

配置mapred-site.xml文件

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

启动历史服务器:bin/mapred --daemon start historyserver

[amo@hadoop104 hadoop-3.2.4]$ bin/mapred --daemon start historyserver
[amo@hadoop104 hadoop-3.2.4]$ jps
2066 SecondaryNameNode
26628 NodeManager
1977 DataNode
26889 Jps
26860 JobHistoryServer

查看jobhistory
http://hadoop102:19888/jobhistory/在这里插入图片描述

二、配置日志的聚集

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。
注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer。

开启日志聚集功能具体步骤如下:

  1. 配置 yarn-site.xml 文件
<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>
  1. 分发yarn-site.xml 文件到hadoop103、hadoop104
    xsync yarn-site.xml

  2. 关闭NodeManager/ResourceManager
    sbin/stop-yarn.sh

  3. 关闭historyserver
    mapred --daemon stop historyserver

  4. 启动NodeManager/ResourceManager
    sbin/start-yarn.sh

  5. 启动historyserver
    mapred --daemon start historyserver

  6. 测试,执行wordcount
    hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.4.jar wordcount /input /output

  • 任务列表
    在这里插入图片描述
  • 任务运行日志
    在这里插入图片描述
  • 日志详情
    在这里插入图片描述

三、集群启动/停止方式总结

  1. 各个模块分开启动/停止(配置ssh是前提)常用
    • 整体启动/停止HDFS
      start-dfs.sh/stop-dfs.sh
    • 整体启动/停止YARN
      start-yarn.sh/stop-yarn.sh
  2. 各个服务组件逐一启动/停止
    • 分别启动/停止HDFS组件
      hdfs --daemon start/stop namenode/datanode/secondarynamenode
    • 启动/停止YARN
      yarn --daemon start/stop resourcemanager/nodemanager

四、编写Hadoop集群常用脚本

1)Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver):myhadoop.sh

[amo@hadoop102 ~]$ cd /home/amo/bin
[amo@hadoop102 bin]$ vim myhadoop.sh

⦁ 输入如下内容

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.2.4/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.2.4/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.2.4/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.2.4/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.2.4/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.2.4/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

⦁ 保存后退出,然后赋予脚本执行权限
chmod 777 myhadoop.sh
2)查看三台服务器Java进程脚本:jpsall

[amo@hadoop102 ~]$ cd /home/amo/bin
[amo@hadoop102 bin]$ vim jpsall

⦁ 输入如下内容

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

⦁ 保存后退出,然后赋予脚本执行权限
chmod 777 jpsall
3)分发/home/atguigu/bin目录,保证自定义脚本在三台机器上都可以使用
xsync bin/

五、常用端口号说明

端口名称Hadoop2.xHadoop3.x
NameNode内部通信端口8020 / 90008020 / 9000 / 9820
NameNode HTTP UI 端口500709870
MapReduce查看执行任务端口80888088
历史服务器通信端口1988819888

最后

希望本篇文章能帮助你更好地理解和应用Hadoop集群的配置与管理方法,从而提高数据处理和分析的效率和可靠性。祝你在Hadoop集群的配置和管理中取得成功!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1493901.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于ceph-deploy部署Ceph 集群

Ceph分布式存储一、存储基础1、单机存储设备1.1 单机存储的问题 2、分布式存储(软件定义的存储SDS)2.1 分布式存储的类型 二、Ceph简介1、Ceph优势2、Ceph架构3、Ceph 核心组件4、OSD 存储后端5、Ceph 数据的存储过程6、Ceph 版本发行生命周期 三、Ceph 集群部署1、 基于 ceph-…

java: No enum constant javax.lang.model.element.Modifier.SEALED报错

这里我的idea版本为2021.03&#xff0c;JDK版本为21.0.2。经过大量冲浪后大多数都是让修改JDK版本&#xff0c;原因是Modifier.SEALED是JDK15新增的&#xff0c;但是当我修改完JDK版本后并无卵用。 尝试在代码中声明&#xff0c;也没问题可以引用到&#xff0c;这就怪了&#…

AI付费课程水分大 网红博主李一舟卖课被下架

日前&#xff0c;OpenAI旗下的文生视频模型Sora爆火&#xff0c;网上的AI付费课程嗅到商机&#xff0c;开始上线大量相关教学视频&#xff0c;几元至百元就号称能从入门小白到大神&#xff0c;其中就包括自称清华博士的李一舟。不过&#xff0c;李一舟很快就翻车了&#xff0c;…

6个免费可商用的高清图片素材网站,建议收藏!

作为设计师或者是自媒体创作者&#xff0c;都需要寻找高质量的图片素材为作品增添色彩&#xff0c;但随意找的图片素材很容易侵权。为了让大家能找到免费又能商用的图片素材&#xff0c;这期分享我经常用的6个图片素材网站&#xff0c;免费下载还能商用&#xff0c;赶紧收藏起来…

【产品经理方法论——产品的基本概念】

1. 产品学三元素 产品学有三个元素&#xff1a;用户、需求、产品 产品学的内容&#xff1a;根据用户的需求设计产品&#xff0c;使用产品服务用户 仅仅通过三个元素无法说明每个元素的概念&#xff0c;因为三个元素互为说明关系。 通过引入人/群体来说明三个元素的关系。 需…

腾讯云最新活动_腾讯云促销优惠_代金券-腾讯云官网入口

腾讯云服务器多少钱一年&#xff1f;62元一年起&#xff0c;2核2G3M配置&#xff0c;腾讯云2核4G5M轻量应用服务器218元一年、756元3年&#xff0c;4核16G12M服务器32元1个月、312元一年&#xff0c;8核32G22M服务器115元1个月、345元3个月&#xff0c;腾讯云服务器网txyfwq.co…

20240305-2-海量数据处理常用技术概述

海量数据处理常用技术概述 如今互联网产生的数据量已经达到PB级别&#xff0c;如何在数据量不断增大的情况下&#xff0c;依然保证快速的检索或者更新数据&#xff0c;是我们面临的问题。 所谓海量数据处理&#xff0c;是指基于海量数据的存储、处理和操作等。因为数据量太大无…

985硕的4家大厂实习与校招经历专题分享(part2)

我的个人经历&#xff1a; 985硕士24届毕业生&#xff0c;实验室方向:CV深度学习 就业&#xff1a;工程-java后端 关注大模型相关技术发展 校招offer: 阿里巴巴 字节跳动 等10 研究生期间独立发了一篇二区SCI 实习经历:字节 阿里 京东 B站 &#xff08;只看大厂&#xff0c;面试…

抖店应该怎么运营,2024新版入门教程分享,快速起店玩法

我是王路飞。 抖店快速起店的方法有很多&#xff0c;爆款截流、低价引流、全店动销、货损起店、达人带货等等。 今天主要给你们说下达人带货爆款截流的玩法&#xff0c;你们相结合着去做。 感兴趣的可以先收藏并关注&#xff0c;文末也有免费的抖店资料和领取。 内容来源于…

容器化技术

容器化技术并不是由Docker引入&#xff0c;而是有其发展历程。容器有效地将由单个操作系统管理的资源划分到孤立的组中&#xff0c;以更好地在孤立的组之间平衡有冲突的资惊使用需求。容器可以在核心CPU运行指令&#xff0c;而不需要任何专门的解释机制。容器避免了准虚拟化(pa…

Latte:一个类似Sora的开源视频生成项目

前段时间OpenAI发布的Sora引起了巨大的轰动&#xff0c;最长可达1分钟的高清连贯视频生成能力秒杀了一众视频生成玩家。因为Sora没有公开发布&#xff0c;网上对Sora的解读翻来覆去就那么多&#xff0c;我也不想像复读机一样再重复一遍了。 本文给大家介绍一个类似Sora的视频生…

第五篇:组件更新:完整的 DOM diff 流程是怎样的?(下)

下面我们来继续讲解上节课提到的核心 diff 算法。 新子节点数组相对于旧子节点数组的变化&#xff0c;无非是通过更新、删除、添加和移动节点来完成&#xff0c;而核心 diff 算法&#xff0c;就是在已知旧子节点的 DOM 结构、vnode 和新子节点的 vnode 情况下&#xff0c;以较…

Vue+SpringBoot打造超市账单管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统设计3.1 总体设计3.2 前端设计3.3 后端设计在这里插入图片描述 四、系统展示五、核心代码5.1 查询供应商5.2 查询商品5.3 新增超市账单5.4 编辑超市账单5.5 查询超市账单 六、免责说明 一、摘要 1.1 项目介绍 基于…

【轮式平衡机器人】——TMS320F28069片内外设之ePWM

声明&#xff1a;本系列博客参考有关专业书籍&#xff0c;截图均为自己实操&#xff0c;仅供交流学习&#xff01; 引入 脉冲宽度调制&#xff08;PWM&#xff09;是一种对模拟信号进行数字编码的方法&#xff0c;硬件原理是根据相应载荷的变化来调制晶体管栅极或基极的偏置&…

3. 在Go语言项目中使用Zap日志库

文章目录 一、介绍二、 默认的Go Logger1. 实现Go Logger2. 设置Logger3. 使用Logger4. Logger的运行5. Go Logger的优势和劣势 三、Uber-go Zap1. 为什么选择Uber-go zap2. 安装3. 配置Zap Logger4. 定制logger4.1 将日志写入文件而不是终端4.2 将JSON Encoder更改为普通的Log…

三极管控制元器件设计

一、设计原则 三极管作为开关控制设备的两个原则&#xff1a; 1、NPN型三极管&#xff1a;从设备取电流&#xff0c;导向GND。 2、PNP型三极管&#xff1a;从电源取电流&#xff0c;导向设备。 二、理论计算&#xff08;设计规则推演&#xff09; 分别以NPN和PNP控制三极管为…

算法简单试题

一、选择题 01.一个算法应该是( B ). A.程序 B.问题求解步骤的描述 C.要满足五个基本特性 D.A和C 02&#xff0e;某算法的时间复杂度为O(n)&#xff0c;则表示该…

【高效开发工具系列】vimdiff简介与使用

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

领取阿里云服务器1888元优惠券,如何登录云主机?

点击左上角“请登录” 首先点此领取阿里云服务器1888元优惠券 这样就登录成功了。 如果您没有淘宝帐号&#xff0c;可以自行注册一个。 登录成功后&#xff1a; 很多人进入阿里云首页告诉我找不到购买云主机的地方。 点击云服务器ECS即可找到。 付款后&#xff0c;登录阿里云…

期货开户交易切勿满仓操作

平时我们交易主要是仓位管理风险&#xff0c;切勿不要满仓操作&#xff0c;满仓相当于一锤子买卖&#xff0c;我们做交易要有交易计划&#xff0c;计划中除了开仓点.止损点.止盈点外&#xff0c;还有加仓点&#xff0c;所以我们要留下充足的加仓仓位&#xff0c;有很多投资者是…