CentOS虚拟机搭建Hadoop集群

news2024/11/20 1:40:07

注:本文是对 https://www.bilibili.com/video/BV1CU4y1N7Sh 的实践。

环境

  • CentOS 7.7
  • JDK 8
  • Hadoop 3.3.0

准备

VMWare的网络设置:略。

准备好3台虚拟机,其IP地址分别为 192.168.88.151192.168.88.152192.168.88.153 ,其 hostname 分别为 host1host2host3

以第一台VM为例:

[root@node1 ~]# ifconfig
ens33: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 192.168.88.151  netmask 255.255.255.0  broadcast 192.168.88.255
        inet6 fe80::5cc6:871d:9fc8:4b58  prefixlen 64  scopeid 0x20<link>
        ether 00:0c:29:34:0b:53  txqueuelen 1000  (Ethernet)
        RX packets 695530  bytes 698868702 (666.4 MiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 1633377  bytes 4000289117 (3.7 GiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        loop  txqueuelen 1000  (Local Loopback)
        RX packets 3807  bytes 556130 (543.0 KiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 3807  bytes 556130 (543.0 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
[root@node1 ~]# hostname
node1.itcast.cn
[root@node1 ~]# hostname -s
node1

编辑 etc/hosts 文件,如下:

[root@node1 ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.88.151 node1 node1.itcast.cn
192.168.88.152 node2 node2.itcast.cn
192.168.88.153 node3 node3.itcast.cn

安装JDK 1.8(略):

[root@node1 ~]# java -version
java version "1.8.0_241"
Java(TM) SE Runtime Environment (build 1.8.0_241-b07)
Java HotSpot(TM) 64-Bit Server VM (build 25.241-b07, mixed mode)
[root@node1 ~]# echo $JAVA_HOME
/export/server/jdk1.8.0_241

集群时间同步:

ntpdate ntp5.aliyun.com

防火墙关闭:

firewall-cmd --state	#查看防火墙状态
systemctl stop firewalld.service  #停止firewalld服务
systemctl disable firewalld.service  #开机禁用firewalld服务

ssh免密登录(略):

[root@node1 ~]# ssh node2
Last login: Mon Dec 12 10:15:18 2022 from 192.168.88.151
[root@node1 ~]# ssh node3
Last login: Mon Dec 12 10:16:09 2022 from 192.168.88.151

注:以上操作需要在3台VM上都做一遍。

部署

把hadoop的压缩包放到 /export/server 目录并解压。可以用所提供的 hadoop-3.3.0-Centos7-64-with-snappy.tar.gz ,也可以到Hadoop网站上下载最新的(3.3.4)包。以node1为例:

tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz

以下操作是在Hadoop的安装目录( /export/server/hadoop-3.3.0 )进行。

编辑 etc/hadoop/hadoop-env.sh 文件,添加如下内容:

export JAVA_HOME=/export/server/jdk1.8.0_241

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root 

编辑 etc/hadoop/core-site.xml 文件,在 <configuration></configuration> 之间添加如下内容:

<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:8020</value>
</property>

<!-- 设置Hadoop本地保存数据路径 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/export/data/hadoop-3.3.0</value>
</property>

<!-- 设置HDFS web UI用户身份 -->
<property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
</property>

<!-- 整合hive 用户代理设置 -->
<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>

<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>

<!-- 文件系统垃圾桶保存时间 -->
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
</property>

编辑 etc/hadoop/hdfs-site.xml 文件,在 <configuration></configuration> 之间添加如下内容:

<!-- 设置SNN进程运行机器位置信息 -->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node2:9868</value>
</property>

编辑 etc/hadoop/mapred-site.xml 文件,在 <configuration></configuration> 之间添加如下内容:

<!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

<!-- MR程序历史服务地址 -->
<property>
  <name>mapreduce.jobhistory.address</name>
  <value>node1:10020</value>
</property>
 
<!-- MR程序历史服务器web端地址 -->
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>node1:19888</value>
</property>

<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

编辑 etc/hadoop/yarn-site.xml 文件,在 <configuration></configuration> 之间添加如下内容:

<!-- 设置YARN集群主角色运行机器位置 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>node1</value>
</property>

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 是否将对容器实施物理内存限制 -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>

<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

<!-- 开启日志聚集 -->
<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>

<!-- 设置yarn历史服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://node1:19888/jobhistory/logs</value>
</property>

<!-- 历史日志保存的时间 7天 -->
<property>
  <name>yarn.log-aggregation.retain-seconds</name>
  <value>604800</value>
</property>

编辑 etc/hadoop/workers 文件,清除原来的内容,添加如下内容:

node1.itcast.cn
node2.itcast.cn
node3.itcast.cn

把上面的操作在node2和node3上分别再做一遍。或者也可以直接把node1上配置好的hadoop目录复制到node2和node3上的相应目录。

编辑 /etc/profile 文件(注意这次是根目录下的 etc 目录),添加如下内容:

export HADOOP_HOME=/export/server/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后运行 source /etc/profile 命令使之生效。注意3个VM上都要做一遍。

格式化和启停

格式化name node,由于name node部署在node1上,所以只需在node1上运行:

hdfs namenode -format

在刷屏的输出消息里,可以找到这一句:

2022-12-12 10:47:56,576 INFO common.Storage: Storage directory /export/data/hadoop-3.3.0/dfs/name has been successfully formatted.

注:格式化操作只能做一次。

启动/停止HDFS(在node1上运行):

  • start-dfs.sh | stop-dfs.sh
  • start-yarn.sh | stop-yarn.sh
  • start-all.sh | stop-all.sh

启动集群后,可以通过web页面查看:

  • http://192.168.88.151:9870

在这里插入图片描述
通过 Utilities -> Browse the file system ,可以通过GUI直接操作HDFS的文件系统。

  • http://192.168.88.151:8088

在这里插入图片描述
在这里可以查看Hadoop的任务调度和状态。

集群的角色

通过 jps 查看Java进程,确认各个VM在集群中的角色:

  • node1:
[root@node1 ~]# jps
91060 DataNode
126713 Jps
92090 ResourceManager
92284 NodeManager
90863 NameNode
  • node2:
[root@node2 server]# jps
91696 SecondaryNameNode
92054 NodeManager
90298 DataNode
128318 Jps
  • node3:
[root@node3 server]# jps
90017 DataNode
91745 NodeManager
128577 Jps

如下图所示:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/82001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RK3399 Android 8.1 开机动画制作全流程详解

文章目录一、开机动画包二、开机动画图片三、desc.txt编写规范四、开机动画临时生效五、开机动画内置系统一、开机动画包 N个文件夹和一个desc.txt。文件夹中是开机动画的图片资源&#xff0c;按照文件名顺序播放。desc.txt是开机动画的播放规范。压缩包必须是zip&#xff0c;…

力扣(LeetCode)1781. 所有子字符串美丽值之和(C++)

模拟 & 哈希集合 使用哈希集合&#xff0c;开字符集&#xff0c;下标对应小写字母顺序&#xff0c;值对应字符出现次数。 所有子字符串&#xff0c;根据示例看出&#xff0c;是连续子字符串。那么枚举起点&#xff0c;再枚举子字符串长度&#xff0c;就是所有连续子字符串…

web网页大作业:基于html设计与实现的茶文化网站12页(带psd)

&#x1f389;精彩专栏推荐 &#x1f4ad;文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业&#xff1a; 【&#x1f4da;毕设项目精品实战案例 (10…

如何使用PyMySQL模块进行增删改查?

在正式动手之前&#xff0c;我们需要先安装 PyMySQL 模块。 &#xff08;1&#xff09;使用 pip 安装, 清华镜像&#xff1a; pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pymysql &#xff08;2&#xff09;使用 conda 安装 conda install pymysql Step2: …

毕业/课程设计——基于STM32的智能灯光控制系统(智能家居、手机APP控制、语音控制)

文章首先介绍本系统所包含的功能&#xff0c;主要包含六方面功能&#xff0c;之后逐步分享开发过程&#xff0c;其流程如下&#xff1a;点亮灯带&#xff08;三极管&#xff09;→调节灯光亮度&#xff08;PWM&#xff09;→为系统添加远程控制功能→为系统添加语音识别功能→添…

【脚本项目源码】Python实现鲁迅名言查询系统

前言 本文给大家分享的是如何通过利用Python实现鲁迅名言查询系统&#xff0c;废话不多直接开整~ 开发工具 Python版本&#xff1a; 3.6 相关模块&#xff1a; PyQt5模块 fuzzywuzzy模块 环境搭建 安装Python并添加到环境变量&#xff0c;pip安装需要的相关模块即可。 …

R语言使用最优聚类簇数k-medoids聚类进行客户细分

k-medoids聚类简介 k-medoids是另一种聚类算法&#xff0c;可用于在数据集中查找分组。k-medoids聚类与k-means聚类非常相似&#xff0c;除了一些区别。k-medoids聚类算法的优化功能与k-means略有不同。最近我们被客户要求撰写关于聚类的研究报告&#xff0c;包括一些图形和统…

【JavaWeb开发-Servlet】将项目部署在云服务器

目录 1、环境 &#xff08;1&#xff09;连接服务器 &#xff08;2&#xff09;安装JDK1.8​编辑 ①到官网下载环境 ②将压缩包上传至linux中 ③解压jdk压缩包 ④修改文件名 ⑤配置环境变量 &#xff08;3&#xff09;安装MySQL5.0 ①先下载MySQL的yum库 ②选择5.7发行版本…

基于C#+SQL Server(WinForm)学生选课及成绩查询管理系统【100010027】

学生选课及成绩查询管理系统的设计与开发 1、项目背景 学生选课及成绩查询系统是一个学校不可缺少的部分&#xff0c;传统的人工管理档案的方式存在着很多的缺点&#xff0c;如&#xff1a;效率低、保密性差等&#xff0c;所以开发一套综合教务系统管理软件很有必要&#xff…

Shell基础

获取命令结果$? 如果上一个命令是成功的则结果为0 否则为127 结果是 www.qfdu.com is down! EOF使用 sh 其实是bash的一个链接&#xff0c;本质上还是执行bash 然后脚本第一句表示使用什么执行器&#xff0c;如果写的是python但是你执行的时候不指定python会报错&#x…

Linux安装Mysql(图文解说详细版,安装包tar包版)

上次教大家用yum安装mysql https://blog.csdn.net/csdnerM/article/details/121095527&#xff0c; 结果还要小伙伴不知道tar包怎么安装&#xff0c;现在出个tar包安装的教程出来供大家参考 文章目录&#x1f3e2;1.官网下载tar包&#xff08;安装包&#xff09;&#x1f3e3;…

多个著名 Go 开源项目被放弃,做大开源不能用爱发电,更不能只靠自己!

大家好&#xff0c;我是煎鱼。相信关注我的许多同学都有接触 Go 语言的开发&#xff0c;甚至在企业中多有实践。那么你在日常开发中&#xff0c;势必会接触到 gorilla[1] 组织下的各个 Go 开源项目。如下图&#xff1a;gorilla/mux[2]&#xff1a;Star&#xff1a;17.9k。a pow…

VMWare复制CentOS虚拟机后无法联网

1. 现象描述 原来使用一个 CentOS 虚拟机&#xff0c;这里叫 CentOS_1。网络配置如下&#xff1a;VMWare软件设置 NAT 模式&#xff0c;虚拟机配置 DHCP 自动获取 IP &#xff0c;开机启动网络。可以正常联网 现在要重新配置一个虚拟机&#xff0c;环境同 CentOS_1。因此我直…

视频恢复软件哪个好用?推荐这几款恢复率高的软件

如果你意外删除了电脑保存的视频文件&#xff0c;无论是单击回收站“还原”还是通过电脑系统备份“还原”&#xff0c;它都无法恢复。如何解决这个问题&#xff1f;此时&#xff0c;你需要寻求文件删除恢复软件的帮助&#xff0c;推荐下面这几款恢复率高的视频恢复软件。如何操…

安卓讲课笔记6.3 使用SQLite数据库

文章目录零、本讲学习目标一、导入新课二、新课讲解&#xff08;一&#xff09;SQLite数据库1、SQLite构成2、SQLite数据类型3、SQLite数据库特点&#xff08;二&#xff09;使用SQLiteDatabase类操作数据库1、创建安卓应用2、准备图片素材3、字符串资源文件4、主布局资源文件5…

0停机迁移Nacos?Java字节码技术来帮忙

摘要&#xff1a;本文介绍如何将Spring Cloud应用从开源Consul无缝迁移至华为云Nacos。本文分享自华为云社区《0停机迁移Nacos&#xff1f;Java字节码技术来帮忙》&#xff0c;作者&#xff1a;华为云PaaS服务小智。 1.市场迁移云环境痛点 市场微服务迁移云环境难主要有以下几…

[ MySQL ] 使用Navicat进行MySQL数据库备份 / 还原(Part 2:备份.sql文件方式)

本文主要讲解如何用Navicat&#xff08;Navicat Premium &#xff0c;或者Navicat for mysql&#xff09;进行MySQL备份和恢复数据库&#xff08;利用.sql文件的方式&#xff09;。 关于MySQL数据库备份&#xff0c;本博客内主要相关文章有&#xff1a; [ MySQL ] 使用Navica…

兔子来源中性粒细胞膜

兔子来源中性粒细胞膜 1.按组成元素分 构成细胞膜的成分有磷脂&#xff0c;糖蛋白&#xff0c;糖脂和蛋白质。 2.按组成结构分 磷脂双分子层是构成细胞膜的基本支架。细胞膜的主要成分是蛋白质和脂质&#xff0c;含有少量糖类。其中部分脂质和糖类结合形成糖脂&#xff0c;部分…

“你家娃为什么这么爱看书?”只用3招,孩子秒变小书迷

我儿子从幼儿园带回来一个消息&#xff0c;说班上所有的孩子都在老师那里订课外书。我儿子立即向老师解释说&#xff1a;我不需要买书。我妈妈给我买了很多书。我家里有很多书。我每天都读。家长群里有家长艾特问我的孩子为什么这么喜欢读书。为什么孩子们喜欢读书&#xff0c;…

作业12:第七章课后题

目录习题7-1 在小批量梯度下降中&#xff0c;试分析为什么学习率要和批量大小成正比习题7-2 在Adam算法中&#xff0c;说明指数加权平均的偏差修正的合理性习题7-9 证明在标准的随机梯度下降中&#xff0c;权重衰减正则化和L_{2}正则化的效果相同.并分析这一结论在动量法和Adam…