从头搭hadoop集群--分布式hadoop集群搭建

news2025/1/21 9:25:32

模板虚拟机安装配置见博文:https://blog.csdn.net/weixin_66158110/article/details/139236148

配置文件信息如下:https://pan.baidu.com/s/1074eD5aNVugEPcjwVvi9jA?pwd=l1xq(提取码:l1xq)

hadoop版本:hadoop-3.1.3

一、克隆模版虚拟机

1、克隆虚拟机

鼠标移动至虚拟机--管理--克隆,除提到页面均点击下一页即可

(1)克隆类型必须选择“创建完整克隆”

(2)编辑名称和位置

点击完成后等待

再重复上述步骤两遍,分别命名为bigdata04、bigdata05

2、修改克隆机的ip地址

(1)打开虚拟机后进入如下目录

cd /etc/sysconfig/network-scripts

(2)编辑ifcfg-ens33文件内容

vi ifcfg-ens33

bigdata03、04、05分别改为73、74、75

3、修改克隆机的主机名称
vi /etc/hostname

bigdata03、04、05分别改为bigdata03、bigdata04、bigdata05

完成后把所有虚拟机都重启一下

二、MobaXterm连接三台虚拟机

点击Session进行如下配置

创建成功后如下图

三、在bigdata03安装hadoop

1、上传安装包

在bigdata03左边的输入框输入/opt,点击进入install_packages,将下载好的hadoop压缩包拖入

2、输入命令解压
tar -zxvf /opt/install_packages/hadoop-3.1.3.tar.gz -C /opt/softs/
3、重命名文件夹

进入到softs目录下

cd /opt/softs

 修改文件夹名称

mv hadoop-3.1.3/ hadoop3.1.3/
4、配置环境变量

(1)编辑配置文件

vim /etc/profile

(2)在配置文件末尾加入如下内容

#HADOOP_HOME
export HADOOP_HOME=/opt/softs/hadoop3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root

(3) 使配置文件生效

source /etc/profile

(4)验证环境变量配置是否生效

echo $HADOOP_HOME

显示如下图没问题 

四、配置三台虚拟机的映射 

1、编辑hosts文件
vim /etc/hosts

在文件末尾加上如下代码

192.168.173.73 bigdata03
192.168.173.74 bigdata04
192.168.173.75 bigdata05

2、将编辑好的hosts文件远程传输给bigdata04、bigdata05
scp /etc/hosts root@bigdata04:/etc/
scp /etc/hosts root@bigdata05:/etc/

3、检查是否传输过去

在bigdata04中输入如下命令

cat /etc/hosts

显示如下图成功 

五、设置免密登录

以下步骤在bigdata03、bigdata04、bigdata05上均要各自手动执行一次,共执行三次。

1、切换目录
cd /root
2、查看隐藏内容
ls -al
3、进入.ssh目录
cd .ssh
4、生成免密登录的公钥和私钥
ssh-keygen -t rsa

命令执行后,回车三次,可以完成公钥和私钥的生成

5、将公钥和私钥发送到要免密的虚拟机上
ssh-copy-id bigdata03
ssh-copy-id bigdata04
ssh-copy-id bigdata05

六、集群规划

bigdata03bigdata04bigdata05
HDFS

NameNode

DataNode

SecondNameNode

DataNode

DataNode
YARNNodeManagerNodeManager

ResourceManager

NodeManager

集群规划时有两个注意点:

  1. hdfs中的NameNode和SecondNameNode不要安装在同一个节点上
  2. yarn中的ResourceManager不要和NameNode和SecondNameNode在同一个节点上
1、在bigdata03中根据集群规划修改配置文件

(1)跳转到配置文件目录下

cd /opt/softs/hadoop3.1.3/etc/hadoop

(2)修改hadoop-env.sh

vim hadoop-env.sh

输入/JAVA_HOME检索位置,修改第三个位置的JAVA_HOME 

(3)将4个xml文件拖到/opt/softs/hadoop3.1.3/etc/hadoop目录下

(4)编辑workers

vim workers

输入如下内容(一个一行不要并行)

bigdata03
bigdata04
bigdata05

2、将hadoop3.1.3目录传输给bigdata04和05

在bigdata03中执行把东西远程传输过去就行

scp -r /opt/softs/hadoop3.1.3/ root@bigdata04:/opt/softs/
scp -r /opt/softs/hadoop3.1.3/ root@bigdata05:/opt/softs/
3、将profile文件传输给bigdata04和05
scp /etc/profile root@bigdata04:/etc/
scp /etc/profile root@bigdata05:/etc/

 在bigdata03中传输完后记得在bigdata04和bigdata05中使profile文件生效

source /etc/profile
Tips:到这里集群的安装就完成了,剩下的内容属于集群初始化

七、在NameNode所在节点(bigdata03)进行初始化

在bigdata03上执行如下语句

hdfs namenode -format

完成后/opt/softs/hadoop3.1.3目录下会出现data目录

 八、启动hdfs

1、在NameNode(bigdata03)上输入启动命令
start-dfs.sh

2、 在三台虚拟机上分别输入jps命令,检验输出是否与集群规划一致

九、在ResourceManager(bigdata05)上启动yarn

1、跳转到指定目录下
cd /opt/softs/hadoop3.1.3/sbin
2、启动命令
start-yarn.sh

报错:

解决方法:

(1)编辑profile文件

vim /etc/profile

在文件末尾添加这两行代码

export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

(2)远程传输给另外两台

scp /etc/profile root@bigdata03:/etc/
scp /etc/profile root@bigdata04:/etc/

(3)在三台模拟机中都输入如下命令使文件生效

source /etc/profile

(4)在bigdata05中重新启动yarn

start-yarn.sh
3、再次输入jps检验与集群规划是否一致

十、关闭hdfs和yarn

开启这两个后在关闭模拟机前都要记得关掉,这很重要!

stop-yarn.sh
stop-dfs.sh

使用jps命令检查,只剩下jps说明关闭成功,可以关机了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1789851.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

行车记录仪人体感应雷达开关模块,飞睿智能雷达模块穿透玻璃、告别漏触烦恼,安防停车监控新方案

随着汽车保有量的持续增长,行车记录仪作为汽车安全配件的必备品,其重要性日益凸显。然而,传统的行车记录仪传感器在停车时往往存在无法穿透玻璃、漏触等问题,给车主带来了诸多不便和安全隐患。本文将深入探讨停车场景下&#xff0…

2024年清洁能源与可持续发展国际会议(ICDESMF 2024)

2024 International Conference on Clean Energy and Sustainable Development 【1】大会信息 会议简称:ICDESMF 2024 大会时间:2024-07-22 大会地点:中国大理 截稿时间:2024-07-08(以官网为准) 审稿通知&#xff1a…

【云原生】Kubernetes----POD控制器

目录 引言 一、Pod控制器概述 二、Pod控制器的种类 (一)ReplicaSet (二)Deployment (三)StatefulSet (四)DaemonSet (五)Job 三、使用POD控制器 &a…

五、nodejs存储图片

nodejs存储图片 // 静态托管和数据库创建 创建数据库 新建Public进行静态托管 新建个img的文件夹 在index.js里 // 托管静态 app.use(/public, express.static(./Public))//托管静态资源 /*** 1.引入一个express框架* 2.在加载所有服务模块前,要先连接数据库* …

MySQL是怎么保证持久性的(redo log日志相关)

Mysql中 事务的很多实现,都是因为有日志的支撑,比如binlog、undo log、redo log等 MySQL是怎么保证持久性的 持久性是指,事务一旦提交,它对数据库的改变就应该是永久性的,接下来的其他操作或故障不能对其有影响。In…

Java(十)——内部类

文章目录 内部类静态内部类实例内部类匿名内部类局部内部类 内部类 Java内部类是一种特殊的类定义方式,它允许在一个类的内部定义另一个类。 内部类可以访问其所在外部类的成员变量和成员方法,这使得它非常适用于封装与外部类紧密相关的私有逻辑。 内…

如何处理SSL证书过期问题?

SSL证书是网络安全的重要组成部分,它为网站提供了数据加密、身份验证和增强用户信任等多重保护。然而,SSL证书并非永久有效,其有效期通常为一年。当SSL证书过期时,网站安全性会受到影响,甚至可能面临安全风险。本文旨在…

实战|基于YOLOv10与MobileSAM实现目标检测与分割【附完整源码】

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

开发一个comfyui的自定义节点-支持输入中文prompt

文章目录 目标功能开发环境实现过程翻译中文CLIP编码拓展仓库地址完整代码目标功能 目前comfyui的prompt提示词输入节点 CLIP Text Encode 只支持输入英文的prompt,而有时候我们需要自己制定一些prompt,所以就得将我们想要的提示词翻译为英文后再复制粘贴到该节点的输入框中…

PMP考试难吗?考试通过率有多少?

我们通常以考试的通过率来评判一个考试的难易程度。通常通过率达到60%以上,这个考试就不太难;达到80% ,这个考试就是不难的。 PMP考试难吗? 不少想要考PMP的小伙伴都会有这样的疑惑,首先以PMP的含金量来说&#xff0…

基于Dify的QA数据集构建(附代码)

大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步,扬帆起航。 大模型应用向开发路径:AI代理工作流大模型应用开发实用开源项目汇总大模…

python 内置map()函数(高效处理序列数据方法,将函数应用于一个序列的每个元素)(懒加载)

文章目录 深入解析 Python 内置函数 map()函数定义与用法基本示例 map() 与列表推导式比较(列表推导式在语法上更加简洁, map() 在某些情况下执行效率更高)示例:将数字转化为字符串 map() 结合 lambda 函数使用多个序列结论 深入解…

kubernetes负载均衡---MetalLB

https://github.com/metallb/metallb 参考 : https://mp.weixin.qq.com/s/MBOWfcTjFMmgJFWw-FIk0Q 自建的Kubernetes集群,默认情况下是不支持负载均衡的。当需要提供服务的外部访问时,可使用 Ingress、NodePort等方式。他们都存在一些问题 …

智能楼宇安防3D数据可视化平台满足日益增长的安防需求

在当今社会,安全是每个人和企业最为关心的问题。为满足日益增长的安防需求,3D可视化公司深圳华锐视点隆重推出安防平台3D可视化管理系统,以先进的三维技术为您的安全保驾护航。 安防平台3D可视化管理系统通过创新的三维可视化技术&#xff0c…

计算机毕业设计项目、管理系统、可视化大屏、大数据分析、协同过滤、推荐系统、SSM、SpringBoot、Spring、Mybatis、小程序项目编号1-500

大家好,我是DeBug,很高兴你能来阅读!作为一名热爱编程的程序员,我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里,我将会结合实际项目经验,分享编程技巧、最佳实践以及解决问题的方法。无论你是…

CCIG学术论坛|文档解析技术加速大模型训练与应用

目录 前言一、大模型训练和应用过程的关键环节面临的问题1、数据2、算力3、语料4、训练时间5、模型规模与复杂度6、部署和推理效率7、安全和隐私 二、高精准、高效率的文档解析三、文档解析技术难点四、TextIn文档解析1、算法Pipeline2、文档图像预处理算法效果3、版面分析算法…

平等未来的契机?探索通用人工智能AGI对社会平等的影响

打破知识壁垒:通用人工智能AGI如何助力社会平等与个人成长 ©作者|CodeDan 来源|神州问学 一. AGI是什么? AGI全称为Artificial General Intelligence,中文翻译过来为通用人工智能。它指的是至少在大多数任务上能与人类媲美…

开源模型应用落地-LangChain试炼-LCEL-表达式语言(一)

一、前言 尽管现在的大语言模型已经非常强大,可以解决许多问题,但在处理复杂情况时,仍然需要进行多个步骤或整合不同的流程才能达到最终的目标。然而,现在可以利用langchain来使得模型的应用变得更加直接和简单。 LCEL是什么&…

为什么说PMP考试比较简单?

PMP考试,说实话,真不算难。不信?听我慢慢给你分析。 PMP考试虽然考察的知识面宽,但很多知识的深度其实并不深。 项目经理嘛,就像是个通才,啥都得懂点,但啥也不用精通到专家级别。就像那概率统…

【图书推荐】《Ubuntu Linux系统管理与运维实战》

本书重点 全面学习Ubuntu系统操作,快速掌握Linux日常管理和运维 安装和配置、桌面环境、文件系统、文件和目录管理、用户和权限管理系统的启动和关闭、服务和进程管理、软件包管理、磁盘和文件系统管理网络管理、网络服务管理、系统和网络安全 内容简介 Linux是…