实验3 Hadoop集群运行环境搭建和使用
-
一、实验介绍
本节实验旨在引导学生通过实际操作搭建一个基本的Hadoop集群,并进行基本的使用验证。实验包括在集群节点上添加域名映射以实现节点间的相互识别,配置免密SSH登录以便无密码访问各节点,安装和配置JDK以满足Hadoop的运行需求。此外,本实验还涉及创建命令和文件同步脚本来维持集群的一致性,安装和配置Hadoop分布式文件系统(HDFS),以及对主节点的格式化和整个Hadoop集群的启动。最后,学生将通过查看进程和验证HDFS环境来检查集群的运行状况。本实验在于让学生深入理解Hadoop集群的运行机制和配置过程,从而掌握大数据技术的核心概念和实践技能。学生将学习如何在分布式计算环境中配置和管理关键组件,这对于处理和分析健康医疗等领域的大规模数据集至关重要。通过这一实践,学生不仅能够熟悉Hadoop集群的搭建流程,还能够增强对分布式数据存储和处理的综合理解,为未来在大数据领域的工作或研究打下坚实的基础。
二、实验目的
1.了解Hadoop及其在健康医疗大数据应用中的作用。
2.熟悉理集群环境格式化和启动的步骤,以及如何验证HDFS环境是否正常工作。
3.掌握Hadoop集群的基本搭建流程,包括域名映射、SSH免密登录、JDK安装和配置等。
三、实验准备
1.所需安装包:jdk-8u231-linux-x64.tar.gz、hadoop-3.2.1.tar.gz、xshell、xftp;
2.获取3台虚拟机master、salve1、slave2的IP地址;
3.试验操作以单人进行。
四、实验步骤
在正式配置Hadoop分布式集群环境之前,利用ifconfig或者hostname -i命令查看三台虚拟机对应的IP地址,后续实验为了方便均利用xshell进行连接三台机器。在本实验中三台虚拟机的IP地址为如下表所示。
虚拟机名称 |
IP地址 |
账号 |
密码 |
master |
192.168.107.128 |
root |
hadoop |
slave1 |
192.168.107.129 |
root |
hadoop |
slave2 |
192.168.107.130 |
root |
hadoop |
利用xhell进行连接虚拟机。打开xshell->新建,在名称中输入master,在主机中输入你自己的虚拟机IP。
然后单击用户身份验证,在用户名处输入账号:root,在密码处输入密码:hadoop。然后点击确定->连接即可,用同样的方式连接为slave1、slave2创建连接。
1.添加域名映射
修改hosts文件,添加所有主机IP地址和主机名对应关系。
# vi /etc/hosts
输入下述内容(根据自己的IP进行修改)
192.168.107.128 master
192.168.107.129 slave1
192.168.107.130 slave2
修改完成后,按下ESC键输入:wq保存退出。可用cat命令查看修改后的hosts文件内容。
# cat /etc/hosts
按照同样的方式将上传内容配置到slave1、slave2中的/etc/hosts文件。
2.配置免密登录
使用命令生成服务器密钥。(输完命令按四次回车,三台机器均需要操作)
# ssh-keygen
进入/root/.ssh/目录,可查看生成的密钥。
# cd /root/.ssh/
# ll
使用ssh-copy-id命令拷贝公钥到目标主机。(所有节点都需进行下列操作,在提示处输入yes)
# ssh-copy-id master
# ssh-copy-id slave1
# ssh-copy-id slave2
三台节点处理完成后,利用ssh登录目标主机,可发现三台节点间可以任意切换,不再需要输入密码。登录后可利用exit退回上一级节点。
例如在master节点中利用ssh slave1切换到slave1。可以看见前面由master变成了slave1。
3.安装和配置JDK
利用xftp将jdk-8u231-linux-x64.tar.gz、hadoop-3.2.1.tar.gz上传到master节点的/usr/local/install_pack/目录下。
进入安装包目录(提前将安装包上传到install_pack目录下)
#cd /usr/local/install_pack/
解压JDK安装包到/usr/local/software目录下,输入下列命令
# tar -zxvf jdk-8u231-linux-x64.tar.gz -C /usr/local/software/
查看
# ls -lrt /usr/local/software