Hadoop 集群环境搭建

第一部分：系统安装... 3

1：图形化安装... 3

2：选择中文... 3

3：安装选项... 3

4：软件选项... 4

5：安装位置... 4

6：网络配置... 6

7：开始安装... 7

8：创建用户... 7

9：重启系统... 7

10：登录测试... 8

第二部分：初始化设置... 9

1：SSH远程登录... 9

2：yum 源更新... 9

3：安装vim和wget. 11

4：增加test 用户权限... 12

5：修改主机 /tec/hosts 文件... 14

6：配置test 账户免密ssh 登录... 15

7：防火墙设置开机关闭... 17

第三部分：Java jdk 安装配置... 19

1：检查JAVA状态... 19

2：安装JAVA 1.8. 19

3：配置环境变量... 20

第四部分：Hadoop 集群安装... 22

1：下载hadoop. 22

2：修改环境变量... 23

3：节点配置... 24

1：主节点安装（server1）... 24

2：备节点安装（server2 server3）... 28

第五部分：Hadoop 状态检查和常用命令... 31

1：网页状态查看... 31

2：控制台命令... 32

1：常用排查故障命令... 32

2：常用基础命令... 32

3：HDFS命令（Hadoop分布式文件系统）... 32

4：MapReduce作业运行命令... 33

5：YARN（Yet Another Resource Negotiator）命令... 33

6：Hadoop集群管理命令... 33

7：Hadoop配置文件管理命令... 33

第一部分：系统安装

大致过程：软件安装选择-------磁盘分区-------IP地址设置-----用户名密码设置

1：图形化安装

这里选择图形化安装。

2：选择中文

选择语言为中文。

3：安装选项

设置对应的安装选项。

4：软件选项

选择最小安装和系统管理工具。

5：安装位置

选择对应的磁盘并手动配置磁盘各分区大小。

点击自动创建

调整 /home 分区和/ 分区的大小,因为Hadoop默认的存储路径是在/目录下，所以/目录需要分配大一点。

分配后的各部分大小。

6：网络配置

手动指定IP地址和主机名。

215三台分别是192.168.1.190/191/192

7：开始安装

8：创建用户

创建root密码和用户，简单密码需要保存2次，密码安全测试环境不涉及，

9：重启系统

重启系统后就完成安装了。

10：登录测试

登录系统检测账号密码是否可以登录：

su -l root 切换到root账户

测试网络是否正常：

ping 223.5.5.5（223.5.5.5是阿里的公共DNS服务器地址）

以上完成操作系统的安装。

第二部分：初始化设置

yum update 更新-----vim wget 安装-----sudo 文件增加用户名----/etc/hosts 文件配置3台机器主机名解析---------SSH 免密登录配置------关闭防火墙设置

1：SSH远程登录

使用WindTerm的窗口水平分割和同步输入进行3台机器同时操作，节省时间。

2：yum 源更新

切换到root 账户，使用 yum update, 中间出现确认选项使用 y 确认。

命令：

yum update

更新完成

3：安装vim和wget

vim是文档编辑工具，wget 是下载HTTP的工具。

命令：(root用户模式下)中间出现确认选项使用 y 确认。

yum install vim

yum install wget

4：增加test 用户权限

vi和vim 基础操作。进入后 i和（insert）按键进入插入模式，esc 进入：模式

：行数 ===去到某一行

：wq ====保存修改

：wq! ====强制保存修改

：q ====退出

：q: ====强制退出

去往第100行。

新增test 用户权限，test 为之前创建的用户。

：wq 进行保存。

5：修改主机 /tec/hosts 文件

命令：

vim /etc/hosts

新增主机名和ip地址对应关系，ip地址根据实际地址（这里是我的内网地址）

修改完成后直接ping 主机名进行测试，通了代表修改成功。

6：配置test 账户免密ssh 登录

Hadoop 默认在非root账户下运行，所以需要返回 test 账户下，使用exit 退出

命令：

cd ~/.ssh/

进入test用户的ssh目录，提示无当前目录，使用ssh 随便远程一台机器即可产生目标目录，使用no 不保存密钥。然后就可以进入~/.ssh/ 目录了

命令：

ssh-keygen -t rsa

生成密钥，会出现一些提示，这里要连续按多次回车，直到它出现一个如下图所示的框框。

cat id_rsa.pub >> authorized_keys

chmod 600 ./authorized_keys

加入授权和修改文件权限。

分别使用以下命令拷贝ssh 秘钥，按提示输入 yes 和密码。

命令：

ssh-copy-id test@10.10.10.190

ssh-copy-id test@10.10.10.191

ssh-copy-id test@10.10.10.192

这里是3台机器相互拷贝对方的秘钥，因为我这里使用的是同步输入，每台机器都有自身的秘钥，所以这里有个报错，可以不用管，直接输入密码既可以。（以server3为例server1和server2 需要拷贝server3的密钥，这里提示要是否保存，输入yes 保存，然后输入test 用户密码即可，因为server3不用输入密码，所以这里直接进入了$ 输入模式，这个是正常的，其他2台这里也是一样的）

拷贝完成进行测试，分别使用域名和ip地址测试登录其他机器是否需要输入密码。

命令：

ssh test@server1

ssh test@10.10.10.190

我这里是使用的同步输入，每次都进入相同的服务器，这里可以看到每次都成功了。

7：防火墙设置开机关闭

命令：

sudo systemctl stop firewalld

sudo systemctl disable firewalld

接下来重启下服务器。准备安装java。

第三部分：Java jdk 安装配置

JAVA 安装------环境变量设置-----安装完成后检查

1：检查JAVA状态

切换root账户，输入命令java -version查看当前Java版本。（注意-）我这里显示未安装。

命令：

java -version

2：安装JAVA 1.8

Hadoop在1.7版本或1.8版本都可以，这是是安装的1.8版本的。

命令：

sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel

安装完成后检查一下

3：配置环境变量

输入vim ~/.bashrc我们在.bashrc中进行环境变量设置。

命令：

vim ~/.bashrc

进入文本后，在 # User specific aliases and functions下面加上如下一行：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

这里的JAVA_HOME的值是当前JDK的安装位置。添加上后就:wq保存退出。

输入source ~/.bashrc让刚才的变量设置生效。

命令：

source ~/.bashrc

完成以上操作后，我们输入如下命令进行检查。

命令：

java -version

$JAVA_HOME/bin/java –version

如下图所示，两个命令的输出结果一样，就没有问题。

以上显示java 安装成功。黄色地方报错的原因是 -version 的 - 不对，修改后就可以了运行了。

以上完成了java 的安装。

第四部分：Hadoop 集群安装

1：下载hadoop

(此处一定要切换回 test 账户，否则hadoop 启动不了)

退出到test 账户下，下载hadoop。

命令：

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

tar -xzvf hadoop-3.3.1.tar.gz

sudo mv hadoop-3.3.1 /usr/local/hadoop

2：修改环境变量

编辑用户的 ~/.bashrc 文件：，在文件末尾添加以下行：

命令：

vim ~/.bashrc

export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存并退出，然后执行命令：

source ~/.bashrc

3：节点配置

这里主节点和其他节点配置不一样，所以关闭了同步输入

1：主节点安装（server1）

1.1：查询java 的程序位置

命令：

sudo update-alternatives --config java

记录当前路径：/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.392.b08-2.el7_9.x86_64/jre

1.2：编辑 Hadoop 环境配置文件：

命令：

vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

添加以下内容： java 路径替换为上面记录的。

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.392.b08-2.el7_9.x86_64/jre

export HADOOP_HOME_WARN_SUPPRESS=true

1.3：配置 Hadoop 核心文件

命令：

vim /usr/local/hadoop/etc/hadoop/core-site.xml

添加以下内容： hdfs://10.10.10.190:9000 替换成对应的地址。

<name>fs.defaultFS</name>

</property>

</configuration>

1.4：配置 HDFS 文件系统

命令：

vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

添加以下内容：

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/usr/local/hadoop/data/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/usr/local/hadoop/data/datanode</value>

</property>

</configuration>

1.5：配置 YARN 资源管理器

命令：

vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

添加以下内容： 10.10.10.190 替换成对应的地址

<name>yarn.resourcemanager.hostname</name>

</property>

</configuration>

1.6：创建 HDFS 目录

命令：

hdfs namenode -format

1.7：启动 Hadoop 服务

命令：

start-dfs.sh

start-yarn.sh

主节点（server1）的hadoop 安装完成。

1.8：查看主节点状态

命名：

hdfs dfsadmin -report

2：备节点安装（server2 server3）

2.1: 从主节点复制 Hadoop 配置到从节点

命令：

scp -r 10.10.10.190:/usr/local/hadoop/etc/hadoop/* /usr/local/hadoop/etc/hadoop/

10.10.10.190修改为对应主节点ip地址

2.2：启动 Hadoop 服务

命令：

start-dfs.sh

start-yarn.sh

2.3：查看主节点状态

命名：

hdfs dfsadmin -report

以上就完成hadoop 3台机器集群环境的安装

第五部分：Hadoop 状态检查和常用命令

1：网页状态查看

YARN ResourceManager Web 用户界面 http://10.10.10.190:8088

Hadoop节点信息 http://10.10.10.190:9870

2：控制台命令

1：常用排查故障命令

验证一下集群的状态：hdfs dfsadmin -report

列出 HDFS 上的文件：hdfs dfs -ls

本地文件上传到 HDFS：hdfs dfs -put /path/to/local/file /user/test/

获取节点的主机名或 IP 地址：hdfs dfsadmin -report | grep "Name:"

强制 Hadoop 刷新节点列表： hdfs dfsadmin -refreshNodes

2：常用基础命令

3：HDFS命令（Hadoop分布式文件系统）

上传文件到HDFS:

hdfs dfs -put <local-source> <hdfs-destination>

从HDFS下载文件:

hdfs dfs -get <hdfs-source> <local-destination>

列出HDFS目录内容:

hdfs dfs -ls <hdfs-path>

创建HDFS目录:

hdfs dfs -mkdir <hdfs-directory>

删除HDFS文件或目录:

hdfs dfs -rm <hdfs-path>

复制本地文件到HDFS:

hdfs dfs -copyFromLocal <local-source> <hdfs-destination>

4：MapReduce作业运行命令

提交MapReduce作业:

hadoop jar <jar-file> <main-class> <input-path> <output-path>

查看正在运行的MapReduce作业列表:

yarn application -list

5：YARN（Yet Another Resource Negotiator）命令

查看集群节点资源使用情况:

yarn node -list

查看正在运行的应用程序:

yarn application -list

6：Hadoop集群管理命令

启动Hadoop集群:

start-all.sh

停止Hadoop集群:

stop-all.sh

查看Hadoop集群状态:

hadoop dfsadmin -report

7：Hadoop配置文件管理命令

查看Hadoop配置:

hadoop version

查看Hadoop配置文件内容:

cat $HADOOP_HOME/etc/hadoop/core-site.xml