大数据技术原理（二）：搭建hadoop伪分布式集群这一篇就够了

（实验一搭建hadoop伪分布式）

--------------------------------------------------------------------------------------------------------------------------------

一、实验目的

1.理解Hadoop伪分布式的安装过程

实验内容涉及Hadoop平台的搭建和配置，旨在提高对大数据处理框架的理解和实践能力。通过完成本实验，将能够独立完成Hadoop伪分布式环境的安装和配置。

2.学会JDK安装和编译hadoop源码包

同时，通过手动编译hadoop源码包，还将能够更深入地了解Hadoop的内部原理和工作机制，通过解决问题并不断思考，具备根据需求进行扩展和定制的能力。

3.学会Hadoop伪分布式安装和参数配置

修改Hadoop的配置文件，包括core-site.xml、hdfs-site.xml等，根据实际需求设置相应的参数，启动Hadoop集群服务，检查各个节点的运行状态是否正常。

二、实验环境

1.VMware WorkStation Pro 16

2.Jdk 1.8.0_241

3.hadoop2.7.5

三、实验原理

1.Hadoop架构概述

Hadoop是一个开源的分布式计算框架，主要用于存储和处理大规模数据集。它采用了分布式存储和计算的方式，将大型数据集分割成多个数据块，并将这些数据块分布式存储到多台计算机节点上。

2.伪分布式的安装

伪分布式实验是在单台计算机上模拟多个Hadoop节点的环境。通过在一台计算机上安装Hadoop软件并进行适当的配置，可以模拟一个包含多个节点的Hadoop集群，并让这些节点之间相互通信和协作。

四、实验步骤与实验结果

（一）服务器基础环境准备

1.修改好虚拟机主机名

vi /etc/hostname，将其改为node1

2.查看虚拟机IP地址

ifconfig，查看显示IP地址为192.168.88.100

3.修改主机名和IP的映射关系

vim /etc/hosts，输入：192.168.88.100 node1

与此同时，同步修改windows的C:\Windows\System32\drivers\etc\hosts文件

4.用主机名ping通：宿主机IP和外网IP

ping 192.168.88.100
ping www.baidu.com

5.关闭虚拟机防火墙和windows防火墙

（1）关闭虚拟机防火墙

#查看防火墙状态

systemctl status firewalld.service

#关闭防火墙

systemctl stop firewalld.service

#关闭防火墙开机启动

systemctl disable firewalld.service

（2）关闭windows防火墙

（二）在虚拟机上安装JDK

1.上传jdk

rz jdk-8u65-linux-x64.tar.gz，需要安装rz命令（yum install -y lrzsz）

2.解压jdk

tar -zxvf jdk-8u65-linux-x64.tar.gz -C /export/server

其中，tar命令参数解释如下：

-z：使用解压方式

-x：解压gz的文件

-v：显示解压信息

-f：带解压文件名

-C：指定解压路径

3.将java添加到环境变量中

vim /etc/profile

#在文件最后添加

export JAVA_HOME=/export/server/jdk1.8.0_241

export PATH=$PATH:$JAVA_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/

4.刷新配置文件

source /etc/profile

5.查看jdk安装情况

java -version

（三）重新编译hadoop

1.官方网站下载源码包

Index of /dist

2.下载对应版本编译包

https://archive.apache.org/dist/hadoop/common/

hadoop-2.7.5-src.tar.gz //source 源码包

hadoop-2.7.5.tar.gz //官方编译后安装包

3.进行hadoop源码包编译

在源码的根目录下有编译相关的文件BUILDING.txt 指导如何编译。

使用maven进行编译联网jar.

4.编译环境进行目录创建

mkdir -p /export/server

5.安装编译相关的依赖

yum install gcc gcc-c++ make autoconf automake libtool curl lzo-devel zlib-devel openssl openssl-devel ncurses-devel snappy snappy-devel bzip2 bzip2-devel lzo lzo-devel lzop libXtst zlib -y

yum install -y doxygen cyrus-sasl* saslwrapper-devel*

6.手动安装cmake

#yum卸载已安装cmake 版本低

yum erase cmake

#解压

tar zxvf CMake-3.19.4.tar.gz

#编译安装

cd /export/server/CMake-3.19.4

./configure

make && make install

#验证

[root@node1 ~]# cmake -version

cmake version 3.19.4

#如果没有正确显示版本请断开SSH连接重写登录

7.手动安装snappy

#卸载已经安装的

rm -rf /usr/local/lib/libsnappy*

rm -rf /lib64/libsnappy*

#上传解压

tar zxvf snappy-1.1.3.tar.gz

#编译安装

cd /export/server/snappy-1.1.3

./configure

make && make install

#验证是否安装

[root@node1 snappy-1.1.3]# ls -lh /usr/local/lib |grep snappy

-rw-r--r-- 1 root root 511K Nov 4 17:13 libsnappy.a

-rwxr-xr-x 1 root root 955 Nov 4 17:13 libsnappy.la

lrwxrwxrwx 1 root root 18 Nov 4 17:13 libsnappy.so -> libsnappy.so.1.3.0

lrwxrwxrwx 1 root root 18 Nov 4 17:13 libsnappy.so.1 -> libsnappy.so.1.3.0

-rwxr-xr-x 1 root root 253K Nov 4 17:13 libsnappy.so.1.3.0

8.安装maven

#解压安装包

tar zxvf apache-maven-3.5.4-bin.tar.gz

#配置环境变量

vim /etc/profile

export MAVEN_HOME=/export/server/apache-maven-3.5.4

export MAVEN_OPTS="-Xms4096m -Xmx4096m"

export PATH=:$MAVEN_HOME/bin:$PATH

source /etc/profile

#验证是否安装成功

[root@node1 ~]# mvn -v

Apache Maven 3.5.4

#添加maven 阿里云仓库地址加快国内编译速度

vim /export/server/apache-maven-3.5.4/conf/settings.xml

<id>alimaven</id>

<name>aliyun maven</name>

<url>http://maven.aliyun.com/nexus/content/groups/public/</url>

<mirrorOf>central</mirrorOf>

</mirror>

</mirrors>

9.安装ProtocolBuffer 3.7.1

#卸载之前版本的protobuf

#解压

tar zxvf protobuf-3.7.1.tar.gz

#编译安装

cd /export/server/protobuf-3.7.1

./autogen.sh

./configure

make && make install

#验证是否安装成功

[root@node1 protobuf-3.7.1]# protoc --version

libprotoc 3.7.1

10.编译hadoop

#上传解压源码包

tar zxvf hadoop-2.7.5-src.tar.gz

#编译

cd /root/hadoop-2.7.5-src

mvn clean package -Pdist,native -DskipTests -Dtar -Dbundle.snappy -Dsnappy.lib=/usr/local/lib

#参数说明：

Pdist,native ：把重新编译生成的hadoop动态库；

DskipTests ：跳过测试

Dtar ：最后把文件以tar打包

Dbundle.snappy ：添加snappy压缩支持【默认官网下载的是不支持的】

Dsnappy.lib=/usr/local/lib ：指snappy在编译机器上安装后的库路径

11.编译后安装包路径

/root/hadoop-2.7.5-src/hadoop-dist/target

（四）安装hadoop伪分布式

1.上传Hadoop安装包

hadoop-2.7.5-Centos7-64-with-snappy.tar.gz

tar zxvf hadoop-2.7.5-Centos7-64-with-snappy.tar.gz -C /export/server/

2.切换到配置文件目录

cd /export/server/hadoop-2.7.5/etc/hadoop

3.修改hadoop-env.sh

export JAVA_HOME=/export/server/jdk1.8.0_241

#文件最后添加

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

4.修改core-site.xml

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/export/data/hadoop-2.7.5</value>

</property>

<name>hadoop.http.staticuser.user</name>

</property>

<name>hadoop.proxyuser.root.hosts</name>

</property>

<name>hadoop.proxyuser.root.groups</name>

</property>

5.修改hdfs-site.xml

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.namenode.http-address</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/namenodeDatas</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/datanodeDatas</value>

</property>

<name>dfs.namenode.edits.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/nn/edits</value>

</property>

<name>dfs.namenode.checkpoint.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/snn/name</value>

</property>

<name>dfs.namenode.checkpoint.edits.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.permissions</name>

<value>false</value>

</property>

<name>dfs.blocksize</name>

</property>

<name> dfs.hosts </name>

<value>/export/server/hadoop-2.7.5/etc/hadoop/slaves </value>

</property>

</configuration>

6.修改mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

<name>yarn.app.mapreduce.am.env</name>

<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>

</property>

<name>mapreduce.map.env</name>

<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>

</property>

<name>mapreduce.reduce.env</name>

<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

7.修改yarn-site.xml

<name>yarn.resourcemanager.hostname</name>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.pmem-check-enabled</name>

<value>false</value>

</property>

<name>yarn.nodemanager.vmem-check-enabled</name>

<value>false</value>

</property>

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log.server.url</name>

<value>http://node1:19888/jobhistory/logs</value>

</property>

<name>yarn.log-aggregation.retain-seconds</name>

</property>

8.修改slaves文件（3.0版本之后更名为works文件）

cd /export/server/hadoop-2.7.5/etc/hadoop
vim slaves // 将主机名node1填进去

9.将hadoop添加到环境变量

vim /etc/proflie

export HADOOP_HOME=/export/server/hadoop-2.7.5

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

10.首次启动hadoop（格式化namenode）

hdfs namenode -format

#切记不可以多次格式化

（五）hadoop安装后初体验

1.启动hadoop软件

# 切换到启动脚本文件目录
cd /export/server/hadoop-2.7.5/sbin

# 运行一键启动hadoop服务的命令
./start-all.sh

# 查看节点上的服务情况
jps

2.启动hdfs的UI界面

# 在浏览器上输入
node1:50070

3.在hdfs上进行文件操作

# linux终端上进行命令行

hadoop fs -ls /

hadoop fs -mkdir /li-qi-liang

4.运行mapreduce程序

# 准备wordcount.txt文件，文件内容如下：

hello hello

world world

hadoop hadoop

hello world

hello flume

hadoop hive

hive kafka

flume storm

hive oozie

# 在hdfs上创建文件目录

hadoop fs -mkdir -p /wordcount/input

hadoop fs -put ./wordcount.txt /wordcount/input

# 切换到hadoop自带的mapreduce的jar包目录

cd /export/server/hadoop-2.7.5/share/hadoop/mapreduce

# 执行wordcount的mapreduce计算

hadoop jar hadoop-mapreduce-examples-2.7.5.jar wordcount

/wordcount/input /wordcount/output

第一个参数：wordcount表示执行单词统计

第二个参数：指定输入文件的路径

第三个参数：指定输出结果的路径（该路径不能已存在）

5.关闭hadoop软件

# 切换到启动脚本文件目录
cd /export/server/hadoop-2.7.5/sbin

# 运行一键关闭hadoop服务的命令
./stop-all.sh
# 查看节点上的服务情况
jps

5.实验完毕，关闭虚拟机

# 方式一：

shutdown -h now

# 方式二：

init 0

# 方式三：

VMware上点击关机

五、实验总结

（一）发现问题与解决问题

1.编译hadoop出现警告消息

根据报错信息来看，编译hadoop过程中出现了找不到SASL库的错误。

解决方法如下：

yum install -y doxygen cyrus-sasl* saslwrapper-devel*

2.本地上传文件到linux上出现乱码

根据网上资料显示，当使用rz命令上传文件出现乱码时，可以采取添加参数。

解决方法如下：

输入rz -be 即可解决

rz命令的参数说明：

-a, –ascii

-b, –binary 用binary的方式上传下载，不解释字符为 ascii

-e, –escape 强制escape 所有控制字符，比如 Ctrl+x，DEL 等

-ary –o-sync

-a 表示使用ascii码格式传输文件，如果是Dos格式的文件，会转换为unix格式

-r 使用 Crash recovery mode. 即文件传输中断会重传

-y 表示文件已存在的时候会覆盖

–o-sync 采用同步写模式，以处理从缓存写到磁盘时中断丢失的情况

3.使用vim编辑器编辑文件粘贴失效

当使用vim编辑器进行粘贴配置文件信息时，常常粘贴的内容变成注释且很难取消，原因是vim编辑器没有处于粘贴模式（paste）。

解决方法如下：

令vim编辑器处于命令模式（ESC键+冒号）：set paste

当粘贴结束后，set nopaste即可退出该模式。

4.伪分布式的集群时间不统一

当出现时间不统一的情况下，需要与阿里云服务器统一时间。

解决方法如下：

集群同步时间命令：ntpdate ntp5.aliyun.com

5.集群安全模式下不能修改删除

伪分布式集群误操作使得处于安全模式，需要退出安全模式才可以进行文件操作。

解决方法如下：

hadoop dfsadmin -safemode leave

6.hadoop中hdfs的9870端口用不了

通过查看版本差异，发现hadoop3.0以下的版本中默认端口号不是9870端口

解决方法如下：

node1:50070

（二）总结实验与思考感悟

搭建Hadoop伪分布式集群是学习和理解Hadoop分布式计算框架的重要一步。

1.规划和准备

在开始搭建伪分布式集群之前，需要充分规划和准备工作。首先，了解Hadoop的基本概念和架构，对其运行原理有清晰的理解。然后，确定使用的操作系统、网络设置和硬件配置。确保操作系统满足Hadoop的最低要求，并且网络配置和硬件资源能够支持集群的需求。

2.安装和配置Hadoop

根据操作系统选择适当版本的Hadoop，下载并解压安装包。在安装过程中，需要进行一些关键配置，例如修改核心配置文件（如hadoop-env.sh、core-site.xml、hdfs-site.xml等），指定必要的路径、端口、日志目录等。此外，还要设置SSH免密登录，以便节点之间能够相互通信。在此过程中，需要仔细阅读官方文档，并参考示例配置进行调整。

3.单节点测试

在搭建伪分布式集群之前，可以先在单个节点上进行测试和调试。这样可以确保Hadoop的基本功能正常工作。在单节点测试中，需要验证HDFS文件系统的正常操作（如上传、下载、移动文件等），以及MapReduce任务的执行情况。通过这些测试可以熟悉Hadoop的命令和工作流程，并排查可能出现的问题。

4.集群部署

完成单节点测试后，可以将配置好的Hadoop复制到其他节点上，以搭建伪分布式集群。确保所有节点都有相同的软件版本和配置文件。在部署过程中，需要注意各个节点之间的通信，包括网络连接、防火墙设置、主机名解析等。确保集群节点之间能够互相访问，并且能够正常启动和停止Hadoop服务。

5.集群测试和优化

完成集群部署后，进行一系列的测试和性能优化工作。可以使用一些标准的Hadoop测试任务（如WordCount、Sort等）对集群进行压力测试。观察任务的执行时间、资源占用情况、数据分布等指标，根据结果进行性能调优，包括调整配置参数、增加节点、优化数据存储和计算等方面。此外，还应进行故障模拟和容错测试，确保集群在部分节点故障的情况下依然能够正常运行。

6.学习和扩展

搭建伪分布式集群不仅是为了实现一个运行的Hadoop环境，更重要的是学习和理解分布式计算的核心概念和机制。在搭建过程中，要积极探索和研究Hadoop的原理，理解其如何管理数据、调度任务、处理故障等。此外，还可以尝试扩展集群规模，增加节点数量，进行更大规模的数据处理和并行计算，以进一步提升对Hadoop的理解。

总结起来，搭建Hadoop伪分布式集群是一个学习和实践的过程。需要有足够的耐心和细心，仔细阅读官方文档和参考资料，并能够灵活应对可能出现的问题和挑战。通过这个过程，不仅可以构建一个可用的分布式计算环境，还能够深入理解Hadoop的工作原理和分布式系统的设计思想。