在云服务器上部署Hadoop
步骤1:更新系统
sudo apt-get update
sudo apt-get upgrade
步骤2:安装Java
Hadoop需要Java运行环境。首先,安装OpenJDK 8:
sudo apt-get install openjdk-8-jdk
检查Java版本:
java -version
步骤3:创建Hadoop用户
请保证你创建用户的时候,此时你处于root用户下,也就是你当前目录为 /root
为Hadoop创建一个新用户:
sudo adduser --gecos "" hadoop
为新用户设置密码并按照提示操作。接下来,将hadoop用户添加到sudo组:
sudo usermod -aG sudo hadoop
步骤4:下载和解压Hadoop
切换到hadoop用户:
sudo su - hadoop
从Apache官方网站下载Hadoop:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz
解压Hadoop:
tar -xzf hadoop-3.3.5.tar.gz
步骤5:配置Hadoop环境变量
编辑.bashrc文件,添加以下内容:
export HADOOP_HOME=/home/hadoop/hadoop-3.3.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
保存并退出。运行以下命令以更新环境变量:
source ~/.bashrc
步骤6:配置Hadoop
注意
:在配置下列4个文件的过程中,这些文件里只能存在一对<configuration></configuration>
这样的代码块,请把原有的最下边的这样的代码块删除
,然后复制粘贴我提供的代码块。
使用命令:vim $HADOOP_HOME/etc/hadoop/core-site.xml
打开文件core-site.xml,添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
使用命令:vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml
打开文件hdfs-site.xml,添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
使用命令:vim $HADOOP_HOME/etc/hadoop/mapred-site.xml
打开文件mapred-site.xml,添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
使用命令:vim $HADOOP_HOME/etc/hadoop/yarn-site.xml
打开文件yarn-site.xml,添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
步骤7:格式化HDFS
在开始使用Hadoop之前,需要对HDFS进行格式化。执行以下命令:
hadoop namenode -format
步骤 7.1 为hadoop用户创建一个SSH密钥对,并将公钥添加到authorized_keys文件中
-
使用hadoop用户身份登录。
- 运行以下命令创建一个新的SSH密钥对(在提示时,您可以按回车选择默认设置,也可以选择输入密码以提高安全性):
ssh-keygen
- 在创建密钥对后,将生成的公钥添加到authorized_keys文件中:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
- 更改authorized_keys文件的权限,以保护其内容:
chmod 600 ~/.ssh/authorized_keys
- 最后,确保SSH服务可以使用密码验证。打开/etc/ssh/sshd_config文件:
sudo vim /etc/ssh/sshd_config
- 找到PasswordAuthentication这一行并设置为yes:
PasswordAuthentication yes
-
如果找不到该行,可以在文件末尾添加上述行。
-
保存并关闭文件。然后重启SSH服务:
sudo systemctl restart ssh
步骤8:启动Hadoop集群
使用以下命令启动Hadoop的NameNode和DataNode守护进程:
start-dfs.sh
使用以下命令启动YARN守护进程:
start-yarn.sh
步骤9:验证Hadoop安装
运行以下命令以检查Hadoop守护进程是否在运行:
jps
您应该看到以下进程:NameNode,DataNode,SecondaryNameNode,NodeManager和ResourceManager。
步骤10 访问Hadoop Web界面
请注意,如果您的云服务提供商有防火墙规则,您可能需要在防火墙中打开这些端口(9870和8088)以允许外部访问。如果您无法访问这些URL,请检查您的防火墙设置,并确保这些端口已开放。
我购买的云服务器是阿里云的,阿里云有防火墙规则,所以我要去云服务器管理控制台上的防火墙,去开放这两个端口。你们如果购买的也是阿里云的云服务器,可以按照我的操作来,如果不是阿里云的云服务器,你们可以类别我的操作。
关于如何找到自己的阿里云服务器的管理控制台,请参照我的这篇文章
- 保姆级教程:如何购买配置部署使用自己的阿里云主机/云服务器(ubuntu20.0.4)
在这里,添加如下的两条自定义规则。
现在,您可以通过以下URL访问Hadoop的Web界面:
NameNode:http://自己的公网ip地址:9870/
ResourceManager:http://自己的公网ip地址:8088/
总结
-
这样就完成了在Ubuntu 20.04上安装和部署Hadoop的过程。现在,您可以开始使用Hadoop进行数据处理和分析。如果您遇到任何问题,请随时私信,我会尽力帮助您
。 -
最后的最后,如果你觉得我的这篇文章写的不错的话,请给我一个赞与收藏,关注我,我会继续给大家带来更多更优质的干货内容
。