Kali Linux 安装搭建 hadoop 平台调用 wordcount 示例程序详细教程

news2025/4/13 15:01:19

步骤一：

目标：*安装虚拟机，在自己虚拟机上完成hadoop的伪分布式安装。（安装完成后要检查）*

1）前期环境准备：（虚拟机、jdk、ssh）

2）SSH相关配置

安装SSH Server服务器：apt-get install openssh-server

更改默认的SSH密钥

cd /etc/ssh

mkdir ssh_key_backup

mv ssh_host_* ssh_key_backup

创建新密钥：dpkg-reconfigure openssh-server

允许 SSH Root 访问，修改SSH 配置文件 /etc/ssh/sshd_config ：vim /etc/ssh/sshd_config

重启SSH：service ssh restart

查看是否安装成功：ssh -V

SSH登录本机：ssh localhost

若是登陆失败提示权限不足：

sudo passwd root 注意此处的root为当前登录本机所在的用户名，不一定是root

sudo service ssh restart

ssh localhost

SSH无密登录：

退出刚才的ssh localhost：exit

cd ~/.ssh/

ssh-keygen -t rsa 这里一直回车就行

cat ~/.ssh/id_rsa.pub >> ./authorized_keys

最后，SSH授权完成，再次ssh localhost 则不再需要密码了，也不再影响伪分布hadoop启动。

3）安装Hadoop

首先在官网上下载压缩包（版本3.2.2）。然后将压缩包拖进自己喜欢的目录（个人是/home/jay17）。

1、之后创建一个空的文件夹，用来解压hadoop

mkdir /home/Hadoop

2、解压，-C 指定解压路径到创建的文件夹路径。

tar zxvf hadoop-3.2.2.tar.gz -C /home/jay17/Hadoop/

3、授权，使文件夹具有读写文件的权利，否则直接影响其他相关操作，必须要执行！！

chown -R root /home/jay17/Hadoop/hadoop-3.2.2/

4、检测Hadoop是否解压安装正确：

cd /home/jay17/Hadoop/hadoop-3.2.2/

./bin/hadoop version

遇到报错说java环境变量不存在。

5、解决方法如下：

切换目录： cd etc/hadoop

执行：vim hadoop-env.sh

修改java_home路径和hadoop_conf_dir路径为具体的安装路径，例如：

export JAVA_HOME=/usr/local/jdk1.8.0_212

export HADOOP_CONF_DIR=/home/jay17/Hadoop/hadoop-3.2.2/etc/hadoop

重新加载使修改生效：source hadoop-env.sh

6、回去检测Hadoop，已经解压安装！

cd /home/jay17/Hadoop/hadoop-3.2.2/

./bin/hadoop version

4）配置Hadoop环境变量

与java环境变量的配置类似，用编辑器打开.bashrc文件（vim /root/.bashrc），保存修改后，执行source /root/.bashrc命令使其生效：

export HADOOP_HOME=/home/jay17/Hadoop/hadoop-3.2.2

export CLASSPATH= $C L A SSP A T H :$ HADOOP_HOME/lib

export PATH= $P A T H :$ HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存并生效后，便可在任何路径下使用hadoop命令了，使用hadoop version命令验证。出现此前执行./bin/hadoop version命令时所出现的信息，则证明环境变量修改无误。

一定要确定写对后再执行生效，避免不必要的麻烦，如果操作不当，导致命令几乎失效的话，请执行该命令恢复：

export PATH=/sbin:/bin:/usr/sbin:/usr/bin:/usr/local/bin

5）伪分布模式配置

Hadoop的伪分布运行是指，同一个节点既是名称节点（Name Node），也是数据节点(Data Node)，读取分布式文件系统HDFS的文件。安装不同模式Hadoop，就是修改其配置文件符合模式要求。

Hadoop有俩配置文件，一个是core-site.xml文件，另一个是hdfs-site.xml，其相对路径是在 hadoop-3.2.2/etc/hadoop/ 下。

首先，修改core-site.xml配置文件

vim /home/jay17/Hadoop/hadoop-3.2.2/etc/hadoop/core-site.xml

修改添加的内容：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/jay17/Hadoop/hadoop-3.2.2/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

参数fs.defaultFS为默认文件系统名称，其值为Hadoop的Name Node地址和端口号，如hdfs://localhost:9000，即表示Name Node是本机，端口9000是HDFS的RPC端口，是HDFS的默认端口。

参数hadoop.tmp.dir用于确定Hadoop文件系统的原信息与数据保存在哪个目录下，是Hadoop文件系统依赖的基础配置，很多路径都依赖，如果hdfs-site.xml文件中不配置Name Node和Data Node的存放位置，默认放在此路径中。

参数dfs.permissions的值如果是true则检查权限，否则不检查权限（每个人都可以存取文件），该参数NameNode上设定。

其次，修改hdfs-site.xml配置文件

vim /home/jay17/Hadoop/hadoop-3.2.2/etc/hadoop/hdfs-site.xml

修改添加的内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/jay17/Hadoop/hadoop-3.2.2/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/jay17/Hadoop/hadoop-3.2.2/tmp/dfs/data</value>
    </property>
</configuration>