【Linux】Hadoop-3.4.1的伪分布式集群的初步配置

news2025/7/18 4:32:56

配置步骤

一、检查环境

# 目前还是 JDK8 最适合 Hadoop
java -version
echo $JAVA_HOME

Hadoop

hadoop version
echo $HADOOP_HOME

二、配置SSH免密登录

Hadoop需要通过SSH管理节点（即使在伪分布式模式下）

sudo apt install openssh-server    # 安装SSH服务（如未安装）

cd ~/.ssh/

ssh-keygen -t rsa    # 生成密钥对

cat ./id_rsa.pub >> ./authorized_keys    # 添加公钥到授权列表

ssh localhost    # 测试免密登录（首次可能需输入yes）

ssh-copy-id xxx
ssh xxx

三、修改Hadoop核心配置文件

进入配置文件目录：

cd $HADOOP_HOME/etc/hadoop

# 手动创建文件夹
mkdir -p /opt/software/hadoop/data/tmp
mkdir -p /opt/software/hadoop/data/logs
mkdir -p /opt/software/hadoop/data/namenode
mkdir -p /opt/software/hadoop/data/datanode

hadoop-env.sh

vim hadoop-env.sh

# 在文件最后一行加上
export JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64"
export HADOOP_CONF_DIR=/opt/software/hadoop/etc/hadoop
export HADOOP_LOG_DIR=/opt/software/hadoop/data/logs
export HADOOP_PID_DIR=/opt/software/hadoop/data/tmp

yarn-env.sh

vim hadoop-env.sh

# 在文件最后一行加上
export JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64"

mapred-env.sh

vim mapred-env.sh

# 在文件最后一行加上
export JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64"

把环境刷新一下

source hadoop-env.sh
source yarn-env.sh
source mapred-env.sh

core-site.xml

<configuration>
    <!-- 指定 NameNode 通信的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop01:8020</value>
    </property>
    <!-- 指定 hadoop 运行过程中临时数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/software/hadoop/data/tmp</value>
    </property>
</configuration>

hdfs-site.xml

<configuration>
    <!-- NameNode 存放元数据的本地目录-->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/software/hadoop/data/namenode</value>
    </property>
    <!-- NameNode web 端访问地址-->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop01:9870</value>
    </property>
    <!-- Datanode 在本地存储 block 块的目录 -->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/software/hadoop/data/datanode</value>
    </property>
    <!-- HDFS blocksize block 块大小 -->
    <property>
        <name>dfs.blocksize</name>
        <value>134217728</value>
    </property>
    <!-- HDFS blocksize 也就是 block 的副本数-->
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

mapred-site.xml

<configuration>
    <!-- 指定 MapReduce 程序运行在 Yarn 上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

<configuration>
    <!-- 指定 MR 走 shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HA
        DOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_H
        OME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

四、初始化与启动Hadoop

格式化HDFS

hdfs namenode -format

# 成功标志：Storage directory ... has been successfully formatted

启动HDFS和YARN

start-dfs.sh   # 启动NameNode和DataNode
start-yarn.sh  # 启动ResourceManager和NodeManager

jps 验证进程

jps

结束

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2320032.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【Linux】Hadoop-3.4.1的伪分布式集群的初步配置

配置步骤

一、检查环境

二、配置SSH免密登录

三、修改Hadoop核心配置文件

四、初始化与启动Hadoop

相关文章

楼宇自控系统的结构密码：总线与分布式结构方式的差异与应用

Fourier-Lerobot——把斯坦福人形动作策略iDP3封装进了Lerobot(含我司七月人形研发落地实践)

系统架构设计知识体系总结

计划管理工具应该具备的能（甘特图）

简单实用！百度AI + Raphael AI = 免费生图

2025-03-22 学习记录--C/C++-C 库函数 - getchar()

APM 仿真遥控指南

BBR 和 CUBIC 对长肥管道的不同反应

架构师面试（十九）：IM 架构

Spring框架入门指南：从Hello World到IOC容器

嵌入式电路设计软件个人安装步骤分享

git | 回退版本并保存当前修改到stash，在进行整合。[git checkout | git stash 等方法 ]

【Java SE】单例设计模式

安全守护：反光衣检测技术的革新之路

OSCP准备靶场联系-Kioptrix 1

【工具变量】中国各地级市是否属于“信息惠民国家试点城市”匹配数据（2010-2024年）

深度学习 Deep Learning 第7章深度学习的正则化

使用DeepSeek翻译英文科技论文，以MarkDown格式输出，使用Writage 3.3.1插件转换为Word文件

一文了解ThreadLocal

【免费】2000-2019年各省地方财政印花税数据