【Hadoop】在云服务器上部署Hadoop2.7.1伪分布式集群

news2024/11/26 12:49:10

文章目录

  • 一、准备Hadoop压缩包并安装
    • 1、安装Hadoop
      • (1)准备好hadoop压缩包
      • (2)安装hadoop
      • (3)查看是否安装成功
    • 2、将hadoop添加到环境变量
      • (1)在文件末尾添加以下内容
      • (2)保存文件,刷新配置
  • 二、伪分布式配置文件设置
    • 1、修改 `hadoop-env.sh`
    • 2、修改`core-site.xml`
    • 3、修改`hdfs-site.xml`
    • 4、拷贝`mapred-site.xml.template`文件内容并命名为`mapred-site.xml `
    • 5、修改`mapred-site.xml`
    • 6、修改 `yarn-site.xml`
  • 三、启动Hadoop集群
    • 1、关闭防火墙
    • 2、格式化HDFS(namenode)第一次使用时要格式化
    • 3、启动HDFS
    • 4、启动YARN
    • 5、访问HDFS的WEB管理页面
    • 6、访问YARN的WEB管理页面
    • 7、停止HDFS和YARN服务
  • 四、遇到问题
    • NameNode启动报错:Cannot assign requested address
    • 重新格式化HDFS
          • (1)删除残留文件
          • (2)手动创建配置文件
          • (3)重新格式化

我用到的资源

  • 华为云轻量服务器一台
    img-XoUqom0N-1669783034330
  • CentOS8
  • JDK1.8
  • Haddop-2.7.1.tar.gz
  • SecureCRT(用来远程连接)



一、准备Hadoop压缩包并安装


1、安装Hadoop

(1)准备好hadoop压缩包

image-20221129193925158


(2)安装hadoop

tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local # 将hadoop安装到/usr/local目录下

image-20221129194246510


(3)查看是否安装成功

/usr/local/hadoop-2.7.1/bin/hadoop version # 因为没有设置软链接,所以只能通过bin来查看
Hadoop 2.7.1
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 15ecc87ccf4a0228f35af08fc56de536e6ce657a
Compiled by jenkins on 2015-06-29T06:04Z
Compiled with protoc 2.5.0
From source with checksum fc0a1a23fc1868e4d5ee7fa2b28a58a
This command was run using /usr/local/hadoop-2.7.1/share/hadoop/common/hadoop-common-2.7.1.jar

image-20221129200341812



2、将hadoop添加到环境变量

vim /etc/profile

(1)在文件末尾添加以下内容

export HADOOP_HOME=/usr/local/hadoop-2.7.1
# PATH在安装jdk时已经设置,这里需要添加上HADOOP的路径
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

image-20221129210103494


(2)保存文件,刷新配置

# 刷新配置文件
source /etc/profile
# 测试是否生效
hadoop version

image-20221129210243717




二、伪分布式配置文件设置

先进入haoop的配置文件目录

 cd /usr/local/hadoop-2.7.1/etc/hadoop/ #/usr/local/hadoop-2.7.1为我的Hadoop的安装路径

image-20221129195039476


1、修改 hadoop-env.sh

修改文件中的export JAVA_HOME=${JAVA_HOME},将JAVA_HOME设置为你JDK的路径

vim  hadoop-env.sh
export JAVA_HOME=/usr/local/java/jdk1.8.0_341

image-20221129201246376


2、修改core-site.xml

vim core-site.xml

在文件末尾的<configuration></configuration>之间添加以下内容

注意:这里的地址千万别用外网地址,因为云服务器中只有一块内网网卡,外网地址是服务商分配的

<!--指定hadoop所使用的文件系统schema(URI),hdfs的老大(NameNode)的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.0.109:9000</value>
</property>
<!--指定hadoop运行时产生的文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.7.1/tmp</value>
</property>

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4Wk8xcZR-1669779228261)(../MDimages/Hadoop%E4%BC%AA%E5%88%86%E5%B8%83%E5%BC%8F%E9%9B%86%E7%BE%A4%E9%83%A8%E7%BD%B2_images/image-20221130105228595.png)]


3、修改hdfs-site.xml

vim hdfs-site.xml

在文件末尾的<configuration></configuration>之间添加以下内容

<!--指定hdfs副本的数量-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

在这里插入图片描述


4、拷贝mapred-site.xml.template文件内容并命名为mapred-site.xml

# 拷贝
cp mapred-site.xml.template mapred-site.xml

image-20221129204611336


5、修改mapred-site.xml

vim mapred-site.xml

在文件末尾的<configuration></configuration>之间添加以下内容

<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

img-Vo3uimgk-1669779228264


6、修改 yarn-site.xml

vim yarn-site.xml

在文件末尾的<configuration></configuration>之间添加以下内容

<!--指定yarn的老大(ResouceManager)的地址	-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>192.168.0.109</value>
</property>
<!--指定reduce获取数据的方式是mapreduce_shuffle	-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

在这里插入图片描述




三、启动Hadoop集群

1、关闭防火墙

# Hadoop启动需要使用很多端口,如果不关闭防火墙会出现无法连接的问题
systemctl stop firewalld

注意:需要root权限才能关闭

在这里插入图片描述



2、格式化HDFS(namenode)第一次使用时要格式化

hadoop namenode -format

image-20221129210901762


3、启动HDFS

# 启动hdfs
start-dfs.sh
#注意在启动过程要多次输入yes和root的密码

在这里插入图片描述

# 查看当前进程
jps

image-20221129225507696


4、启动YARN

# 启动YARN
start-yarn.sh

image-20221129230433932

# 查看当前进程
jps

image-20221129230344998

当DFS和YARN的进程都启动时,应存在5个进程

ResourceManager
SecondaryNameNode
DataNode
NodeManager
NameNode

5、访问HDFS的WEB管理页面

启动Hadoop后,通过访问50070端口可以进入HDFS的管理页面
在这里插入图片描述


6、访问YARN的WEB管理页面

启动Hadoop后,通过访问8088端口可以进入YARN的管理页面
在这里插入图片描述


7、停止HDFS和YARN服务

image-20221129235220382




四、遇到问题


NameNode启动报错:Cannot assign requested address

当我启动HDFS服务后发现少了一个NameNode进程,于是查看日志文件发现报BindException ,通过百度发现,原来是因为我在core-site.xml文件中设置的defaultFS值是外网IP,而云服务器只有一块内网网卡,外网IP是设置在云服务提供商的公网网关的,通过NAT技术映射到内网网卡上,所以NameNode无法访问该地址。
在这里插入图片描述

解决办法:

defaultFS值设置为服务器的内网IP


重新格式化HDFS

NameNode在第一次格式化失败后,需要删除格式化失败残留文件,才能重新进行格式化

(1)删除残留文件
rm -rf /usr/local/hadoop-2.7.1/tmp          # 删除hdfs缓存文件
rm -rf /usr/local/hadoop-2.7.1/dfs/name		# 删除NameNode缓存目录
rm -rf /usr/local/hadoop-2.7.1/dfs/data		# 删除DataNode婚车目录
rm -rf /usr/local/hadoop-2.7.1/logs			# 删除日志文件
(2)手动创建配置文件
mkdir -p /usr/local/hadoop-2.7.1/tmp          	# 创建hdfs缓存文件
mkdir -p /usr/local/hadoop-2.7.1/dfs/name		# 创建NameNode缓存目录
mkdir -p /usr/local/hadoop-2.7.1/dfs/data		# 创建DataNode婚车目录
mkdir -p /usr/local/hadoop-2.7.1/logs			# 创建日志目录
(3)重新格式化
hadoop namenode -format

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/50298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

怎样图片转文字?两分钟让你实现快速转文字

在日常的办公中&#xff0c;我们经常会遇到需要将纸质文件里的文字提取出来&#xff0c;再转换为电子档的情况&#xff0c;如果我们采用手动输入的话&#xff0c;不仅速度太慢&#xff0c;而且还可能因此耽误到后边的工作&#xff0c;是不是已经有小伙伴遇到这种现象&#xff0…

[附源码]Python计算机毕业设计Django房产中介管理系统

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

[附源码]计算机毕业设计springboot路政管理信息系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

RFC(Remote function call)

文章目录1 Definition2 Call process3. Communication4 Communication module5 RFC version .6 RFC and Web service7 Remote object maintain8 Call RFC1 Definition 2 Call process 3. Communication 4 Communication module 5 RFC version . 6 RFC and Web service 7 Remote…

mysql的主从复制

文章目录前言主备原理binlog的三种格式循环复制问题主备的搭建总结前言 mysql在日常中的使用是比较多的&#xff0c;大部分可能也都搭建过主从复制&#xff0c;或者集群模式。但是其中的原理不知道大家是否清楚。今天我们主要介绍的就是mysql主从复制的原理。 主备原理 主备…

Transformer对接公司需求的调研报告

1. 结构 从宏观的视角开始 首先将这个模型看成是一个黑箱操作。在机器翻译中&#xff0c;就是输入一种语言&#xff0c;输出另一种语言。 那么拆开这个黑箱&#xff0c;我们可以看到它是由编码组件、解码组件和它们之间的连接组成。 编码组件部分由一堆编码器&#xff08;enc…

Open vSwitch系列之数据结构解析深入分析ofpbuf

上一篇我们分析了hmap&#xff0c;hamp可以说是Open vSwitch中基石结构&#xff0c;很多Open vSwitch中数据结构都依赖hmap。本篇我们来分析一下ofpbuf&#xff0c;这个结构&#xff0c;我们从名字上就可得知&#xff0c;此数据结构用于存储数据的&#xff0c;比如收发OpenFlow…

1543_AURIX_TC275_CPU子系统_CPU内核实现特性

全部学习汇总&#xff1a; GreyZhang/g_TC275: happy hacking for TC275! (github.com) 这个章节看的信息应该是针对内核设计实现上TC275的具体实现特点&#xff0c;应该是覆盖了很多内核中的实施相关的特性的。 1. 在上下文功能支持上&#xff0c;P和更灵活一些。E核只支持DSP…

[附源码]Python计算机毕业设计SSM辽宁科技大学二手车交易平台(程序+LW)

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

非常强,批处理框架 Spring Batch 就该这么用!(场景实战)

前言 概念词就不多说了&#xff0c;我简单地介绍下 &#xff0c; spring batch 是一个 方便使用的 较健全的 批处理 框架。 为什么说是方便使用的&#xff0c;因为这是 基于spring的一个框架&#xff0c;接入简单、易理解、流程分明。 为什么说是较健全的&#xff0c; 因为它…

NVIDIA 7th SkyHackathon(八)使用 Flask 与 Vue 开发 Web

1.页面效果 Web 采用 flaskvue 开发&#xff0c;效果图如下 2.后端 import sys import subprocess import os from PIL import Image from datetime import datetime from ASR_metrics import utils as metricsfrom werkzeug.wrappers import Request, Response from …

卡尔曼滤波:过滤随机游走

本文是Quantitative Methods and Analysis: Pairs Trading此书的读书笔记。 我们知道&#xff0c;随机游走序列是到当前时间为止白噪声实现(white noise realization)的简单求和。换句话说&#xff0c;随机游走序列中的对下一个时间点值的估计&#xff08;预测&#xff09;是通…

为什么程序员买不起房子?

很多人都说程序员的收入那么高&#xff0c;为什么程序员还是买不起房呢&#xff1f;其实不是程序员不想买&#xff0c;是真的买不起…… 拿北京为例。北京的房价可谓是越来越奇葩&#xff0c;不仅仅是因为银行政策导致贷款越来越难审批下来&#xff0c;更重要的是进入地产市场…

音频3A算法详解

一、音频3A技术背景 手机电脑等智能设备的普及,AI智能、5G等技术的不断发展,语音通信成为了最方便快捷的远程交流方式,会议全向麦克风、会议一体化终端等会议系统逐渐成为企业经营中的重要工具。语音质量决定了企业远程沟通协作效果,其中噪音和回声能够严重影响到语音预处理…

图扑软件获评 2022 年“火炬瞪羚企业”

厦门火炬高新区 2022 年“火炬瞪羚企业”名单公布&#xff0c;图扑软件经过层层遴选&#xff0c;成功入围&#xff0c;获评 2022 年“火炬瞪羚企业”称号。 在 2021 年&#xff0c;图扑软件已经凭借领先的技术实力和发展潜力&#xff0c;入选福建省数字经济领域“瞪羚”创新企业…

连续学习入门(二):连续学习的三种类型

说明&#xff1a;本系列文章若无特别说明&#xff0c;则在技术上将 Continual Learning&#xff08;连续学习&#xff09;等同于 Incremental Learning&#xff08;增量学习&#xff09;、Lifelong Learning&#xff08;终身学习&#xff09;&#xff0c;关于 Continual Learni…

Express操作MongoDB【一.Express框架通过Mongoose模块操作MongoDB数据库;二.在接口中间件中使用Mongoose模块】

目录 一.Express框架通过Mongoose模块操作MongoDB数据库 1.MongoDB数据库&#xff1a; &#xff08;1&#xff09;存放数据的格式&#xff1a;key:value &#xff08;2&#xff09;数据库&#xff08;database&#xff09;---集合&#xff08;collection&#xff09;---文档…

使用vite 搭建vue 3的项目

一、目标&#xff1a; 使用vite搭建一个Vue 3 的项目&#xff0c;并启动成功。 二、准备工作 首先你要有Node.js、VSCode编辑器、Chrome浏览器 关于下载的问题Node.js可以去官网下载 链接&#xff1a;http://nodejs.cn/download/ 下载左边的长期支持版本就好&#xff0c;最新版…

基于Haar-Like特征的人脸检测算法研究-附Matlab代码

⭕⭕ 目 录 ⭕⭕✳️ 一、引言✳️ 二、Haar-Like 特征✳️ 三、人脸检测实验验证✳️ 四、参考文献✳️ 五、Matlab代码获取✳️ 一、引言 脸是每个人最重要的外貌特征&#xff0c;随着科技推动社会不断向前发展&#xff0c;人脸识别也逐渐融入人们的生活中&#xff0c;例如在…

活动预告丨EMNLP 2022半监督和强化对话系统研讨会12月7日线上召开!

由清华大学和中国移动联合承办的EMNLP 2022 SereTOD Workshop “Towards Semi-Supervised and Reinforced Task-Oriented Dialog Systems&#xff08;迈向半监督和强化的任务型对话系统&#xff09;”&#xff0c;即将与EMNLP 2022主会同步举办。因受疫情影响&#xff0c;研讨会…