基于飞腾平台的Hadoop的安装配置

news2024/9/23 15:27:24
【写在前面】 飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力,聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域,包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块,旨在共享尖端技术,为开发者提供一个涵盖多领域的开发平台和工具套件。 点击这里开始你的技术升级之旅吧

image.png​​​

本文分享至飞腾开发者平台《飞腾平台Hadoop-3.2.2安装配置手册》

1 介绍

  Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

  HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。HDFS解决了超大数据存储问题。

  MapReduce是一个计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。

Hadoop的优点:

  1)支持超大文件。HDFS存储的文件可以支持TB和PB级别的数据。

  2)检测和快速应对硬件故障。数据备份机制,NameNode通过心跳机制来检测DataNode是否还存在。

  3)高扩展性。可建构在廉价机上,实现线性(横向)扩展,当集群增加新节点之后,NameNode也可以感知,将数据分发和备份到相应的节点上。

  4)成熟的生态圈。借助开源的力量,围绕Hadoop衍生的一些小工具。

  Hadoop的缺点:

  1)不能做到低延迟。高数据吞吐量做了优化,牺牲了获取数据的延迟。

  2)不适合大量的小文件存储。

  3)文件修改效率低。HDFS适合一次写入,多次读取的场景。

2 环境要求

2.1 硬件要求

  硬件要求如下表所示。

项目说明
CPUFT-2000+/64服务器
网络无要求
存储无要求
内存无要求

2.2 操作系统要求

  操作系统要求如下表所示。

项目说明
CentOS8
Kernel4.18.0-193.el8.aarch64

2.3 软件环境要求

  软件环境要求如下表所示。

项目说明
JDK11.0.11
Maven3.3.9
Protpbuf2.6.1

3 安装与配置步骤

3.1 基本环境

  在部署Hadoop前确保主机上有对应的JAVA环境,本文档使用的JDK版本是11.0.11

3.2 下载Hadoop压缩包

  1)下载Hadoop安装包:

    a)Index of /dist/hadoop/core/hadoop-3.2.2(apache.org)  官网

    b)Index of /apache/hadoop/common/hadoop-3.2.2(tsinghua.edu.cn)  清华镜像网站

  注*:在下载Hadoop安装包时,要选择编译好的,可以直接使用的压缩包,如下图所示:

image.png

  2)解压压缩包

>>tar -zxvf hadoop-3.2.2.tar.gz

  3)查看解压后的文件,并查看Hadoop版本判断是否可用

image.png

>>bin/hadoop version

3.3 将Hadoop添加至环境变量

  编辑位于/etc目录下的profile文件

>> vim /etc/profile

  将以下代码追加至文件尾部

export HADOOP_HOME=/GSH/Hadoop-Hbase/hadoop-3.2.2

export PATH=\$HADOOP_HOME/bin:\$HADOOP_HOME/sbin:\$PATH

  保存后,执行命令:

>> source /etc/profile

3.4 在Hadoop中配置JAVA_HOME

  Hadoop相关的配置文档都存储在解压目录的etc/hadoop文件夹下

  1)编辑位于/root/GSH/Hadoop-Hbase/hadoop-3.2.2/etc/hadoop的hadoop-env.sh

>> vim hadoop-env.sh

  配置jdk路径:

export JAVA_HOME=/opt/jdk-11.0.11

image.png

  2)编辑位于/root/GSH/Hadoop-Hbase/hadoop-3.2.2/libexec的hadoop-config.sh

>> vim hadoop-config.sh

  配置jdk路径:

export JAVA_HOME=/opt/jdk-11.0.11

image.png

3.5 修改配置文件

3.5.1 core-site.xml

  Hadoop的核心组件文件是core-site.xml,位于/root/GSH/Hadoop-Hbase/hadoop-3.2.2/etc/hadoop目录下,用vim编辑core-site.xml:

>> vim core-site.xml

  将以下代码添加至<configuration> 和 </configuration>之间:

<property>

    <name>fs.defaultFS</name>

    <value>hdfs://localhost:9000</value>

</property>

<property>

    <name>hadoop.tmp.dir</name>

    <value>/root/GSH/Hadoop-Hbase/hadoop-3.2.2/tmp</value>

    <description>用于存储数据的目录</description>

    <description>tmp为目录名 可根据个人习惯命名</description>

</property>

3.5.2 hdfs-site.xml

  Hadoop的文件系统配置文件是hdfs-site.xml,位于/root/GSH/Hadoop-Hbase/hadoop-3.2.2/etc/hadoop目录下,用vim编辑hdfs-site.xml:

>> vim hdfs-site.xml

  将以下代码添加至<configuration> 和 </configuration>之间:

<property>

    <name>dfs.replication</name>

    <value>1</value>

</property>

<property>

    <name>dfs.namenode.name.dir</name>

    <value>/root/GSH/Hadoop-Hbase/hadoop-3.2.2/dfs/name</value>

</property>

<property>

    <name>dfs.datanode.dir</name>

    <value>/root/GSH/Hadoop-Hbase/hadoop-3.2.2/dfs/data</value>

    <description>网上的一些教程中并没有配置namenode和datanode</description>

    <description>建议添加,防止之后出错</description>

</property>

  Hadoop 的运行方式是由配置文件决定的(运行Hadoop时会读取配置文件),因此如果需要从伪分布式模式切换回非分布式模式,需要删除core-site.xml中的配置项。

  伪分布式虽然只需要配置fs.defaultFS和dfs.replication就可以运行,不过若没有配置 hadoop.tmp.dir 参数,则默认使用的临时目录为/tmp/hadoo-hadoop,而这个目录在重启时有可能被系统清理掉,导致必须重新执行format才行。

3.5.3 yarn-site.xml

  Yarn的站点配置文件是yarn-site.xml,位于/root/GSH/Hadoop-Hbase/hadoop-3.2.2/etc/hadoop目录下,用vim编辑yarn-site.xml:

>> vim yarn-site.xml

  将以下代码添加至<configuration> 和 </configuration>之间:

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

<property>

    <name>yarn.resourcemanager.address</name>

    <value>hadoop01:18040</value>

</property>

<property>

    <name>yarn.resourcemanager.scheduler.address</name>

    <value>hadoop01:18030</value>

</property>

<property>

    <name>yarn.resourcemanager.resource-tracker.address</name>

    <value>hadoop01:18025</value>

</property>

<property>

    <name>yarn.resourcemanager.admin.address</name>

    <value>hadoop01:18141</value>

</property>

<property>

    <name>yarn.resourcemanager.webapp.address</name>

    <value>hadoop01:18088</value>

</property>

  注*:上述代码中多次出现的“hadoop01”为主机名,在本文档的后续部分介绍。

3.5.4 MapReduce

  MapReduce是计算机框架文件,位于/root/GSH/Hadoop-Hbase/hadoop-3.2.2/etc/hadoop目录下,用vim编辑mapred-site.xml文件:

>> vim mapred-site.xml

  在<configuration>和</configuration>之间加入代码:

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

  对于相对较旧的hadoop版本,在hadoop-x.x.x/etc/hadoop子目录下可能已经有一个mapred-site.xml.template文件,需要将其复制并改名:

>> cp mapred-site.xml.template mapred-site.xml

3.6 更改主机hosts文件

  hosts文件一般位于/etc目录下(此etc并不是解压hadoop安装包后出现的etc目录)。使用vim编辑hosts文件:

>> vim hosts

  将ip主机名添加进去,如:

172.16.32.201 hadoop01

  名称可根据习惯修改,为了方便之后创建多集群,可修改成master,slave01等等。

3.7 格式化文件系统

  格式化namenode,在/root/GSH/Hadoop-Hbase/hadoop-3.2.2下操作,执行命令:

>> bin/hdfs namenode -format

image.png

  只要出现“Storage directory has been successfully formatted”就说明初始化成功了。

4 启动Hadoop

  为了尽可能的避免报错,回到hadoop-3.2.2目录下启动hadoop:

>> start-all .sh

  对于版本相对旧一点的hadoop版本,执行命令后可能会成功启动,但是对于3.2.2版本hadoop来说,执行命令后会显示如图3.6所示的信息:

image.png

  通过查询hadoop-env.sh文件描述可知,这是为了防止发生意外,仅(部分)锁定shell命令以仅允许某些用户执行某些子命令。

  解决方案:编辑位于/root/GSH/Hadoop-Hbase/hadoop-3.2.2/etc/hadoop目录下的hadoop-env.sh文件

>> vim hadoop-env.sh

  将以下代码添加到文档中:

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

image.png

  保存退出后,执行命令:

>> source hadoop-env.sh

  重新尝试启动hadoop

>> start-all.sh

4.1 查看Hadoop是否启动成功

  执行启动命令后,出现如图3.7所示输出信息说明启动成功:

image.png

  也可以使用jps命令查看是否启动成功:

>> jps

  出现NameNode, NodeManager等进程说明启动成功,如下图所示

image.png

4.2 关闭Hadoop

>> stop-all.sh

推荐阅读

  • 基于飞腾平台的Hbase的安装配置
  • 基于飞腾平台的Kafka移植与安装

欢迎广大开发者来飞腾开发者平台获取更多前沿技术文档及资料

如开发者在使用飞腾产品有任何问题可通过在线工单联系我们


版权所有。飞腾信息技术有限公司 2023。保留所有权利。

未经本公司同意,任何单位、公司或个人不得擅自复制,翻译,摘抄本文档内容的部分或全部,不得以任何方式或途径进行传播和宣传。

商标声明

Phytium和其他飞腾商标均为飞腾信息技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意

本文档的内容视为飞腾的保密信息,您应当严格遵守保密任务;未经飞腾事先书面同意,您不得向任何第三方披露本文档内容或提供给任何第三方使用。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,飞腾在现有技术的基础上尽最大努力提供相应的介绍及操作指引,但飞腾在此明确声明对本文档内容的准确性、完整性、适用性、可靠性的等不作任何明示或暗示的保证。

本文档中所有内容,包括但不限于图片、架构设计、页面布局、文字描述,均由飞腾和/或其关联公司依法拥有其知识产权,包括但不限于商标权、专利权、著作权等。非经飞腾和/或其关联公司书面同意,任何人不得擅自使用、修改,复制上述内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2046764.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

旅游卡真伪一招辨别,避免旅行陷阱!

揭秘旅游卡真伪&#xff01;一招教你识别隐藏陷阱&#xff0c;避免旅行大坑&#xff01; 对于热爱旅行的朋友们来说&#xff0c;旅游卡无疑是一种方便又实惠的选择。 然而&#xff0c;随着市场上的旅游卡种类越来越多&#xff0c;如何选择一张真实有效的旅游卡成为了大家关注…

CI/CD 自动化:最大限度地提高极狐GitLab 群组的“部署冻结”影响

极狐GitLab 是 GitLab 在中国的发行版&#xff0c;专门面向中国程序员和企业提供企业级一体化 DevOps 平台&#xff0c;用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规&#xff0c;而且所有的操作都是在一个平台上进行&#xff0c;省事省心省钱。可以一键安装极狐GitL…

矩阵获客时代,如何有效管理云微客短视频矩阵?

随着短视频内容数量的快速增长&#xff0c;一站式、高效、智能化的矩阵管理模式&#xff0c;正逐渐受到各个行业的关注和喜爱。那么该如何有效地管理短视频矩阵&#xff0c;确保内容的高质量、高效率和准确投放呢&#xff1f; 当今数字化时代&#xff0c;短视频已经成为了一种极…

Oracle 用户-表空间-表之间关系常用SQL

问题&#xff1a; 当某一个表数据量特别大&#xff0c;突然插入数据一直失败&#xff0c;可能是表空间不足&#xff0c;需要查看表的使用率 用户-表空间-表之间关系&#xff1a;用户可以有多个表空间&#xff0c;表空间可以有多个表&#xff0c;表只能拥有一个表空间和用户 1.…

联邦学习:破解农业大数据共享的安全难题

&#xff08; 于景鑫 国家农业信息化工程技术研究中心 &#xff09;农业大数据是农业智能化的基石,其共享与开放是发掘数据价值、驱动农业变革的关键。然而,数据隐私与安全问题如同数据共享之路上的一道坎,牵制着农业大数据的流动与融合。联邦学习作为一种颠覆性的分布式机器学…

1Panel应用推荐:Bytebase开源数据库DevOps解决方案

1Panel&#xff08;github.com/1Panel-dev/1Panel&#xff09;是一款现代化、开源的Linux服务器运维管理面板&#xff0c;它致力于通过开源的方式&#xff0c;帮助用户简化建站与运维管理流程。为了方便广大用户快捷安装部署相关软件应用&#xff0c;1Panel特别开通应用商店&am…

技术爱好者完全用台式机部件定制游戏笔记本电脑

高端笔记本电脑的功能强大到令人难以置信的地步&#xff0c;但大多数笔记本电脑在至少几个关键性能方面仍然落后于台式机。一位 YouTuber 对这种情况感到厌倦&#xff0c;为了抹除这种差距&#xff0c;他开始了为期 14 个月的旅程&#xff0c;使用真正的台式机硬件打造自己的笔…

基于R语言遥感随机森林建模与空间预测;遥感数据处理与特征提取;数据分析与可视化

目录 第一章 理论基础与数据准备【夯实基础】 第二章 随机森林建模与预测【讲解实践】 第三章 实践案例与项目 更多应用 随机森林作为一种集成学习方法&#xff0c;在处理复杂数据分析任务中特别是遥感数据分析中表现出色。通过构建大量的决策树并引入随机性&#xff0c;随…

ubuntu 24.04 软件源配置,替换为国内源

ubuntu 默认的官网源下载速度非常慢&#xff0c;新装 ubuntu 系统首先把 apt 软件源替换成国内源。 1、使用软件和更新设置国内源 打开软件和更新&#xff0c;选择位于中国的服务器&#xff1a; 外链图片转存失败&#xff0c;源站可能有防盗链机制&#xff0c;建议将图片保存…

JavaEE 第11节 定时器

前言 本篇博客重点介绍定时器的简单实现&#xff0c;帮助理解其底层原理。关于JAVA工具类自带的定时器&#xff0c;只会简单介绍&#xff0c;详细使用参阅官方文档&#xff08;下文中有官方文档的连接&#xff09;。 一、什么是定时器 定时器的概念非常简单。 它在软件开发…

Umi-OCR 图片文字智能识别软件,不需联网,Linux 下运行错误修复,AI 识文一文搞定!

Umi-OCR 图片文字智能识别软件&#xff0c;不需联网&#xff0c;Linux 下运行除错修复&#xff0c;AI 识文一文搞定&#xff01; Umi-OCR 是一款开源的图片文字只能识别软件&#xff0c;支持多国语言识别&#xff0c;支持截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别。 …

C:数组传参的本质

1、一维数组传参的本质 数组传参是指在函数调用时将数组作为参数传递给函数。 int main() {int arr[10] { 1,2,3,4,5,6,7,8,9,10 };test(arr);return 0;}数组传参只需要写数组名就可以了。注意&#xff1a;数组名是arr&#xff0c;而不是arr[10] 数组传参形参该怎么写呢&am…

Linux git安装与部署

目录 git安装 1、下载与安装 2、配置git账号信息 创建本地仓库 1、创建本地代码库文件夹 2、创建项目代码本地仓库文件夹 3、进入到projCode目录下&#xff0c;创建git本地仓库 4、创建过滤文件.gitignore 5、添加.gitignore到git暂存区 6、提交.gitignore 7、将项目…

Spring Boot集成钉钉群通知机器人

文章目录 一、钉钉机器人配置1&#xff09;添加机器人2&#xff09;添加自定义机器人3&#xff09;设置机器人参数4&#xff09;添加机器人完成 二、依赖导入三、工具类封装四、关键字推送消息测试类1&#xff09;测试类2&#xff09;程序输出结果&#xff1a;3&#xff09;通知…

基于模糊神经网络的金融序列预测算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于模糊神经网络的金融序列预测算法matlab仿真,根据序列的MAD,RSI,KD等指标实现序列的预测和最终收益分析。 2.测试软件版本以及运行结果展示 MATLAB2022A版本…

使用Go语言将PDF文件转换为Base64编码

使用 Go 语言将 Base64 编码转换为 PDF 文件-CSDN博客本文介绍了如何使用 Go 语言将 Base64 编码转换为 PDF 文件&#xff0c;并保存到指定路径。https://blog.csdn.net/qq_45519030/article/details/141225772 在现代编程中&#xff0c;数据转换和编码是常见的需求。本文将介绍…

Ubuntu安装mysql 以及远程连接mysql Windows—适合初学者的讲解(详细)

目录 准备工作 一.Xshell中操作 &#xff08;1&#xff09;在虚拟机中安装mysql &#xff08;2&#xff09;连接Windows数据库 &#xff08;3&#xff09;进入linux数据库。 &#xff08;4&#xff09;修改mysql配置文件 二.Windows命令窗口操作 需要软件虚拟机&#xff0c;Xsh…

idea付费插件,哪个比较好用?

以下idea付费插件你们都用过哪些呢&#xff1f; 获取链接&#xff1a;https://web.52shizhan.cn

JUC3-共享模型之管程

共享带来的问题 分析 两个线程对初始值为 0 的静态变量一个做自增&#xff0c;一个做自减&#xff0c;各做 5000 次&#xff0c;结果是 0 吗&#xff1f; 分析&#xff1a; 以上的结果可能是正数、负数、零 因为Java中对静态变量的自增、自减并不是原子操作&#xff0c;需要…

三级_网络技术_29_网络安全技术

1.下列关于RAID的描述中&#xff0c;错误的是()。 服务器需要外加一个RAID卡才能实现RAID功能 RAID10是RAID0和RAID1的组合 些RAID卡可以提供SATA接口 RAID卡可以提供多个磁盘接口通道 2.下列关于RAID的描述中&#xff0c;错误的是()。 RAID5可靠性优于RAID1 些RAID卡可…