hadoop3.*集群搭建,小白必看

news2025/2/28 21:14:53

hadoop广义上讲是一个大数据生态圈,接受大量处理、处理大量数据的一个全套的框架!

hadoop3.x版本以后,主要有三大模块,HDFS、YARN、mapReduce这三大核心组成!

什么是HDFS?

分布式文件系统,hadoop集群的功能类似于三个臭皮匠抵一个诸葛亮,把很多配置低、廉价的服务器组织到一起,协调好发挥出最大的作用。

分布式文件系统就是把存储文件到可用的服务器上,你不用查看计划应该存储到哪个服务器上,HDFS管家帮你规划实现!!

什么是YARN?

简称资源调度框架,流水线的组长,活多的时候分配多一点的人,活少的时候分配少一点的人,不会浪费人力也不会让活积压干不完。 YARN就是流水线的组长,业务流程数据就是活,电脑内存就是工人!

什么是MapReduce?

计算组件,计算处理数据的封装底层的代码,你写代码的时候,调用可以省事情,但是发展很多年弊端很多,逐渐被弃用!

三个服务器的hostname分别是flinka flinkb flinkc flinka是我们集群的主机

flinka--->flinkb

flinka-->flinkc

flinka-->flinka

都做了免密登录,至于怎么实现,自行百度。很简单!!!

创建目录

在/dev/bigdata下创建三个同级别的文件夹

server 安装位置

data 存储数据位置

export 其他

一、下载hadoop、解压hadoop

1.1、配置hdfs-env.sh文件,这里是配置jdk环境变量以及指定各个进程用户名的地方

目录/dev/bigdata/server/hadoop-3.3.0/etc/hadoop

export JAVA_HOME=你服务器jdk安装的目录位置
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

输入G,然后就到了文件的末尾,复制以上的代码,然后保存退出

1.2、配置core-site.xml文件

初始是这样的

复制以下的代码

<configuration>
  <!-- 配置分布式文件系统的类型 -->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://flinka:8020</value>
  </property>
    <!-- 配置hadoop本地保存数据的位置 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/dev/bigdata/data/hadoop</value>
  </property>
    <!-- 设置HDFS WEB UI用户身份 -->
    <property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
    </property>
   <!-- 整合hive用户代理设置 -->
  <property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
  </property>
  
  <property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
  </property>
  

  <!-- 删除文件后先放到.Trash目录 -->
  <property>
    <name>fs.trash.interval</name>
    <value>1440</value>
    <description>单位是分钟,1440/60 = 24 小时,保留一天时间</description>
  </property>
</configuration>

1.3、配置hdfs-site.xml文件,这个是配置hdfs的备份服务器的

<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>flinkb:9868</value>
   </property>

1.4、配置mapred-site.xml

配置计算程序运行的模式,是yarn还是local

  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>flinka:10020</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>flinka:19888</value>
  </property>
  <property>
    <name>yarn.app.mapreduce.am.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
  </property>
  <property>
    <name>mapreduce.map.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
  </property>
  <property>
    <name>mapreduce.reduce.env</name>
    <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
  </property>

1.5、yarn-site.xml

<property>
      <name>yarn.resourcemanager.hostname</name>
      <value>flinka</value>
   </property>
 
   <!-- Reducer获取数据的方式 -->
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
   
 <property>
      <name>yarn.nodemanager.pmem-check-enabled</name>
      <value>true</value>
   </property>
   
   <property>
      <name>yarn.nodemanager.vmem-check-enabled</name>
      <value>true</value>
   </property>
   
    <property>
      <name>yarn.log.server.url</name>
      <value>http://flinka:19888/jobhistory/logs</value>
  </property>
  
  <!--多长时间聚合删除一次日志 此处-->
<property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>2592000</value><!--30 day-->
</property>

1.6、works

1.7、配置hadoop的环境变量

vi /etc/profile

保存文件:wq

source /etc/profile

  1. 分发hadoop到其他机器上

scp -r /dev/bigdata root@flinkc:/dev/

scp -r /dev/bigdata root@flinkb:/dev/

  1. 分发环境变量给其他的机器

在其他机器上生效环境变量配置

source /etc/profile

检查是否配置成功

hadoop version

  1. 启动hadoop集群

最重要的命令 初始化NameNode 这个只能在初次启动hadoop集群的时候初始化,后期如果初始化可能会出现数据清除以及集群的节点之间相互不认识,需要重新搭建集群!!

在主机上运行hdfs namenode -format

如果报错的话,说明配置的文件存在问题,根据相应的错误检查一下配置

出现sucessfully formatted 说明初始化完成,只需要在一台master机器上初始化一次就够了!

启动集群 start-dfs.sh

报错

百度了很多,这个答案是对的

删除了/dev/bigdata/data/hadoop hadoop本地数据存储位置下的所有数据,然后把其他机器上的hadoop安装以及数据全部删除!!!

重新分发数据到其他机器上,然后在初始化数据!

再启动start-dfs.sh

通过jps查看进程

flinka 下面有NameNode

这里有一个问题,flinka是主节点,但是里面只有NameNode没有DataNode?

原因,在生成免密登录的密钥的时候,没有对自身分发

ssh-copy-id flinka

回车

flinkb 下面有

flinkc

启动yarn集群

start-yarn.sh

HFDS的网页是 flinka:9870

YARN的网页是flinka:8088

到这里hadoop集群的搭建就结束了!!!!

让我们开始体验大数据的快乐把!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/361121.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Centos7搭建hadoop3.3.4分布式集群

文章目录1、背景2、集群规划2.1 hdfs集群规划2.2 yarn集群规划3、集群搭建步骤3.1 安装JDK3.2 修改主机名和host映射3.3 配置时间同步3.4 关闭防火墙3.5 配置ssh免密登录3.5.1 新建hadoop部署用户3.5.2 配置hadoopdeploy用户到任意一台机器都免密登录3.7 配置hadoop3.7.1 创建目…

IO多路复用

文章目录1 概念2. IO多路复用的出现2.1 阻塞IO2.2 非阻塞IO2.3 IO 多路复用2.3.1 select2.3.2 poll2.3.3 epoll总结1 概念 IO多路复用(IO Multiplexing) 是一种同步IO模型&#xff0c;在单个进程/线程内就可以同时处理多个IO请求。一个进程/线程可以监视多个文件句柄&#xff…

深度 | “人人都是数据分析师”的时代,为什么建议你学好python?

01 潜力巨大的数据分析岗位在信息时代的今天&#xff0c;数据推动业务发展、数据辅助业务决策早已成为大势所向&#xff0c;而顺应大数据时代号召的人&#xff0c;薪资待遇自然也是让人羡慕不已——数据分析师确实是高薪职业&#xff0c;大部分公司提供的待遇基本上是10K往上走…

好消息!Ellab(易来博)官方微信公众号开通了!携虹科提供专业验证和监测解决方案

自1949年以来&#xff0c;丹麦Ellab一直通过全球范围内的验证和监测解决方案&#xff0c;协助全球生命科学和食品公司优化和改进其流程的质量。Ellab全面的无线数据记录仪&#xff0c;热电偶系统&#xff0c;无线环境监测系统&#xff0c;校准设备&#xff0c;软件解决方案等等…

Ae:导入 Photoshop 文件

由于 Ae 内嵌了 Photoshop 的渲染引擎&#xff0c;所以可以识别并导入 Photoshop 文件的所有属性&#xff0c;包括位置、混合模式、不透明度、可见性、透明度&#xff08;Alpha 通道&#xff09;、图层蒙版、图层组、调整图层、图层样式、图层剪切路径、矢量蒙版、图像参考线等…

IPEmotion新增功能:交流电功率分析计算

一 应用背景 随着国内电动汽车行业的快速发展&#xff0c;在相同的道路环境和行驶状态下&#xff0c;增加电动车的整体续航里程和提升乘员对于行驶途中用电需求的满意度尤为重要。因此&#xff0c;需要采集试验过程中交直流电压电流信号&#xff0c;以计算出车辆各种部件输出和…

rancher2安装nfs-subdir-external-provisioner为PVC/PV动态提供存储空间(动态分配卷)

接上一篇《centos7部署rancher2.5详细图文教程》 一、 安装nfs服务 1. 所有节点都需要操作 $ # 下载 nfs 相关软件 $ sudo yum -y install nfs-utils rpcbind$ # 启动服务并加入开机自启 $ sudo systemctl start nfs && systemctl enable nfs $ sudo systemctl star…

UG NX二次开发(C#)-CAM-不再高亮显示所有的加工特征(CAMFeature)

文章目录 1、前言2、加工特征高亮显示的示例3、获取加工特征的几何对象3.1 获取面对象并取消高亮显示3.2 获取坐标系对象并取消高亮显示4、创建一个不再高亮显示所有加工特征的方法1、前言 当我们在识别加工特征后,其默认状态是被选中的,所以是高亮显示;当我们不再选中时,…

Blender骨骼动画快速教程

有关创建模型的更多详细信息&#xff0c;请参阅在 Blender 中创建模型。 我们将为这个例子做一个非常简单的模型——蠕虫&#xff01; 从我们的初始立方体开始&#xff0c;进入编辑模式&#xff0c;切换到面选择&#xff0c;然后选择任何面&#xff1a; 推荐&#xff1a;将 NSD…

【颠覆软件开发】华为自研IDE!未来IDE将不可预测!

IDE是软件开发生态的入口&#xff0c;但目前我们所使用的IDE基本都是由国外巨头提供&#xff0c;比如Visual Studio、Eclipse、JetBrains。这些IDE具有很高的断供风险&#xff0c;与操作系统、芯片、编程语言一样&#xff0c;非常重要。 随着越来越多的软件开始采用云上开发模…

重要节点排序方法

文章目录研究背景提前约定基于节点近邻的排序方法度中心性&#xff08;degree centrality, DC&#xff09;半局部中心性&#xff08;semilocal centrality, SLC&#xff09;k-壳分解法基于路径排序的方法离心中心性 (Eccentricity, ECC)接近中心性 (closeness centrality, CC)K…

mac 好用的类似Xshell工具

下载royal TSX 5.1.1 http://share.uleshi.com/f/9490615-685692355-33bf1e修改mac的etc/hosts文件权限访达(鼠标右键) -> 前往文件夹 ->输入/private --> 打开etc/hosts --> 显示简洁(鼠标右键) --> 权限改成读和写hosts文件写入如下内容&#xff1a;# Royal T…

一个支持.Net 7的WinForm开源UI组件框架

更多开源项目请查看&#xff1a;一个专注推荐.Net开源项目的榜单 平常我们开发桌面软件&#xff0c;使用WinForm默认风格&#xff0c;界面还是比较简单和丑陋的&#xff0c;自定义绘制又比较麻烦。所以&#xff0c;今天给大家推荐一个模仿Element风格的UI框架。 项目简介 这是…

央行罚单!金融机构被罚原因揭秘

近日&#xff0c;人民银行公布了2023年首批行政处罚罚单&#xff0c;引发业内广泛关注。 顶象防御云业务安全情报中心统计了人民银行官网&#xff0c;2020年1月至2023年2月10日期间&#xff0c;公布的101份行政处罚。 统计显示&#xff0c;16家金融机构被罚27066.9万元&#…

CAS底层原理及ABA问题

一、案例CAS是Java中Unsafe类里面的一个方法&#xff0c;它的全称是叫CompareAndSwap比较并交换的一个意思&#xff0c;它的主要功能是能够去保证在多线程的环境下对于共享变量修改的一个原子性。例如&#xff0c;比如说像这样一个场景&#xff0c;有一个成员变量state&#xf…

2.5|1.3 操作系统与嵌入式操作系统概述

CPU是计算机系统的心脏&#xff0c;操作系统是计算机系统的大脑。半个世纪以来操作系统这门软件科学吸引了世界上一大群最热情、最有智慧的杰出人材&#xff0c;集中了人类现代创造性思维活动的精髓。操作系统是软件世界的万花筒、世博会&#xff0c;是软件王国中的一顶璀璨的皇…

力扣mysql刷题记录

mysql刷题记录 刷题链接https://leetcode.cn/study-plan/sql/?progressjkih0qc mysql冲&#xff01;mysql刷题记录一. 1699. 两人之间的通话次数题解二、1251. 平均售价题解三. 1571. 仓库经理题解四.1445. 苹果和桔子解五.1193. 每月交易 I题解六.1633. 各赛事的用户注册率题…

DP(2)--背包DP(0-1 背包,完全背包,多重背包)

滚动数组&#xff1a; 让数组滚动起来&#xff0c;每次都使用固定的几个存储空间&#xff0c;来达到压缩&#xff0c;节省存储空间的作用。 一般用于递推和动态规划中 一维数组 比如&#xff1a;求斐波那契数列第100项 long long arr[3]; arr[0] 1; arr[0] 1; for (int i 2…

Java 集合基础

文章目录一、集合概念二、ArrayList1. 构造方法和添加方法2. 常用方法三、案例演示1. 存储字符串并遍历2. 存储学生对象并遍历3. 键盘录入学生对象并遍历一、集合概念 编程的时候如果要存储多个数据&#xff0c;使用长度固定的数组存储格式&#xff0c;不一定满足我们的需要&a…

Axios二次封装和Api的解耦

目录 一、axios三种基本写法 二、axios的二次封装 三、Api的解耦 一、axios三种基本写法 1&#xff09;get方法&#xff08;是最简单的&#xff09;&#xff1a; 写法二&#xff1a; 2&#xff09;post&#xff1a; 3&#xff09;axios请求配置 默认是get请求&#xff0c;如…