大数据技术之Hadoop:HDFS集群安装篇(三)

news2025/1/13 15:49:20

目录

分布式文件系统HDFS安装篇

一、为什么海量数据需要分布式存储

二、 分布式的基础架构分析

三、 HDFS的基础架构

四 HDFS集群环境部署

4.1 下载安装包

4.2 集群规划

4.3 上传解压

4.4 配置HDFS集群

4.5 准备数据目录

4.6 分发hadoop到其他服务器

4.7 配置环境变量

4.8 为普通用户授权

4.9 对整个文件系统进行格式化

4.10 启动、停止hdfs集群

4.11 查看HDFS webUI

五、虚拟机快照


此为个人学习笔记,包含个人归纳总结以及结合了对网络资源的整理,初衷是为了自己复习巩固。如果能帮到各位是我的荣幸!

该总结参考了黑马教程,感兴趣的也可以去观看相关视频。第二章-01-[理解]为什么需要分布式存储_哔哩哔哩_bilibili

分布式文件系统HDFS安装篇

一、为什么海量数据需要分布式存储

假如某个文件有100TB,试想哪台服务器能存下这么大的文件?

所以我们会搭建分布式服务集群,将这100TB的文件分成几份,分别发送到不同的服务器上。

当然,分布式不仅仅是解决了能存的问题, 多台服务器协同工作带来的也是性能的横向扩展。

也相当于是磁盘写入效率、传输效率的大大增加。

总结:

数据量太大,单机存储能力有上限,需要靠数量来解决问题。

数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。 分布式组合在一起可以达到1+1>2的效果。

二、 分布式的基础架构分析

数量多,在现实生活中往往带来的不是提升,而是:混乱

众多的服务器一起工作,是如何高效、不出问题呢?

大数据体系中,分布式的调度主要有2类架构模式:去中心化模式和中心化模式。

  • 大数据框架,大多数的基础架构上,都是符合:中心化模式的

    即:有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱。

    这种模式,也被称之为:一主多从模式,简称主从模式(Master And Slaves

  • 三、 HDFS的基础架构

什么是HDFS?

  • HDFSHadoop三大组件(HDFSMapReduceYARN)之一。

  • 全称是:Hadoop Distributed File SystemHadoop分布式文件系统)。

  • 它是Hadoop技术栈内提供的分布式数据存储解决方案。

  • 可以在多台服务器上构建存储集群,存储海量的数据。

  • HDFS是一个典型的主从模式架构

  • HDFS中的架构角色有哪些?

  • NameNode:主角色,管理HDFS集群和DataNode角色

  • DataNode:从角色,负责数据的存储

  • SecondaryNameNode:辅助角色,协助NameNode整理元数据

  • 四 HDFS集群环境部署

  • 4.1 下载安装包

  • 官方网址:https://hadoop.apache.org,课程使用当前最新的发行版:3.3.4版。

  • 4.2 集群规划

    4.3 上传解压

  • 请确认已经完成前置准备中的服务器创建、固定IP、防火墙关闭、Hadoop用户创建、SSH免密、JDK部署等操作。

  • 1. 上传Hadoop安装包到centos100节点中

  • 2. 解压缩安装包到/opt/software/hadoop/中

  • tar -zxvf hadoop-3.3.4.tar.gz -C /opt/software/hadoop/
    

  • 3. 进入hadoop-3.3.4内

    各个文件夹含义如下

  • bin,存放Hadoop的各类程序(命令)

  • etc,存放Hadoop的配置文件

  • includeC语言的一些头文件

  • lib,存放Linux系统的动态链接库(.so文件)

  • libexec,存放配置Hadoop系统的脚本文件(.sh.cmd

  • licenses-binary,存放许可证文件

  • sbin,管理员程序(super bin

  • share,存放二进制源码(Java jar包)

4.4 配置HDFS集群

配置HDFS集群,我们主要涉及到如下文件的修改:

  • workers:  配置从节点(DataNode)有哪些
  • hadoop-env.sh:  配置Hadoop的相关环境变量
  • core-site.xml:  Hadoop核心配置文件
  • hdfs-site.xml:  HDFS核心配置文件

这些文件均存在与$HADOOP_HOME/etc/hadoop文件夹中。

ps$HADOOP_HOME是后续我们要设置的环境变量,其指代Hadoop安装文件夹即/export/server/hadoop

配置workers文件

进入安装目录下的etc/hadoop目录。这里面存放了Hadoop的配置。编辑workers文件。

 设置为我们的服务器名称,表示集群记录了这三个节点。

 配置hadoop-env.sh文件

这个文件是Hadoop在运行时需要使用到的一些环境变量

# 填入如下内容
export JAVA_HOME=/opt/software/jdk
export HADOOP_HOME=/opt/software/hadoop/hadoop-3.3.4
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_LOG_DIR=$HADOOP_HOME/logs
  •  

     配置core-site.xml文件

    Hadoop的核心配置文件,主要配置HDFS文件系统的网络通讯地址和io操作文件缓冲区大小

  • 端口号一般大家都是用的8020,一般不建议更改。

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://centos100:8020</value>
  </property>

  <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
  </property>
</configuration>

配置hdfs-site.xml文件

<configuration>
  <property>
    <name>dfs.datanode.data.dir.perm</name>
    <value>700</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/nn</value>
  </property>
  <property>
    <name>dfs.namenode.hosts</name>
    <value>centos100,centos101,centos102</value>
  </property>
  <property>
    <name>dfs.blocksize</name>
    <value>268435456</value>
  </property>
  <property>
    <name>dfs.namenode.handler.count</name>
    <value>100</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/data/dn</value>
  </property>
</configuration>
  •  

  • 4.5 准备数据目录

  • 刚刚配置文件种规定了namenode和datanode的文件存储位置,但是还没有创建该目录。所以接下来我们需要创建目录。

  • 在centos100节点:

  • mkdir -p /data/nn
    mkdir /data/dn
    

     在centos101节点和centos102节点:

  • mkdir -p /data/dn

  • 4.6 分发hadoop到其他服务器

    刚才我们安装、配置都是在centos100这台服务器上的,但是centos101和centos102这两台都还没有安装过hadoop,显然是不行的。

    所以,我们可以通过分发的方式,将Hadoop分发到centos101和centos102这两台服务器上。

    执行的时间可能比较长,要耐心等待。

    执行完毕后,我们去centos101和centos102这两台服务器看看,分发过来没。

    4.7 配置环境变量

    我们操作Hadoop的可执行命令,需要进入到它的bin目录下,然后执行对应的命令。

    但是我们觉得这样太麻烦了,能不能在任何地方都可以直接执行命令呢,当然可以。

    这需要我们配置环境变量。

    修改/etc/profile文件

    vim /etc/profile

    export HADOOP_HOME=/opt/software/hadoop/hadoop-3.3.4
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

    让环境变量生效

    source /etc/profile

     然后在另外两台服务器中都同样配置一下。

    4.8 为普通用户授权

    hadoop部署的准备工作基本完成

    为了确保安全,hadoop系统不以root用户启动,我们以普通用户hadoop来启动整个Hadoop服务

    所以,现在需要对文件权限进行授权。

    ps:请确保已经提前创建好了hadoop用户(前置准备章节中有讲述),并配置好了hadoop用户之间的免密登录

    root身份,在centos100、centos101、centos102三台服务器上均执行如下命令:

    # 以root身份,在三台服务器上均执行
    chown -R hadoop:hadoop /data
    chown -R hadoop:hadoop /opt
    

    -R 表示对子文件夹全部执行更改

    前一个hadoop表示账号,冒号后的hadoop表示hadoop账户组

    最后是要授权的路径

  •  

    4.9 对整个文件系统进行格式化

  • 前期准备全部完成,现在对整个文件系统执行初始化。

格式化namenode

# 确保以hadoop用户执行
su - hadoop
# 格式化namenode
hadoop namenode -format
  • 可以发现执行完成后,这个文件中就有数据了。

  • 至于这些文件是什么,后续再说。

  • 4.10 启动、停止hdfs集群

  • 下面我们以hadoop用户,在centos100上通过命令可以一键启动停止整个hdfs集群。
  • # 一键启动hdfs集群
    start-dfs.sh
    # 一键关闭hdfs集群
    stop-dfs.sh
    
    # 如果遇到命令未找到的错误,表明环境变量未配置好,可以以绝对路径执行
    /opt/oftware/hadoop/hadoop-3.3.4/sbin/start-dfs.sh
    /opt/oftware/hadoop/hadoop-3.3.4/sbin/stop-dfs.sh
    

  • 通过jps去另外两台服务器查看一下,也启动成功了。

  •  停止hdfs集群试试。
  • 4.11 查看HDFS webUI

  • 我们先不要关闭集群。然后通过web访问centos100这台服务器的9870端口,即可查看HDFS的web可视化页面。

     当然了,如果windows系统配置了host文件,将这几个ip地址映射了服务名,也可以直接用域名:9870的方式打开。


  •  

  • 五、虚拟机快照

  • 为了避免服务器出问题,导致我们辛辛苦苦搭建的集群崩溃掉。我们最好做一下快照保存。这样即使后面我们误操作,导致服务器崩溃掉,也可以恢复到我们当前这个阶段。
  • 好了,这部分内容暂时就梳理到这里。我们下个阶段见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/833646.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AlexNet卷积神经网络-笔记

AlexNet卷积神经网络-笔记 AlexNet卷积神经网络2012年提出 测试结果为&#xff1a; 通过运行结果可以发现&#xff0c; 在眼疾筛查数据集iChallenge-PM上使用AlexNet&#xff0c;loss能有效下降&#xff0c; 经过5个epoch的训练&#xff0c;在验证集上的准确率可以达到94%左右…

【NX】NX二次开发中遍历所有部件完整范例

一个入门的基本例子&#xff0c;这里提供完整代码&#xff0c;遍历所有部件&#xff0c;其他同理。 //author&#xff1a;autumoon //邮箱&#xff1a;9506163.com //日期&#xff1a;2023-08-03 /*************************************************************************…

大数据开发的前景怎么样?该怎么学习?

猎聘大数据研究院发布了《2022未来人才就业趋势报告》 从排名来看&#xff0c;2022年1-4月各行业中高端人才平均年薪来看&#xff0c;人工智能行业中高端人才平均年薪最高&#xff0c;为31.04万元&#xff1b;金融行业中高端人才以27.69万元的平均年薪位居第二&#xff1b;通信…

Prometheus-各种exporter

一、 nginx-prometheus-exporter 1 nginx 配置 1.1 Nginx 模块支持 nginx 安装的时候需要有 nginx 的状态模块: stub_status 可通过如下命令检查 nginx -V 2>&1 | grep -o with-http_stub_status_module1.2 Nginx 配置文件配置 添加如下配置到自己 nginx 的配置文…

【Spring框架】SpringBoot统一功能处理

目录 用户登录权限校验用户登录拦截器排除所有静态资源练习&#xff1a;登录拦截器拦截器实现原理 统一异常处理统一数据返回格式为什么需要统⼀数据返回格式&#xff1f;统⼀数据返回格式的实现 用户登录权限校验 用户登录拦截器 1.自定义拦截器 package com.example.demo.…

数据结构【第3章】——线性表

线性表的定义 线性表&#xff1a;零个或多个数据元素的有限序列。 1&#xff09;线性表是一个序列。即元素之间是有顺序的&#xff0c;若元素存在多个&#xff0c;则第一个元素无前驱&#xff0c;最后一个元素无后继&#xff0c;其他每个元素都有且只有一个前驱和后继。 2&a…

百度地图18.8.0首创红绿灯雷达功能,支持全程静音导航、停车推荐

百度地图App最新版本18.8.0已发布&#xff0c;独家推出红绿灯雷达功能&#xff0c;适用于安卓和iOS系统。 根据官方描述说明&#xff0c;行车时手机启用红绿灯雷达&#xff0c;能够自动检测红绿灯&#xff0c;值得一提的是无需输入目的地。同时&#xff0c;依靠北斗高精定位技术…

如何用python做自然语言处理

如何用python做自然语言处理 使用Python进行自然语言处理&#xff08;NLP&#xff09;是非常常见和强大的。以下是一些基本步骤&#xff1a; 安装所需的库&#xff1a; 首先&#xff0c;您需要安装一些用于自然语言处理的Python库&#xff0c;如NLTK&#xff08;自然语言工具包…

AMEYA360:尼得科科宝旋转型DIP开关系列汇总

旋转型DIP开关 S-4000 电路&#xff1a;BCD(十进制) 代码格式&#xff1a;实码 安装类型&#xff1a;表面贴装 调整位置&#xff1a;顶部 可水洗&#xff1a;无 端子类型&#xff1a;J 引线, 鸥翼型 旋转型DIP开关 SA-7000 电路&#xff1a;BCD(十进制), BCH(十六进制) 代码格式…

Qt5.14.2的安装教程

Qt5.14.2的安装教程 qt creator是qt桌面开发必备的软件&#xff0c;最近重新下载了一份&#xff0c;本文介绍一下Qt的安装过程。 找安装包 本文找到安装包&#xff0c;网址链接 qt5.14.2安装包官网&#xff1a; https://download.qt.io/archive/qt/5.14/5.14.2/ 这个官网下载速…

利用openTCS实现车辆调度系统(一)系统介绍

系统介绍 openTCS简介 官方的回答&#xff1a; openTCS&#xff08;开放式运输控制系统的缩写&#xff09;是一种免费的控制系统软件&#xff0c;用于协调自动导引车&#xff08;AGV&#xff09;和移动机器人车队&#xff0c;例如在生产工厂中。 通常应该可以控制任何具有通信…

Vue.js2+Cesium 五、WMS 服务加载,控制自图层显隐

Vue.js2Cesium 五、WMS 服务加载&#xff0c;控制自图层显隐 Demo <template><divid"cesium-container"style"width: 100%; height: 100%;"><div class"layer_container"><button id"btn">清除</button&g…

快速增加Shopee,lazada店铺销量的秘籍大揭秘

在竞争激烈的电商市场中&#xff0c;如何快速提高Shopee。lazada店铺的销量一直是卖家们关注的焦点。 优化产品信息&#xff1a;在Shopee平台上&#xff0c;完整填写产品标题、描述和关键词等信息非常重要。确保您的产品信息准确、清晰&#xff0c;并包含与目标买家搜索相关的…

Jest和Mocha两者之间有哪些区别?

什么是单元测试&#xff1f; 所谓单元测试&#xff0c;是对软件中单个功能组件进行测试的一种软件测试方式&#xff0c;其目的是确保代码中的每一个基本单元都能正常运行。因此&#xff0c;开发人员在应用程序开发的整个过程&#xff08;即代码编写过程&#xff09;中都需要进行…

SpringBoot + ajax 实现分页和增删查改

0目录 1.SpringBoot 2.SpringBoot分页&#xff1b;增删改查 1.SpringBoot分页 创建数据库和表 创建SpringBoot工程&#xff0c;引入springboot下的分页依赖 配置application.yml 实体类 Mapper接口 Mapper.xml Service接口 Service实现类 控制层 测试 加…

Liunx环境下git的详细使用(gitee版)

Liunx环境下git的详细使用&#xff08;gitee版&#xff09; 1.git是什么2.git操作2.1在gitee创建一个仓库2.2.gitignore2.3.git 3.git三板斧3.1add3.2 commit3.3push 4.git其他命令4.1查看当前仓库状态4.2查看提交日志4.3修改git里面文件名称4.4删除文件4.5修改远端仓库内容 1.…

《吐血整理》高级系列教程-吃透Fiddler抓包教程(26)-Fiddler如何抓取Android7.0以上的Https包-上篇

1.简介 众所周知&#xff0c;假如设备是android 7.0的系统同时应用设置targetSdkVersion > 24的话&#xff0c;那么应用默认是不信任安装的Fiddler用户证书的&#xff0c;所以你就没法抓到应用发起的https请求&#xff0c;然后你在Fiddler就会看到一堆200 HTTP Tunnel to x…

SpringBoot3---核心特性---1、快速入门

星光下的赶路人star的个人主页 年轻人仍然所见有极限&#xff0c;又迷失在太多讯息中–讯息不等于眼界 文章目录 1、简介1.1 前置知识1.2 环境要求1.3 SpringBoot是什么 2、快速体验2.1 开发流程2.2 特性小结2.3 Spring Initializr 3、应用分析3.1 依赖管理机制3.2 自动配置机制…

工作日志怎么写?聪明灵犀能帮你撰写

工作日志怎么写&#xff1f;工作日志是每个职场人士都需要编写的重要文档之一&#xff0c;它记录了我们在工作中所做的事情、遇到的问题以及解决方法等重要信息。然而&#xff0c;写工作日志并不是一件容易的事情&#xff0c;特别是对于那些不擅长记录的人来说。不过&#xff0…

go 语言实战入门案例之实现Socks5

文章和代码已经归档至【Github仓库&#xff1a;https://github.com/timerring/backend-tutorial 】或者公众号【AIShareLab】回复 go 也可获取。 文章目录 实现 Socks 5 代理介绍原理TCP echo serverauth请求阶段完整代码 学习路线推荐 实现 Socks 5 代理 介绍 socks5 协议它虽…