【Hadoop_01】Hadoop介绍与安装

news2025/1/21 2:54:17

  • 1、Hadoop、HDFS、YARN介绍
    • (1)Hadoop简介与优势
    • (2)Hadoop组成
    • (3)HDFS概述
    • (4)YARN概述
    • (5)MapReduce概述
  • 2、安装
    • (1)Centos7.5软硬件安装
    • (2)配置服务器IP地址
    • (3)Xshell远程访问
    • (4)安装epel-release
    • (5)关闭防火墙,关闭防火墙开机自启
    • (6)卸载自带JDK
  • 3、克隆三台虚拟机
    • (1)克隆虚拟机
    • (2)在hadoop102上安装JDK
    • (3)配置JDK环境变量
    • (4)在hadoop102按照hadoop
    • (5)配置hadoop环境变量

1、Hadoop、HDFS、YARN介绍

Hadoop解决两件事情:海量数据的存储(使用HDFS)和海量数据的计算(使用MapReduce)。

(1)Hadoop简介与优势

简介:
1)Hadoop是一个由Apachc基金会所开发的分布式系统基础架构
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

优势:
1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
在这里插入图片描述
4)高容错性:能够自动将失败的任务自动分配。

(2)Hadoop组成

在这里插入图片描述

  • 在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
  • 在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。
  • 而Hadoop3.x在组成上没有变化。

(3)HDFS概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。主要解决海量数据存储的问题。

  • NameNode(nn)︰存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数.文件权限),以及每个文件的块列表和块所在的DataNodc等。【记录数据存储在哪个节点上】
  • DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。【负责数据的存储】
  • Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。【防止NameNode突然瘫痪,进行备份】

在这里插入图片描述

(4)YARN概述

Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器。

  • Resource Maneger(RM):所有资源的管理者,是整个集群资源(内存、CPU等)的老大,管理所有的内存和CPU。
  • NodeManager(NM):单节点资源的管理者,是单个节点服务器资源的老大。
  • ApplicationMaster(AM):单个任务运行的老大。
  • Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。

在这里插入图片描述

说明1:客户端可以有多个
说明2∶集群上可以运行多个ApplicationMaster【相当于Hadoop的并行运算】
说明3:每个NodeManager上可以有多个Container

那么到底可以运行多少个Container容器呢?

  • 一个Container默认的内存是1-8G。由于一个NodeManager是4G的内存,因此一个NodeManager上最多开辟4个Container【每个Container=1G】,而一个Container最少需要分配一个CPU,因此最终一个NodeManager上最多开辟2个Container。

(5)MapReduce概述

MapReduce将计算过程分为两个阶段:Map和 Reduce。

  • Map阶段并行处理输入数据
  • Reduce阶段对Map结果进行汇总
    在这里插入图片描述

2、安装

(1)Centos7.5软硬件安装

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
下载镜像:centos镜像

在这里插入图片描述

(2)配置服务器IP地址

设置vmware:

在这里插入图片描述

设置windows:

在这里插入图片描述
在这里插入图片描述

设置虚拟机:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
主机名称映射:
配置Linux克隆机主机名称映射hosts文件,打开/etc/hosts在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(3)Xshell远程访问

在这里插入图片描述
修改windows的主机映射文件:
在这里插入图片描述
下载Xftp
在这里插入图片描述

(4)安装epel-release

在这里插入图片描述

(5)关闭防火墙,关闭防火墙开机自启

在这里插入图片描述
在这里插入图片描述

(6)卸载自带JDK

在这里插入图片描述

rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
  • rpm -qa:查询所安装的所有rpm软件包
  • grep -i:忽略大小写
  • xargs -nl:表示每次只传递一个参数
  • rpm -e --nodeps:强制卸载软件

3、克隆三台虚拟机

(1)克隆虚拟机

注意:克隆之前先关机
在这里插入图片描述
克隆之后需要修改三台虚拟机的主机名称以及IP地址

(2)在hadoop102上安装JDK

在这里插入图片描述
在这里插入图片描述
当时遇到一个错误,查阅这篇博客之后解决:xftp传输文件状态错误解决办法

在这里插入图片描述
linux退出当前目录使用:cd …
linux查看当前目录所在路径:pwd
在这里插入图片描述
在这里插入图片描述

(3)配置JDK环境变量

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

(4)在hadoop102按照hadoop

在这里插入图片描述
注意安装路径!

(5)配置hadoop环境变量

在这里插入图片描述

在这里插入图片描述
在系统文件加入下面的环境变量:

在这里插入图片描述

在这里插入图片描述
hadoop目录下有哪些内容:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1290377.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据仓库与数据挖掘复习资料

一、题型与考点[第一种] 1、解释基本概念(中英互译解释简单的含义); 2、简答题(每个10分有两个一定要记住): ① 考时间序列Time series(第六章)的基本概念含义解释作用(序列模式挖掘的作用); ② 考聚类(第五章)重点考…

用23种设计模式打造一个cocos creator的游戏框架----(四)装饰器模式

1、模式标准 模式名称:装饰器模式 模式分类:结构型 模式意图:动态地给一个对象添加一些额外的职责。就增加功能来说,装饰器模式比生成子类更为灵活。 结构图: 适用于: 当需要给一个对象在运行时添加更…

Linux系统调试课:网络性能工具总结

文章目录 一、网络性能指标二、netstat三、route四、iptables沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇章一起了解下网络性能工具。 一、网络性能指标 从网络性能指标出发,你更容易把性能工具同系统工作原理关联起来,对性能问题有宏观的认识和把握。这样,…

网络层之IP数据报格式、数据报分片、IPv4、子网划分和子网掩码

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

轻快小miniconda3在linux下的安装配置-centos9stream-Miniconda3 Linux 64-bit

miniconda与anaconda的区别: Miniconda 和 Anaconda 是用于管理环境和安装软件包的 Python 发行版。它们之间的主要区别在于以下几点: 1. 安装内容和大小: Anaconda: Anaconda 是一个完整的 Python 数据科学平台,包含…

Kafka使用指南

Kafka简介架构设计Kafka的架构设计关键概念Kafka的架构设计关键机制 Partition介绍Partition工作机制 应用场景ACK机制介绍ACK机制原理ACK机制对性能的影响ACK控制粒度Kafka分区数对集群性能影响调整分区优化集群性能拓展Kafka数据全局有序 Kafka简介 Kafka是由Apache软件基金…

零基础小白怎么准备蓝桥杯-蓝桥杯竞赛经验分享

零基础小白怎么准备蓝桥杯-蓝桥杯竞赛经验分享 前言竞赛简介竞赛目的如何备战1.基础学习2.实战训练(非常重要) 资料分享 前言 博主在蓝桥杯中获得过十四届Java B 组的省一国二,本文为大家介绍一下蓝桥杯并分享一下自己的参赛经验。 竞赛简介…

2024年江苏省职业院校技能大赛信息安全管理与评估 第三阶段学生组(样卷)

2024年江苏省职业院校技能大赛信息安全管理与评估 第三阶段学生组(样卷) 竞赛项目赛题 本文件为信息安全管理与评估项目竞赛-第三阶段样题,内容包括:网络安全渗透、理论技能与职业素养。 本次比赛时间为180分钟。 介绍 GeekSe…

分享“技艺与传承”的魅力!春城晚报(开屏新闻)生活节第七期媒体开放日活动举行

近日,由云南报业传媒(集团)有限责任公司、云南春晚传媒有限公司指导;金格金俊广场、云南精品文化传媒有限公司联合主办的第七期媒体开放日活动在金格金俊广场B1共享空间举办。本次活动以「技艺与传承」为主题,特邀青年…

TP5上传图片压缩尺寸

图片上传,最简单的就是, 方法一: 修改上传限制,不让上传大于多少多少的图片 改一下size即可,默认单位是B换算成M还需要除以两次1024 方法二: 对上传的图片进行缩放,此办法网上找了不少的代码…

ELK 日志解决方案

ELK 是目前最流行的集中式日志解决方案,提供了对日志收集、存储、展示等一站式的解决方案。 ELK 分别指 Elasticsearch、Logstash、Kibana。 Elasticsearch:分布式数据搜索引擎,基于 Apache Lucene 实现,可集群,提供…

AWS基于x86 vs Graviton(ARM)的RDS MySQL性能对比

概述 这是一个系列。在前面,我们测试了阿里云经济版(“ARM”)与标准版的性能/价格对比;华为云x86规格与ARM(鲲鹏增强)版的性能/价格对比。现在,再来看看AWS的ARM版本的RDS情况 在2018年&#…

[论文阅读]DETR

DETR End-to-End Object Detection with Transformers 使用 Transformer 进行端到端物体检测 论文网址:DETR 论文代码:DETR 简读论文 这篇论文提出了一个新的端到端目标检测模型DETR(Detection Transformer)。主要的贡献和创新点包括: 将目标检测视为一…

Leetcode1038. 从二叉搜索树到更大和树

Every day a Leetcode 题目来源:1038. 从二叉搜索树到更大和树 解法1:中序遍历 观察示例 1,我们发现了规律: 二叉搜索树的中序遍历是一个单调递增的有序序列。 本题中要求我们将每个节点的值修改为原来的节点值加上所有大于它…

JAVA全栈开发 day18MySql03

一、复习 为什么要用数据库数据库好处数据库的发展史​ 层次模型​ 网状模型​ 关系模型(二维表专门存储数据, 表与表的关联)​ 表与表的关系: 1对1 ,1对多,多对多​ 非关系模型关系模…

【PyTorch】权重衰减

文章目录 1. 理论介绍2. 实例解析2.1. 实例描述2.2. 代码实现 1. 理论介绍 通过对模型过拟合的思考,人们希望能通过某种工具调整模型复杂度,使其达到一个合适的平衡位置。权重衰减(又称 L 2 L_2 L2​正则化)通过为损失函数添加惩…

用23种设计模式打造一个cocos creator的游戏框架----(七)代理模式

1、模式标准 模式名称:代理模式 模式分类:结构型 模式意图:为其他对象提供一种代理以控制对这个对象的访问。 结构图: ​ 适用于: 远程代理:也称为大使,这是最常见的类型,在分…

中文BERT模型预训练参数总结以及转化为pytorch的方法

1.目前针对中文的bert预训练模型有三家: 谷歌发布的chinese_L-12_H-768_A-12 还有哈工大的chinese-bert-wwm / chinese-bert-wwm-ext 以及HuggingFace上的bert-base-chinese(由清华大学基于谷歌的BERT在中文数据集上训练开发的模型,上传在HuggingFace) …

ElasticSearch篇---第四篇

系列文章目录 文章目录 系列文章目录前言一、elasticsearch 是如何实现 master 选举的?二、elasticsearch 索引数据多了怎么办,如何调优,部署?三、说说你们公司 es 的集群架构,索引数据大小,分片有多少?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽…

李宏毅gpt个人记录

参考: 李宏毅机器学习--self-supervised:BERT、GPT、Auto-encoder-CSDN博客 用无标注资料的任务训练完模型以后,它本身没有什么用,GPT 1只能够把一句话补完,可以把 Self-Supervised Learning 的 Model做微微的调整&am…