【2023】hadoop基础介绍

news2025/1/16 4:53:29

💻目录

  • Hadoop组成
    • HDFS
    • HDFS操作
      • HDFS分布式文件存储
      • NameNode元数据
      • 数据读写流程
  • YARN和MapReduce
    • MapReduce:分布式计算
    • YARN:资源管控调度
      • YARN架构
      • 提交任务到**YARN中运行**

Hadoop组成

hadoop安装教程可以看我这篇文章===> 🍅hadoop通过docker安装

  • HDFS组件:是Hadoop内的分布式存储组件,可以构建分布式文件系统用于数据存储。
  • MapReduce组件:MapReduce是Hadoop内分布式计算组件。提供编程接口供用户开发分布式计算程序。
  • YARN组件:YARN是Hadoop内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。

HDFS

分布式存储:主从架构——架构角色

  • 主角色:Master(NameNode)
  • 从角色:Slave(DataNode)
  • 主角色的辅助角色:(SecondaryNameNode)
    • 处理合并edits为fsimage:会通过http从NameNode拉取数据(edits和fsimage),然后合并完成后提供给NameNode使用。

HDFS操作

  • HDFS文件系统基本信息

    操作命令添加协议头就会分别是对对应的系统执行,如果不带是会按照

    在这里插入图片描述

  • 操作命令

不同版本命令开头

# 老版本
hadoop fs 
# 新版本
hdfs dfs 

在这里插入图片描述

命令使用在这里插入图片描述

  • 上传文件到hdfs文件系统中
# hdfs dfs -put linux路径 HDFS文件路径
hdfs dfs -put ./test2.test /

在这里插入图片描述

  • 下载HDFS文件到linux中
# hdfs dfs -get HDFS文件路径 linux路径
hdfs dfs -get /.test.txt /

在这里插入图片描述

  • 拷贝HDFS文件和移动
#拷贝文件
hdfs dfs -cp 源路径 粘贴路径

#移动文件
hdfs dfs -mv 源路径 粘贴路径

在这里插入图片描述

  • 追加数据到HDFS文件

    HDFS只能追加和删除,不能修改

htfs -dfs -appendToFile 

在这里插入图片描述

  • 查看文件和删除文件
#查看文件内容
htfs -dfs -cat 文件
#删除文件和文件夹(删除文件不用加-r,删除文件夹需要加-r)
htfs dfs -rm -r 文件路径

删除文件看是否需要添加回收站

在这里插入图片描述

html查看文件

在这里插入图片描述

产品插件用于使用:Big Data Tools

在这里插入图片描述

配置插件

在这里插入图片描述

HDFS分布式文件存储

hdfs存储的管理单位是叫 block块

通过分布式的方式进行存储5,为了避免block块丢失,一般会进行冗余备份(通过添加副本块的方式备份),避免文件丢失

在这里插入图片描述

NameNode元数据

  • edits文件———流水帐文件

在这里插入图片描述

  • FSlmage文件———最终文件(保存最终结果)

在这里插入图片描述

  • 执行流程

在这里插入图片描述

数据读写流程

在进行读写时,会优先读写到网络距离最近的那台dataNode给客户端进行读写,实现读写的最优解。

  • 数据写入流程

在这里插入图片描述

在这里插入图片描述

  • 数据读取流程

    在这里插入图片描述

YARN和MapReduce

  • 分布式(数据)计算
    • 分散—>汇总模式
      1. 将数据分片,多台服务器负责一部分数据处理
      2. 然后将各种的数据进行汇总
    • 中心调度—>步骤执行模式
      1. 由一个节点作为中心调度管理者
      2. 将任务划分为几个具体步骤
      3. 管理者安排每个机器执行任务
      4. 最终得到结果数据

MapReduce:分布式计算

采用的是分散—>汇总模式进行分布式计算

提供了2个编程接口

  • Map:分散
  • Reduce:汇总

在这里插入图片描述

YARN:资源管控调度

将资源统一管控进行分配可以提供资源利用率

MapReduce和YARN的关系

  • YARN用来调度资源给MapReduce分配和管理运行资源
  • 所以,MapReduce需要YARN配合使用

YARN架构

YARN采用的也是主从架构

核心角色

  • ResourceManager:整个集群的资源调度者,负责协调调度各国程序所需要的资源。
  • NodeManager:单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用

辅助角色

  • ProxyServer:代理服务器
  • JobHistoryServer:历史服务器

在这里插入图片描述

YARN集群启动和停止命令(mapReduce无需启动任何进程)

#一键启动: 
$HADOOP_HOME/sbin/start-yarn.sh
#一键关闭
$HADOOP_HOME/sbin/stop-yarn.sh

#历史服务器启动和停止
mapred --daemon start|stop historyserver

查看YARN的web页面通过8088端口

在这里插入图片描述

提交任务到YARN中运行

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1348890.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

论数据资源持有权(上)

关注WX公众号: commindtech77, 获得数据资产相关白皮书下载地址 1. 回复关键字:数据资源入表白皮书 下载 《2023数据资源入表白皮书》 2. 回复关键字:光大银行 下载 光大银行-《商业银行数据资产会计核算研究报告》 3. 回复关键字…

c语言之将输入的十进制转换成二进制数并打印原码反码补码

十进制转二进制 首先,我们要知道的是十进制转换成二进制数的方法。我们一般采用的除二取余的方法,在这里我用32位数组来进行转换。 int main() {printf("请输入一个十进制数\n");int n 0;scanf("%d", &n);int arr[32];int* p…

基于FFT + CNN - Transformer 时域、频域特征融合的轴承故障识别模型

目录 往期精彩内容: 前言 1 快速傅里叶变换FFT原理介绍 2 轴承故障数据的预处理 2.1 导入数据 2.2 制作数据集和对应标签 3 基于FFTCNN-Transformer的轴承故障识别模型 3.1 网络定义模型 3.2 设置参数,训练模型 3.3 模型评估 往期精彩内容&…

FPGA项目(13)——基于FPGA的电梯控制系统

1.摘要 随着科技的发展,电梯早在上个世纪就已进入人们的生活。对于电梯的控制,传统的方法是使用继电器——接触器控制系统进行控制。随着EDA技术的发展,FPGA已广泛应用于各项电子设计中,本设计即利用FPGA来实现对电梯控制系统的设…

loTDB数据库学习笔记之初识 —— 筑梦之路

loTDB简介 IoTDB 是针对时间序列数据收集、存储与分析一体化的数据管理引擎。具有体量轻、性能高、易使用的特点,适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求,同时包含数据订阅、数据同步、负载均衡和运维监控功能。 由清华大学…

家具定制出库标签打印,家具出入库进销存管理系统软件教程

一、前言 1、家具管理软件如何打印标签? 上图打印标签,以 佳易王家具出入库管理软件V16.1版本为例 说明,在打印标签的时候,可以同时打印自己的LOGO,而且可以根据需要定制打印格式。 2、软件中 ,预定家具如…

【Maven】下载配置maven以及IDEA配置maven详情

目录 1、下载maven 2、配置settings.xml 2.1、配置本地仓库 2.2、配置阿里云镜像仓库 2.3、配置JDK 3、配置环境变量 4、IDEA配置maven 1、下载maven maven官网&#xff1a;https://maven.apache.org/ 2、配置settings.xml 2.1、配置本地仓库 <localRepository>C:\…

NLP:预测新闻类别 - 自然语言处理中嵌入技术

简介 在数字时代&#xff0c;在线新闻内容呈指数级增长&#xff0c;需要有效的分类以增强可访问性和用户体验。先进机器学习技术的出现&#xff0c;特别是在自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;为文本数据的自动分类开辟了新的领域。本文[1]探讨了在 NLP …

力扣回溯算法-电话号码的字母组合

力扣第17题&#xff0c;电话号码的字母组合 题目 给定一个仅包含数字 2-9 的字符串&#xff0c;返回所有它能表示的字母组合。 给出数字到字母的映射如下&#xff08;与电话按键相同&#xff09;。注意 1 不对应任何字母。 .电话号码的字母组合 示例: 输入&#xff1a;“2…

LeetCode每日一题.05(N皇后)

按照国际象棋的规则&#xff0c;皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。 n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上&#xff0c;并且使皇后彼此之间不能相互攻击。 给你一个整数 n &#xff0c;返回所有不同的 n 皇后问题 的解决方案。 每一种…

第三代半导体SiC 专业术语及指标解释

SiC &#xff1a; 化合物半导体材料&#xff0c;第三代半导体材料代表&#xff0c;主要用于功率半导体领域 GaN &#xff1a; 化合物半导体材料&#xff0c;第三代半导体材料代表&#xff0c;主要用于高频射频领域 GaAs&#xff1a; 化合物半导体材料&#xff0c;第二…

在VMware上安装Ubuntu:详细教程

关于VMware和Ubuntu VMware VMware 是一家全球领先的虚拟化和云基础架构解决方案提供商。它提供了多个产品和技术&#xff0c;用于管理和优化计算机资源的使用&#xff0c;实现虚拟化、云计算和数据中心自动化等功能。 以下是 VMware 公司提供的一些主要产品&#xff1a; V…

vue2 jeecg-boot

业务介绍 &#xff1a; 在首页进行数据的添加&#xff0c;添加之后 将数据传递给后端&#xff0c;后端会计算&#xff0c;在返回给前端&#xff0c;前端拿到进行渲染&#xff0c;拿到数据跳转到结果页面&#xff0c;点击存档后&#xff0c;才可以触发下载和浏览&#xff0c;不…

Cisco模拟器-交换机端口的隔离

设计要求将某台交换机的端口划分在不同的VLAN。以实现连接在相同VLAN端口上的计算机可以通信&#xff0c;而连接在不同VLAN端口上的计算机无法通信的目的。 通过设计&#xff0c;一方面可以加强计算机网络的安全&#xff0c;另一方面通过隔绝不同VLAN间的广播包也可以提高网络…

分布式缓存Redis

基于Redis集群解决单机Redis存在的问题&#xff0c;在之前学Redis一直都是单节点部署 单机或单节点Redis存在的四大问题&#xff1a; 数据丢失问题&#xff1a;Redis是内存存储&#xff0c;服务重启可能会丢失数据 > 利用Redis数据持久化的功能将数据写入磁盘并发能力问题…

Windows CPU部署llama2量化模型并实现API接口

目录 模型部署本地运行llama2使用fastapi实现API接口常用git仓库 模型部署 从huggingface下载模型 https://huggingface.co/ 放在本地文件夹&#xff0c;如下 本地运行llama2 from ctransformers import AutoModelForCausalLMllm AutoModelForCausalLM.from_pretrained(&q…

【Python】ubuntu python>3.9编译安装,及多个Python版本并存的使用方法

【Python】ubuntu python3.9编译安装&#xff0c;及多个Python版本并存的使用方法 1. 安装依赖2. 编译与安装2.1 依赖与源获取2.2 配置2.3 编译2.4 安装2.5 建立软连接 链接动态库 3. 多版本兼容 1. 安装依赖 更新系统软件 在正式开始之前&#xff0c;建议首先检查系统软件是否…

2023下半年的总结

我从八月下旬开始写的&#xff0c;到现在差不多有半年了&#xff0c;总结一下吧&#xff01; 1.计算机视觉 在计算机视觉方面&#xff0c;想必两个有名的深度学习框架&#xff08;TensorFlow和PyTorch&#xff09;大家都很清楚吧&#xff0c;以及OpenCV库。对于人脸识别&…

FPGA项目(14)——基于FPGA的数字秒表设计

1.功能设计 设计内容及要求: 1.秒表最大计时范围为99分59. 99秒 2.6位数码管显示&#xff0c;分辨率为0.01秒 3.具有清零、启动计时、暂停及继续计时等功能 4.控制操作按键不超过二个。 2.设计思路 所采用的时钟为50M&#xff0c;先对时钟进行分频&#xff0c;得到100HZ频率…

【ROS2】MOMO的鱼香ROS2(三)ROS2入门篇——ROS2第一个节点

ROS2第一个节点 引言1 认识ROS2节点1.1 节点之间的交互1.2 节点的命令行指令1.3 工作空间1.4 功能包1.4.1 功能包获取安装1.4.2 功能包相关的指令 ros2 pkg 2 ROS2构建工具—Colcon2.1 安装Colcon2.2 测试编译2.3 Colcon其他指令 3 使用RCLPY编写节点3.1 创建Python功能包3.2 编…