大数据技术之Hadoop集群配置

news2024/10/7 1:27:47

bbf48a5f21c2b1999ba1bd00b528c9e6.jpeg

 作者简介:大家好我是小唐同学(๑>؂<๑),好久不见,为梦想而努力的小唐又回来了,让我们一起加油!!!

a56fe417a24fd8e65dc73fb5db10b46e.gif

 

个人主页:小唐同学(๑>؂<๑)的博客主页

目前再学习大数据,现在在初级阶段-刚学Hadoop,若有错误,请指正

目录

 

一,集群部署规划

二,配置文件说明

三,配置集群:

(1)配置核心文件:

 四,格式化节点:

五,启动集群:

 六,测试集群:

(1)上传小文件:

 (2)上传大文件:


 

一,集群部署规划

(1)NameNode和SecondaryNameNode不要安装在同一台服务器

(2)ResourceManager也很消耗内存,不要和NameNode,SecondaryNamenode配置在同一台机器上b4ebf8c9a9504308a90f214a5874bf75.png

二,配置文件说明

置文件和自定义配置文件

 

(1)默认配置文件有四种对应Hadoop的四大组件

886d278d15ab41e7a2c02044a8329244.png

  (2)自定义配置文件:
core-site.xml hdfs-site.xml , yarn-site.xml mapred-site.xml

这四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。($HADOOP_HOME为Hadoop的安装路径)e8b5e0688a6a4a6ca1e61623a6f17d41.png

f1f45b664f6f4a698bea9d0a814718b2.pngc976d26fa8a8469ea3883dab2c5af009.png

273c65506a0546b69d4e1500e37cb8f5.png

 

三,配置集群:

(1)配置核心文件:

        配置core-site.xml

<configuration>
<!--指定NameNode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<!--指定hadoop数据的存储目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data<value>


</property>
</configuration>

 

19ee7fa140d74cc2858f6c942a0328c0.png

 配置hdfs-site.xml

<configuration>
<!--nn web fangwen dizhi -->

<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<!--2nn web fangwen dizhi -->
<property>
<name>dfs.namenode.secondary.http-address</name>

<value>hadoop104:9868</value>

</property>
</configuration>

43ab946491884bb7b8d6e132b571ebe2.png

 

 

<configuration>
<!--指定MR走shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>
mapreduce_shuffle
</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>
hadoop103
</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist<name>
<value>JAVA_HOME,HADOOP_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>

3afe9d7859fe421f8058ff423b95174d.png

<configuration>
<!--指定MapReduce程序运行在Yarn上-->
<property>
<name>
mapreduce.framework.name
</name>
<value>
yarn
</value>
</property>
</configuration>

024ef966e7a94fb694ca8d73267d8ccb.png

配置完成后在集群上分发配置好的Hadoop配置文件

4515908da5ba4bef8fa354ad107d2f6c.png

 aefbfddb52c64352b90d00a554bd8843.png

上述集群配置完成后,在群起集群之前需要配置workers文件

a0b6d43c73b4456da158864ccb1531af.png

 c8acbe4837314589b760b36939d6e31d.png

 

先切换到Hadoop的目录下

cd  /opt/module/hadoop-3.1.3

 切换到Hadoop的文件夹下

cd etc/hadoop/
vim workers

上述命令进入workers文件下(文件不允许有空格和空行)

有几个节点就配置几个名称

ff747c8b3c274f4aaa898424e447db83.png

 配置完毕后需要分发一下   分别配置给其他集群内部的服务器

b8d01c7b20a742718d441da19f906978.png

 四,格式化节点:

        (1)如果集群是第一次启动,需要初始化(格式化)NameNode,在格式化的过程中我遇到了报错,通过阅读报错信息,重新配置了四个自定义配置文件(建议报错先认真阅读)

hdfs namenode -format

9bece3cbb4d5407f9f895102943fb219.png

 221935c0866845bb86361bc36b83c252.png

 上述格式化完成

五,启动集群:


启动集群在sbin目录下(在Hadoop的安装目录下)

ad1b1312101d4beea672140c473f302d.png

 启动HDFS:83f9276789584241882ff73791276caf.png

启动完毕后用命令jps(jps命令在Hadoop的安装路径下执行,是java提供的一个显示当前所有java进程pid的命令)

 7ea57ccf2aff4fc98d1d243875f3585f.png

 abb4069ac4a64d0c92f03240d7869480.png

 067d410da4e34bce92a26a81c4b3c006.png

 可以看到跟我们的集群规划相同

搜索 hadoop102:9870可以看到hdfs存储的数据信息f86329132fce49efaf78b6a908d6c790.png

 

在配置了ResourceManager的节点(hadoop103启动YARN

3f152883db2f451890011488b61df6f9.png

可以看到三个进程符合集群规划

84b85cc377504fb0bc6b9ab91b642fa9.png

搜素  hadoop103:8088可以看到yarn的资源调度网页

68f8b7ca80404282ab2450043b9d5e7b.png

 六,测试集群:

上传文件到集群:

(1)上传小文件:
        a2a98bb3ddcc4917a14e149237ba3925.png        cb0915972d044b31b13a5e2c07c6af93.png

 

 上传带内容的文件到wcinput

26fcadf9b2024bcfa80f8462916ff6e5.png

a47581a78e8147e1a0cb3b1834838a67.png

07c868afd1224e59ae56be483d4d6c7b.png

 

 2c7f23be30304daf82e5d60dc41ea643.png

 (2)上传大文件:

 

1439b45e2fd541d6890aec6b9f5f75fa.png0ad2684cd03c4fceb56ab3a8c847110c.png

 回到根部录下可以看到有添加的数据,但是这只是个链接,方便展示,实际存储在datanode节点0e64f1becbbf4e719c31119f55858d6b.png

 5e909db7b84f48b49ac0552212ca6303.png

 刚开始初始化节点的时候只有name,现在存入数据后出现了data

数据存储的目录:32b115336b074f9fa25d75d0292e20ab.png

 

/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-2091296116-192.168.10.102-1677829450991/current/finalized/subdir0/subdir0

查看文件内容:
查看小文件直接cat即可

查看大文件:

cat blk_1073741826>>tmp.tar.gz和cat blk_1073741827>>tmp.tar.gz是把这两个拼接成一个jdk压缩包,然后解压发现就是上传的jdk压缩包,所以可以确定hdfs实际上内容存储的位置就是在这里。这里为什么会把jdk的压缩包分为两部分呢?原因就是在hadoop里存储的容量是128MB为一个块,然后jdk的压缩包有180MB,所以一个块存不下,需要两个块,注意块的序号是从0开始的

5966e8c487f443ac8f4c1435283d58eb.png

 Hadoop是具有高可用的,所以会有多个备份,不测试显示3分备份,所以在hadoop103,hadoop104上同样的路径有同样的数据

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/389516.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot三种方法实现定时发送邮件的案例

前言 小编我将用CSDN记录软件开发之路上所学的心得与知识&#xff0c;有兴趣的小伙伴可以关注一下&#xff01;也许一个人独行&#xff0c;可以走的很快&#xff0c;但是一群人结伴而行&#xff0c;才能走的更远&#xff01;让我们在成长的道路上互相学习&#xff0c;让我们共…

了解java

#常见编程语言介绍 C语言 C语言 java语言 javaScript语言 PHP语言 python语言Object-C和Swift语言 C# &#xff08;c sharp&#xff09;语言 Kotlin语言 Go语言 Basic语言 #JAVA的发展 起源于1991年SUN公司GREEN项目&#xff0c;1996年JDK1.0正式发布 后被Oracle公司收购&…

卷积神经网络CNN之ZF Net网络模型详解(理论篇)

1.背景 2. ZF Net模型结构 3. 改进优缺点 一、背景 ZF Net是用作者的名字命名的&#xff0c;Matthew D.Zeiler 和 Rob Fergus &#xff08;纽约大学&#xff09;&#xff0c;2013年撰写的论文&#xff1b; 论文原网址https://arxiv.org/abs/1311.2901 论文名&#xff1a;Vis…

Vue2的基本内容(一)

目录 一、插值语法 二、数据绑定 1.单向数据绑定 2.双向数据绑定 三、事件处理 1.绑定监听 2.事件修饰符 四、计算属性computed和监视属性watch 1.计算属性-computed 2.监视属性-watch &#xff08;1&#xff09;通过 watch 监听 msg 数据的变化 &#xff08;2&a…

IronXL for .NET 2023.2.5 Crack

关于适用于 .NET 的 IronXL 在 C# 中阅读和编辑 Excel 电子表格&#xff0c;无需 MS Office 或 Excel Interop。 IronXL for .NET 允许开发人员在 .NET 应用程序和网站中读取、生成和编辑 Excel&#xff08;和其他电子表格文件&#xff09;。您可以读取和编辑 XLS/XLSX/CSV/TS…

Apollo控制部分1-- ControlComponent组件介绍

Apollo控制部分1-- ControlComponent组件介绍摘要一、ControlComponent1、启动文件解析2、ControlComponent()组件函数解析1&#xff09;ControlComponent::ControlComponent() 构造函数2&#xff09;ControlComponent::Init() 初始化函数&#xff08;执行一次&#xff09;3&am…

分享四个前端Web3D动画库在Threejs中使用的动画库以及优缺点附地址

Threejs中可以使用以下几种动画库&#xff1a;Tween.js&#xff1a;Tween.js是一个简单的缓动库&#xff0c;可以用于在three.js中创建简单的动画效果。它可以控制数值、颜色、矢量等数据类型&#xff0c;并提供了多种缓动函数&#xff0c;例如线性、弹簧、强化、缓冲等等。区别…

Linux性能学习(2.3):内存_为什么分配的内存比申请的内存大16个字节

文章目录1 验证申请不同内存&#xff0c;系统分配机制1.1 代码1.2 测试1.3 结论2 为什么会多分配内存3 为什么会有4字节不可使用参考资料&#xff1a;https://www.gnu.org/software/libc/ 在上一篇文章中&#xff0c;探讨了Linux系统对进程以及线程的内存分配问题&#xff0c;…

流程图简介

一、流程与流程图1. 什么是流程具体来说&#xff0c;流程是一项活动或一系列连续有规律的事项或行为进行的程序。流程有6个要素&#xff0c;分别是&#xff1a;资源、过程、结构、结果、对象和价值。一个流程会把这些基本要素串联起来&#xff0c;例如流程中资源的输入、流程中…

gprof2dot perf

什么是gprof2dot 这是一个用于将许多探查器的输出转换为点图Python脚本。 使用需要安装的依赖 Python: known to work with version 2.7 and 3.3; it will most likely not work with earlier releases.Graphviz: tested with version 2.26.3, but should work fine with ot…

【C++】类和对象补充知识点

&#x1f3d6;️作者&#xff1a;malloc不出对象 ⛺专栏&#xff1a;C的学习之路 &#x1f466;个人简介&#xff1a;一名双非本科院校大二在读的科班编程菜鸟&#xff0c;努力编程只为赶上各位大佬的步伐&#x1f648;&#x1f648; 目录前言一、再谈构造函数1.1 构造函数体赋…

逻辑电路代数运算(上)

逻辑代数L是一个封闭的代数系统&#xff0c;由一个逻辑变量集K&#xff0c;常量0和1&#xff0c;以及与或非三种基本运算构成。 参与逻辑运算的变量叫逻辑变量&#xff0c;用字母A&#xff0c;B……表示。每个变量的取值非0 即1。 0、1不表示数的大小&#xff0c;而是代表两种不…

三天吃透Java基础八股文

本文已经收录到Github仓库&#xff0c;该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点&#xff0c;欢迎star~ Github地址&#xff1a;https://github.com/…

Asp.net core api swagger显示中文注释

在你的 Web API 项目中使用 Swagger 的.NET Core 封装 Swashbuckle 可以帮助你创建良好的文档和帮助页面&#xff0c;Swagger (OpenAPI) 是一个与语言无关的规范&#xff0c;用于描述 REST API。 它使计算机和用户无需直接访问源代码即可了解 REST API 的功能1、OpenAPI 与 Swa…

IP定位离线库有什么作用?

IP离线是什么意思&#xff1f;我们以丢失手机为例来寻找它&#xff0c;现在手机都有IP定位功能&#xff0c;只要手机开通了IP定位&#xff0c;就能找到手机。iPhone定位显示离线一般是iPhone手机关机了或者iPhone手机中“查找我的iPhone”功能关闭了。如果手机在手中的话可以打…

【Spark】Spark的DataFrame向Impala写入数据异常及源码解析

背景 事情是这样的&#xff0c;当前业务有一个场景: 从业务库的Mysql抽取数据到Hive 由于运行环境的网络限制&#xff0c;当前选择的方案&#xff1a; 使用spark抽取业务库的数据表&#xff0c;然后利用impala jdbc数据灌输到hive。&#xff08;没有spark on hive 的条件&…

cmd命令教程

小提示&#xff1a; 在本文中&#xff0c;我将向您展示可以在 Windows 命令行上使用的 40 个命令 温馨提示&#xff1a;在本教程中学习使用适用于 Windows 10 和 CMD 网络命令的最常见基本 CMD 命令及其语法和示例 文章目录为什么命令提示符有用一、cmd是什么&#xff1f;如何在…

AcWing 4868. 数字替换(DFS + 剪枝优化)

AcWing 4868. 数字替换&#xff08;DFS 剪枝优化&#xff09;一、问题二、思路三、代码一、问题 二、思路 题目中要求变换次数最小&#xff0c;其实第一印象应该是贪心&#xff0c;即我们每一次都去成各位中最大的那个数字。但是这个想法很容易推翻。因为你这次乘了一个最大的…

gdb/git的基本使用

热爱编程的你&#xff0c;一定经常徘徊在写bug和改bug之间&#xff0c;调试器也一定是你随影而行的伙伴&#xff0c;离开了它你应该会寝食难安吧&#xff01; 目录 gdb的使用 断点操作 运行调试 观察数据 Git的使用 仓库的创建和拉取 .gitignore “三板斧” 常用指令 gd…

CV——day82 读论文:遥感目标检测的改进注意力特征融合SSD (AF-SSD)方法

遥感目标检测的改进注意力特征融合SSD 方法I. INTRODUCTIONII. RELATED WORKB. 特征融合C.注意力机制III. PROPOSED METHODA. 特性融合模块——**FFM**B.双路径注意模块——DAMC. 多尺度接受域——MRFIV. EXPERIMENTSA. Data Sets and TrainingV. CONCLUSIONAttention and Feat…