云服务器搭建Hadoop分布式

news2024/7/4 4:46:25

文章目录

    • 1.服务器配置
    • 2.Java环境
    • 3. 安装Hadoop
    • 4. 集群配置
    • 5. 编写集群的启动脚本

1.服务器配置

服务器主机名配置
115.157.197.82s110核
115.157.197.84s210核
115.157.197.109s310核
115.157.197.31s410核
115.157.197.60gracal10核

所有的软件安装在/opt/module下,软件安装包在/opt/softs下

2.Java环境

  • 所有的服务器的java统一1.8版本,查看java版本

    java --version
    
    • ​ 若存在java环境不统一,或者没有1.8版本的jdk

      • 无1.8版本的java

         yum install -y java-1.8.0-openjdk*
        
      • 环境不统一

        #查看java版本
        alternates --config java
        #选择1.8版本的数字
        

相关的JAVA_HOME、Hadoop_HOME环境变量都保存在/etc/profile.d/my_env.sh

image-20231020175203487

3. 安装Hadoop

  • 确保Hadoop统一版本:hadoop3.1.3
  • 编写文件分发脚本,可以在一台服务器分发到其他服务器:xsync脚本,在/home/gaochuchu/bin目录下

4. 集群配置

  • 各个组件的分布情况

    s1s2s3s4gracal
    HDFSNameNode DataNameNodeDataNameNodeSecondaryNameNode DataNameNodeDataNameNodeDataNameNode
    YARNNodeManagerResourceManager NodeManagerNodeManagerNodeManagerNodeManager
  • 常用端口配置 (分Hadoop2.x和Hadoop3.x的区别)

    端口名称Hadoop2.xHadoop3.x
    NameNode内部通信端口8020/90008020/
    NameNode HTTP UI500709870
    MapReduce查看执行任务端口80888088(容易和框架端口冲突,本文配置的7666)
    历史服务器通信端口1988819888
  • 在客户端机器(笔记本)配置ip和服务器主机名的映射,希望能通过主机名+端口号在浏览器访问各个Web页面

    • 问题:通过s2:7666无法访问ResourceManger的web UI,而通过直接的ip:7666又可以访问其webUI

      • 遇到这个问题我无法理解为什么会出问题
      • 漫长的排错过程:
        • 1.检查了服务器之间的ip和主机名的映射,各个服务器主机之间通过主机名可以ping通,说明映射没有问题

        • 2.检查客户端mac本机的hosts文件映射未发现问题,并且在客户端的终端也能ping通各个主机名,说明映射没有问题

        • 3.且查看各个服务器的防火墙也处于关闭状态

        • 4.通过netstat -nltp|grep 7666查看端口的监听情况,也是正常监听状态

        • 5.在网上搜索很多相关解决方案:关闭防火墙,设置etc/sysconfig/selinux的级别为disable,都没有结果

        • 因此,我认为应该在客户端本机出现问题,验证问题过程

          6.1 发现在本地主机telnet s2 7666可以成功访问,但是curl s2:7666没有输出页面的任何信息

          6.2 使用cur -v s2:7666查看相关信息

          image-20231022220729482
          • 发生地址的重定位,然后使用命令curl -v http://s2:7666/cluser

            成功返回了相关的html信息,说明页面其实是可以访问的

          6.3 但是浏览器端还是无法访问:后查询到浏览器可能配置了代理服务器,而’curl’命令未配置代理。代理服务器会烦扰浏览器的访问。

          因此我关闭了VPN代理,成功访问到s2:7666页面!!

          以后VPN代理一定要慎用!!!排查了这么久发现最后居然是代理问题

  • 启动集群测试

    • 启动HDFS

      [gaochuchu@s1 hadoop-3.1.3]$ sbin/start-dfs.sh
      
    • 启动YARN

      [gaochuchu@s1 hadoop-3.1.3]$ sbin/start-yarn.sh
      
      • 问题:

        image-20231020173832878

      • 解决:

        • 这里的hadoop配置的是root用户创建的hadoop环境,本地用户无权限
        • 修改环境变量/etc/profile,注释配置的HADOOP_HOME,重新source
  • 运行hadoop自带的wordcount示例程序报错,并且一直卡在Running Job位置,报错信息如下:

    java.io.IOException: Got error, status=ERROR, status message , ack with firstBadLink as [某ip]:9866
    	at org.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus(DataTransferProtoUtil.java:134)
    	at org.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus(DataTransferProtoUtil.java:110)
    	at org.apache.hadoop.hdfs.DataStreamer.createBlockOutputStream(DataStreamer.java:1778)
    	at org.apache.hadoop.hdfs.DataStreamer.nextBlockOutputStream(DataStreamer.java:1679)
    	at org.apache.hadoop.hdfs.DataStreamer.run(DataStreamer.java:716)
      
      ......
      
      Caused by: java.net.NoRouteToHostException: No route to host
    	at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
    	at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:716)
    	at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)
    	at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531)
    	at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:700)
    	at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:804)
    	at org.apache.hadoop.ipc.Client$Connection.access$3800(Client.java:421)
    	at org.apache.hadoop.ipc.Client.getConnection(Client.java:1606)
    	at org.apache.hadoop.ipc.Client.call(Client.java:1435)
    	... 19 more
    
    • 如何解决这种问题?
      • 注意报错信息:No route to host ,说明没有到host的路由,排查思路,确定与对应服务器端口是否联通

      • 首先测试某ip自身9866端口是否联通,说明联通 image-20231020235145661
        说明s1服务器和…31:9866可能是不连通的

      • 经查找相关资料说明是…31服务器的icmp(Internet Control Message Protocol)被禁用导致。
        命令查看iptable是否有防火墙设置:

        iptables -L INPUT --line-numbers
        

        发现:

        image-20231020233954593

        命令删除这条记录:

        iptables -D INPUT 28
        

5. 编写集群的启动脚本

  • 因为每次集群启动需要在NameNode节点的HADOOPHOME目录下使用命令启动HDFS

    sbin/start-dfs.sh
    
  • 在Yarn节点上通过命令启动Yarn(ResourceManager)

     sbin/start-yarn.sh
    
  • 配置了历史服务器,还需要在历史服务器的节点上使用命令启动历史服务器

    mapred --daemon start historyserver
    
  • 相应的停止集群也需要通过以下三个命令来停止集群

    sbin/stop-dfs.sh
    sbin/stop-yarn.sh
    mapred --daemon stop historyserver
    
  • 因此,可以编写相关的脚本启停(HDFS Yarn Historyserver)

    • /home/gaochuchu/bin 目录下编写myhadoop.sh脚本启停Hadoop集群

      #启动Hadoop集群
      myhadoop.sh start
      #停止Hadoop集群
      myhadoop.sh stop
      
  • 服务器各节点的状态都需要通过在笔不同服务器上通过jps命令查看,比较麻烦

    • /home/gaochuchu/bin 目录下编写jpsall脚本,可以查看所有服务器上的节点状态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1122051.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python生成的报告中绘制了多张图,但最后都混合到一起了

问题来源: 用python生成的报告中,存在三张图,第一个张图是正常的, 后面的图都是不正常的,全都是多张图混合而成的,这是为什么呢? 三段代码均是下述调用方式 import matplotlib.pyplot as plt pl…

biquad滤波器的设计

1.介绍 Biquad滤波器是一种常用的数字滤波器结构,它使用二阶差分方程(difference equation)来实现滤波功能。它得名于其包含两个极点(poles)和一个零点(zero)。 双二阶滤波器(biquad)是最常用…

DALL·E 3:OpenAI的革命性图像生成模型与ChatGPT的融合

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

贪吃蛇项目实践

游戏背景: 贪吃蛇是久负盛名的游戏,它也和俄罗斯⽅块,扫雷等游戏位列经典游戏的⾏列。 实现基本的功能: 贪吃蛇地图绘制 蛇吃⻝物的功能 (上、下、左、右⽅向键控制蛇的动作) 蛇撞墙死亡 蛇撞⾃⾝死亡 计…

Leetcode 454 四数相加II(哈希表 + getOrDefault方法用于获取Map中指定键的值,如果键不存在,则返回一个默认值)

Leetcode 454 四数相加II&#xff08;哈希表&#xff09; 解法1 HashMap getOrDefault方法 解法1 HashMap getOrDefault方法 【HashMap】 【⭐️HashMap常用操作】 创建HashMap&#xff1a;HashMap<Integer, Integer> hash new HashMap<>(); 向HashMap添加元素…

vant组件是使用?

首先 在vue项目中使用的时候 要先下载组件 使用npm安装 # Vue 3 项目&#xff0c;安装最新版 Vant npm i vant# Vue 2 项目&#xff0c;安装 Vant 2 npm i vantlatest-v2 使用yarn安装或pnpm # 通过 yarn 安装 yarn add vant# 通过 pnpm 安装 pnpm add vant 在框架中引入即…

No170.精选前端面试题,享受每天的挑战和学习

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云课上架的前后端实战课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你从入…

Elasticsearch的聚集统计,可以进行各种统计分析

说明&#xff1a; Elasticsearch不仅是一个大数据搜索引擎&#xff0c;也是一个大数据分析引擎。它的聚集(aggregation)统计的REST端点可用于实现与统计分析有关的功能。Elasticsearch提供的聚集分为三大类。 度量聚集(Metric aggregation)&#xff1a;度量聚集可以用于计算搜…

Python这些冷门特性,当初也没教啊

B站|公众号&#xff1a;啥都会一点的研究生 本期整理了Python中几个冷门甚至奇特但又一直存在的特性&#xff0c;一起看看吧 插播&#xff0c;更多文字总结指南实用工具科技前沿动态第一时间更新在公粽号【啥都会一点的研究生】 for-else if-else想必所有人都知道用来处理条…

内置式永磁同步电机复矢量电流调节器设计

导读&#xff1a;本期主要介绍永磁同步电机复矢量电流调节器。针对内置式永磁同步电机d、q轴电流存在动态耦合的问题&#xff0c;在基于有效磁链概念得到IPMSM的复矢量数学模型&#xff0c;设计出相应的复矢量电流调节器&#xff0c;实现了d、q轴电流的动态解耦。通过仿真验证所…

【C语言】每日一题(旋转数组)

旋转数组&#xff0c;链接奉上 目录 方法:创建额外的数组&#xff1a;整体思路&#xff1a;代码实现&#xff1a; 数组反转&#xff1a;整体思路&#xff1a;代码实现&#xff1a;小插曲&#xff1a; 方法: 创建额外的数组&#xff1a; 整体思路&#xff1a; 创建一个额外的…

【Dockerfile镜像实战】构建LNMP环境并运行Wordpress网站平台

这里写目录标题 一、项目背景和要求二、项目环境三、部署过程1&#xff09;创建自定义网络2&#xff09;部署NginxStep1 创建工作目录并上传相关软件包Step2 编写Dockerfile文件Step3 编写配置文件nginx.confStep4 创建nginx镜像Step5 运行容器 3&#xff09;部署MysqlStep1 创…

【Axure高保真原型】可视化图表图标

今天和粉丝们免费分享可视化图表图标原型模板&#xff0c;包括柱状图、条形图、环形图、散点图、水波图等常用的可视化图表图标。 【原型效果】 【原型预览】 https://axhub.im/ax9/d402c647c82f9185/#c1 【原型下载】 这个模板可以在 Axure高保真原型哦 小程序里免费下载哦…

Node学习笔记之HTTP 模块

回顾&#xff1a;什么是客户端、什么是服务器&#xff1f; 在网络节点中&#xff0c;负责消费资源的电脑&#xff0c;叫做客户端&#xff1b;负责对外提供网络资源的电脑&#xff0c;叫做服务器。 http 模块是 Node.js 官方提供的、用来创建 web 服务器的模块。通过 http 模块…

EC11编码器编码使用

文章目录 前要原理脉冲与定位功能硬件设计 编程轮询模式定时器Encoder模式 结束语 前要 关于EC11编码器的了解可以参考两篇文章&#xff0c;比较详细&#xff0c;在此就不多介绍了&#xff1a; 一篇文章带你了解——EC11编码器&#xff08;关于硬件、原理图、上下拉等都有讲&…

linux性能分析(五)如何学习linux性能优化

一 如何学习linux性能优化 强调&#xff1a; 由于知识记忆曲线以及某些知识点不常用,所以一定要注重复习思考&#xff1a; 如何进行能力转义以及能力嫁接? --> 真正站在巨人的肩膀上性能调优的目的&#xff1a; 不影响系统稳定性的资源最大利用化补充&#xff1a; 性能…

Python:函数篇(每周练习)

编程题&#xff1a; Python第四章作业&#xff08;初级&#xff09; (educoder.net) 题一&#xff1a;无参无返回值函数 def print_hi_human(): # 函数名用小写字母print("人类&#xff0c;你好&#xff01;")if __name__ __main__:print_hi_human() 题二&#…

一起学数据结构(11)——快速排序及其优化

上篇文章中&#xff0c;解释了插入排序、希尔排序、冒泡排序、堆排序及选择排序的原理及具体代码实现本片文章将针对快速排序&#xff0c;快速排序的几种优化方法、快速排序的非递归进行解释。 目录 1. 快速排序原理解析以及代码实现&#xff1a; 2. 如何保证相遇位置的值一…

智慧矿山:让AI算法提高未戴安全带识别率!

未穿戴安全带识别AI算法&#xff0c;作为智慧矿山的重要应用之一&#xff0c;不仅可以有效提高矿山工作人员的安全意识&#xff0c;还可以降低事故发生的概率。然而&#xff0c;识别准确率的提高一直是该算法面临的挑战之一。为了解决这个问题&#xff0c;研究人员不断努力探索…

vue3如何实现页面跳转?

首先、给元素绑点击事件 其次 写跳转路由 总结&#xff1a;一定不要忘了引入Router