Hadoop分布式模式配置

news2024/11/24 19:42:51

hadoop环境准备:

hadoop下载地址:http://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz

hadoop集群的安装配置大致分为以下六个步骤:

  1. 选定一台机器作为master

  2. 在master节点上创建hadoop用户、安装ssh服务端、配置jdk环境

  3. 在master节点上安装hadoop,完成配置

  4. 在其他Slave节点上创建hadoop用户安装ssh服务端、配置jdk环境

  5. 将master节点上的/usr/local/hadoop目录复制到其他Slave节点上

  6. 在master节点上开启hadoop

2.1创建hadoop用户:

sudo useradd -m hadoop -s /bin/bash
#设置密码
sudo passwd hadoop
#增加管理员权限
sudo adduser hadoop sudo

2.2ssh无密码登陆节点

cd ~/.ssh
#生成公钥和私钥
ssh-keygen -t rsa
#放到authorized_key中
cat ./id_rsa.pub>>./authorized_keys
#更改本地hosts
vim /etc/hosts
#将公钥传到slavel机器
scp ~/.ssh/id_rsa.pub hadoop@Slavel:/home/hadoop
#将传过来的公钥继续追加写入到authorized_keys
cat ~/id_rsa.pub>>~/.ssh/authorized_keys

2.3配置jdk

vim ~/.bashrc
#修改之后保存,刷新
source ~/.bashrc

在末尾添加环境变量

export JAVA_HOME=/tools/JDK/jdk1.8.0_371
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

3、配置集群/分布式环境

#下载完之后解压hadoop移动到/usr/local目录中
mv ./hadoop /usr/local
#给当前hadoop用户添加一个用户组,以至于有权限访问hadoop文件
chown +R hadoop /usr/local/hadoop

在配置集群需要修改/usr/local/hadoop/etc/hadoop目录下的workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml五个文件(这里仅设置正常启动所必需的设置项)

3.1修改workers文件

本机是master,在master中添加一行

Slaver

3.2修改core-site.xml文件

<configuration>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/hadoop/tmp</value>
                <description>Abase for other temporary directories.</description>
        </property>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://Master:9000</value>
        </property>
</configuration>

3.3修改hdfs-site.xml文件

<configuration>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>Master:50090</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

3.4修改mapred-site.xml文件

<configuration>

        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>Master:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>Master:19888</value>
        </property>
        <property>
                <name>yarn.app.mapreduce.am.env</name>
                <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
        </property>
        <property>
                <name>mapreduce.map.env</name>
                <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
        </property>
        <property>
                <name>mapreduce.reduce.env</name>
                <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
        </property>
</configuration>

3.5修改yarn-site.xml文件

<property>
                <name>yarn.resourcemanager.hostname</name>
                <value>Master</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

将以上文件都修改完之后需要把master节点上的hadoop文件复制到各个节点上去

首先在master上执行如下命令:

cd /usr/local
sudo rm -r ./hadoop/tmp ./hadoop/logs/*
tar -zcf ~/hadoop.master.tar.gz ./hadoop
cd ~
scp ./hadoop.master.tar.gz Slavel:/home/hadoop

然后在slavel节点上执行如下命令:

sudo rm -r /usr/local/hadoop
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/hadoop

slavel执行完成之后回到master上来

第一次启动hadoop集群时,须先在master节点上执行名称节点的格式化

hdfs namenode -format

启动hadoop,须在master上进行(这里我配置了hadoop的环境变量的)

start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

hadoop配置环境变量

vim ~/.bashrc
export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin

jps命令可查看各个节点启动的进程,如正确启动,则在master节点杀死嗯有NameNode、ResourceManager、SecondaryNameNode和JobHistoryServer进程

缺少任意一进程都表示出错

执行分布式实例

hdfs dfs -mkdir -p /user/hadoop
#其次在hdfs中创建一个input目录,并把/usr/local/hadoop/etc/hadoop目录中的配置文件作为输入文件复制到input目录中
hdfs dfs -mkdir input
hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml input

运行MapReduce作业

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'

查看结果

./bin/hdfs dfs -cat output/*

可能遇到的问题:

在master拷贝的hadoop到节点机器上因为hadoop里面配置的jdk的路径是master机器上的,所以要在/usr/local/hadoop/etc/hadoop/hadoop-env.sh

将jdk路径改成自己的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/995002.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

春秋云镜 CVE-2016-0785

春秋云镜 CVE-2016-0785 S2-029 靶标介绍 2.3.28 之前的 Apache Struts 2.x 允许远程攻击者通过标签属性中的“%{}”序列执行任意代码。 启动场景 漏洞利用 工具利用 得到flag flag{a4c7fc9a-8e2d-49b8-9b09-22790fb2bfb6}

APO 载脂蛋白

Apolipoprotein E structure: insights into function-2006 Apolipoprotein E: Structural Insights and Links to Alzheimer Disease Pathogenesis APO-E 突变基因检测&#xff1b; APO-D, APO-M ; lipocalin ; APO-H CCP , 凝血诊断&#xff0c;狼疮抗凝物&#xff0…

Spring框架入门:构建你的第一个Web应用

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

Matlab图像处理-多阈值分割

多阈值分割 在某些时候图像使用单独的阈值不能够对其实现有效地分割&#xff0c;例如在灰度直方图中有明显的三个峰时候&#xff0c;我们需要提取中间峰&#xff0c;这时我们使用双阈值分割会得到较好的分割效果。如下例子中生成灰度直方图中有两个峰&#xff0c;选择合适的两…

【strstr函数的介绍和模拟实现——超详细版】

strstr函数的介绍和模拟实现 strstr函数的介绍 资源来源于cplusplus网站 strstr函数声明&#xff1a; char *strstr( const char *str1, const char *str2 ); 它的作用其实就是&#xff1a; 在字符串str1中查找是否含有字符串str2&#xff0c;如果存在&#xff0c;返回str2在…

数据安全服务是什么意思?

数据安全服务是指为保护用户的数据免受未经授权的访问、修改、损坏或泄露的服务。随着信息化的发展&#xff0c;大量的个人和企业数据被存储在网络上&#xff0c;数据安全问题也日益受到关注。数据安全服务旨在帮助用户识别和应对各种潜在的数据安全风险&#xff0c;并提供相应…

支付宝沙箱调用错误

支付宝沙箱调用参数就三个APPID&#xff0c;用户私钥&#xff0c;支付宝公钥&#xff0c; 发送请求需要的配置 alipay: app_id: 2021000122636644 merchant_private_key: 用户私钥 alipay_public_key: 支付宝公钥 sign_type: RSA2 charset: utf-8 gatewayUrl: https://openap…

企业架构LNMP学习笔记30

1、upstream 中server的关键字&#xff1a;语法&#xff1a; upstream中的分发之后的几个关键字&#xff1a; 1&#xff09;backup 备 其他的没有backup标识的都不可用了&#xff0c;才分发到backup&#xff1b; 2&#xff09;down 此条配置&#xff0c;不会被分发到。 syst…

Android Studio实现一笔画完小游戏

文章目录 一、项目概述二、开发环境三、详细设计3.1、数据库设计3.2、普通模式3.3、随机模式3.4、关卡列表 四、运行演示五、项目总结六、源码获取 一、项目概述 Android一笔画完是一种益智游戏&#xff0c;玩家需要从起点开始通过一条连续的线&#xff0c;将图形中所有的方块…

谷歌浏览器书签位置及怎么导入书签

谷歌浏览器书签位置&#xff1f; 在谷歌浏览器地址栏输入chrome://version/ 按回车键打开谷歌浏览器安装信息在显示的个人资料路径查找到Bookmarks文件&#xff0c;及为谷歌浏览器书签文件 谷歌浏览器怎么导入书签&#xff1f; 将Bookmarks加入.html后缀在书签管理器中找到右…

可观测性在灰度发布中的应用

前言 随着云计算的发展、云原生时代的来临&#xff0c;企业数字化转型进程不断深入&#xff0c;应用开发也越来越多地基于微服务化模式&#xff0c;快速迭代的能力使得应用开发更高效、更灵活。同时&#xff0c;也不得不面临应用版本快速升级所带来的的巨大挑战。 传统的发布方…

【数据结构与算法系列3】有序数组的平方 (C++ Python)

给你一个按 非递减顺序 排序的整数数组 nums&#xff0c;返回 每个数字的平方 组成的新数组&#xff0c;要求也按 非递减顺序 排序。 示例 1&#xff1a; 输入&#xff1a;nums [-4,-1,0,3,10] 输出&#xff1a;[0,1,9,16,100] 解释&#xff1a;平方后&#xff0c;数组变为 …

Spring框架的未来:Spring 6的新特性预览

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…

Matlab图像处理-自适应阈值

自适应阈值 在许多的情况下&#xff0c;背景的灰度值并不是常数&#xff0c;物体和背景的对比度在图像中也有变化。这时&#xff0c;一个在图像中某一区域效果良好的阈值在其它区域却可能效果很差。在这种情况下&#xff0c;把灰度阈值取成一个随图像中位置缓慢变化的函数值是…

深度优先搜索遍历与广度优先搜索遍历

目录 一.深度优先搜索遍历 1.深度优先遍历的方法 2.采用邻接矩阵表示图的深度优先搜索遍历 3.非连通图的遍历 二.广度优先搜索遍历 1.广度优先搜索遍历的方法 2.非连通图的广度遍历 3.广度优先搜索遍历的实现 4.按广度优先非递归遍历连通图 一.深度优先搜索遍历 1.深…

D. Matrix Cascade

Problem - D - Codeforces 思路&#xff1a;这个题就是要维护每个位置被修改了几次&#xff0c;但是一直没想到一个好的方法&#xff0c;一直在关注这个点对下面的点产生的影响&#xff0c;但是其实我们可以维护这个点能够由那几个点影响&#xff0c;其实就是一个以x,y为下顶点…

如何把glb格式模型gltf格式模型导入3dmax和C4D,U3D,UE4这些主流软件中

咱有时候去glbxz.com添加链接描述 官网下载免费glb格式模型&#xff0c;gltf模型下载时候是没有通用格式&#xff0c;例如fbx&#xff0c;obj&#xff0c;这个时候3dmax和C4D直接打开导入是不行的&#xff0c;也可以制作glb模型&#xff0c;扣扣&#xff1a;424081801 这个时候…

扫地僧万能HTML模板站群【搜狗站群单站模式内页收录】配置教程

浅测【搜狗内页收录较好】可自行进行测试对比 [测试的域名有搜狗蜘蛛&#xff0c;但是不收录] [一换程序嘎嘎乱叫] [测试的为内页收录&#xff0c;非泛站] [泛站容易被端&#xff0c;搜狗不建议泛站] 第一步配置SEO设置如图&#xff1a; 站群模式&#xff1a;单站 泛站…

网络延迟简介:为什么它重要,如何测量

1、什么是延迟呢? 延迟其实就是我们在网页浏览或者使用应用时,从我们点击请求到服务器返回结果给我们之间的时间差。就像你在跟朋友打电话,你说完话后,朋友听到并回应你所说话的时间差一样。 我们的最终目标是创建一个系统,让这个时间差变得尽可能短,也就是实现零延迟。…

使用Mybatis实现基本的增删改查------数据输出

需要和批量注入一起使用 当sql返回的实体类在java中没有的时候,可以使用map接值 开启自动事务提交openSession(true),事务在最后会进行自动提交 //3.获取Sqlsession对象[自动开启JDBC]//会自动开启事务,不会自动提交事务.但是提交事务需要sqlsession.commit()方法//openSession…