大数据技术之Hadoop:提交MapReduce任务到YARN执行(八)

news2024/11/22 6:17:00

目录

一、前言

二、示例程序

2.1 提交wordcount示例程序

2.2 提交求圆周率示例程序

三、写在最后


一、前言

我们前面提到了MapReduce,也说了现在几乎没有人再写MapReduce代码了,因为它已经过时了。然而不写代码不意味着它没用,当下很火的HIve技术就到了MapReduce,所以MapReduce还是相当重要的。

但是本章我们暂时不用管MapReduce程序是如何编写的,它的语法结构是什么,我们通过Hadoop系统自带MapReduce示例程序到YARN运行。目的是让各位有一个直观的认识。

在部署并成功启动YARN集群后,我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架,其本身提供资源供许多程序运行,常见的有:

  • MapReduce程序
  • Spark程序
  • Flink程序

SparkFlink是大数据后续的学习内容,我们目前先来体验一下在YARN上执行MapReduce程序的过程。

二、示例程序

Hadoop官方内置了一些预置的MapReduce程序代码,我们无需编程,只需要通过命令即可使用。

常用的有2MapReduce内置程序:

wordcount:单词计数程序统计指定文件内各个单词出现的次数
pi:求圆周率通过蒙特卡罗算法(统计模拟法)求圆周率

这些内置的示例MapReduce程序代码,都在:

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内

可以通过 hadoop jar 命令来运行它,提交MapReduce程序到YARN中。

语法: hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

2.1 提交wordcount示例程序

介绍

单词计数示例程序的功能很简单:

给定数据输入的路径(HDFS)、给定结果输出的路径(HDFS

将输入路径内的数据中的单词进行计数,将结果写到输出路径

步骤

我们可以准备一份数据文件,并上传到HDFS中。

itheima itcast itheima itcast
hadoop hdfs hadoop hdfs
hadoop mapreduce hadoop yarn
itheima hadoop itcast hadoop
itheima itcast hadoop yarn mapreduce

将上述内容保存到Linux中为words.txt文件,并上传到HDFS。

hadoop fs -mkdir -p /input/wordcount
hadoop fs -mkdir /output
hadoop fs -put words.txt /input/wordcount/

执行如下命令,提交示例MapReduce程序WordCount到YARN中执行

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount hdfs://node1:8020/input/wordcount/ hdfs://node1:8020/output/wc1

注意:

  • 参数wordcount,表示运行jar包中的单词计数程序(Java Class
  • 参数1是数据输入路径(hdfs://node1:8020/input/wordcount/)
  • 参数2是结果输出路径(hdfs://node1:8020/output/wc1) 需要确保输出的文件夹不存在

提交程序后,可以在YARNWEB UI页面看到运行中的程序(http://centos100:8088/cluster/apps)

执行完成后,可以查看HDFS上的输出结果

 

  • _SUCCESS文件是标记文件,表示运行成功,本身是空文件
  • part-r-00000,是结果文件,结果存储在以part开头的文件中

执行完成后,可以借助历史服务器查看到程序的历史运行信息

ps:如果没有启动历史服务器和代理服务器,此操作无法完成(页面信息由历史服务器提供,鼠标点击跳转到新网页功能由代理服务器提供)

查看运行的日志

2.2 提交求圆周率示例程序

可以执行如下命令,使用蒙特卡罗算法模拟计算求PI(圆周率)

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 3 1000

  • 参数pi表示要运行的Java类,这里表示运行jar包中的求pi程序
  • 参数3,表示设置几个map任务
  • 参数1000,表示模拟求PI的样本数(越大求的PI越准确,但是速度越慢)

如图,运行完成,求得PI值(样本1000太小,不够精准,仅演示)

三、写在最后

到这一章结束,我们的Hadoop学习就告一段落了。不是说Hadoop技术学完了,而是可以说已经入门了。至于后续要深入学习也有了方向性。下一步我们将讲解Hive技术。过程中会补充MapReduce的一些知识点。

最难不过坚持,加油!🧡

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/995768.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

两性养生网站源码 生活类减肥网站源码 健康网模板源码 支持QQ登录和百度主动推送

本套模板非常适合生活类,两性类,减肥类等等类型的网站,这类型网站比较好做流量,因为客户群体众多, 可以自行改内容为其他类型网站模板总体非常简洁漂亮,配色合理,视觉舒服,并且配合…

合创汽车V09纵享商务丝滑?预售价32万元起,正式宣布大规模生产

合创汽车正式宣布,旗下新款车型V09已于9月10日开始大规模生产,并预计将于10月13日正式上市。V09作为中大型纯电动MPV的代表之一,备受瞩目。该车型是广汽新能源和蔚来汽车共同成立的广汽蔚来改为广汽集团和珠江投管共同投资的高端品牌——合创…

C语言练习:输入日期输出该日期为当年第几天

用scanf()输入某年某月某日,判断这一天是这一年的第几天。以3月5日为例,应该先把前两个月的加起来,然后再加上5天即本年的第几天,特殊情况,闰年且输入月份≥3时需考虑多加一天。注:判断年份是否为闰年的方法…

Web server failed to start. Port 8080 was already in use.之解决方法

问题: Web server failed to start. Port 8080 was already in use,这句错误描述意思是当前程序的端口号8080被占用了,需要将占用该端口的程序停止掉才行;错误如图所示: 解决方法: 按住winr,输入…

AI在医疗保健领域:突破界限,救治生命

文章目录 AI在医学影像分析中的应用AI在疾病预测和早期诊断中的作用个性化治疗和药物研发医疗数据管理和隐私保护未来展望 🎉欢迎来到AIGC人工智能专栏~AI在医疗保健领域:突破界限,救治生命 ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨博…

第17章_瑞萨MCU零基础入门系列教程之CAN FD 模块

本教程基于韦东山百问网出的 DShanMCU-RA6M5开发板 进行编写,需要的同学可以在这里获取: https://item.taobao.com/item.htm?id728461040949 配套资料获取:https://renesas-docs.100ask.net 瑞萨MCU零基础入门系列教程汇总: ht…

buuctf crypto 【Dangerous RSA】解题记录

1.打开文件 2.看到e非常小,c和n都很大,应该是低加密指数,上脚本 from gmpy2 import * from Crypto.Util.number import * n0x52d483c27cd806550fbe0e37a61af2e7cf5e0efb723dfc81174c918a27627779b21fa3c851e9e94188eaee3d5cd6f752406a43fbec…

王道考研:作业调度、内存调度、进程调度;进程的挂起状态;进程调度的时机、闲逛进程;调度算法的评价指标;不同调度算法性能的对比分析

一、作业调度、内存调度、进程调度 有时候使用手机切换进程的时候会出现卡顿的现象,这就是因为中级调度的原语 二、进程调度的时机 普通的临界区就是临界资源,比如访问打印机 调度程序是操作系统内核的一个模块 三、调度算法的评价指标 四、不同的调度…

栅格转换为CSV数据时如何优化数据文件的大小

在一些模型运算过程中我们需要将栅格数据转换为CSV数据进行计算输入。但栅格数据转换成矢量(CSV)后非常非常大。这个数据通常会是GB级别的。对于我们一般电脑运算的话,可能会非常困难,而且运算越复杂你不成功的几率越大 &#xf…

RESP无法连接linux上redis问题

1.本机无法ping通虚拟机IP 没有打开服务(这只是无法ping通虚拟机的一种原因) 其他原因可以参考 虚拟机ping不通的几种原因及解决办法_虚拟机ping不通主机_在键盘上弹钢琴的菜菜的博客-CSDN博客 2.未关闭linux系统的防火墙导致无法连接redis 查看防火墙…

最新清理删除Mac电脑内存空间方法教程

Mac电脑使用的时间越久,系统的运行就会变的越卡顿,这是Mac os会出现的正常现象,卡顿的原因主要是系统缓存文件占用了较多的磁盘空间,或者Mac的内存空间已满。如果你的Mac运行速度变慢,很有可能是因为磁盘内存被过度占用…

【PHY】3GPP UE能力类别的变化

博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。 博客…

态、势、感、知与时空、关系

态势感知是一种通过收集、整合、分析和解释大量的时空数据,以获取关于特定领域、地区或事件的全面理解的过程。时空和关系在态势感知中扮演着非常重要的角色。 态:态指的是物体或系统所处的状态或状况。在不同的态下,物体或系统的性质、行为和…

C生万物之函数

前言: 📕作者简介:热爱编程的小七,致力于C、Java、Python等多编程语言,热爱编程和长板的运动少年! 📘相关专栏Java基础语法,JavaEE初阶,数据库,数据结构和算法…

行人属性识别数据集PA100K介绍

本文介绍pa100k数据集,是从GitHub上paddleCLA工程中提供的路径下载,针对该数据集进行介绍: 01 - 图像信息 训练集 - 80000张图像验证集 - 10000张图像测试集 - 10000张图像 02 - 标签信息 属性1:有无帽子 - [0] 属性2&#xf…

Python语义分割与街景识别(2):环境搭建

前言 本文主要用于记录我在使用python做图像识别语义分割训练集的过程,由于在这一过程中踩坑排除BUG过多,因此也希望想做这部分内容的同学们可以少走些弯路。 本文是python语义分割与街景识别的第二篇,关于环境搭建的内容。这个部分是整个流…

DockerFile构建过程 实践

Dockerfile 1 DockerFile 构建过程 dockerfile是用来构建docker镜像文件!命令参数脚本 构建步骤 dockerfiledocker build 构建一个镜像docker run 运行镜像docker push 发布一个镜像 dockerhub官方的镜像,会对应到github上一个仓库中的Dockerfile …

第一章 计算机系统概述 二、操作系统的特征

一、分类 注意:并发和共享,是两个最基本的特征,二者互为存在条件。 1、并发 (1)定义: 并发指两个或多个事件在同一时间间隔内发生。这些事件宏观上是同时发生的,但微观上是交替发生的。 &a…

BUUCTF warmup_csaw_2016 1

分析 查看文件信息 file warmup_csaw_2016查看保护 64位,这里去了符号, 也就是说少了一些调试信息,不过问题不大 使用IDA64位, 找到main函数 可以看到这里会输出 sub_40060D 的地址 也就是说溢出到这里就拿到flag了 因为没…

CocosCreator3.8研究笔记(十三)CocosCreator 音频资源理解

1、 Cocos Creator 支持音频格式 目前 Cocos Creator 支持以下格式的音频文件: 音频格式说明.ogg.ogg 是一种开源的有损音频压缩格式,与同类型的音频压缩格式相比,优点在于支持多声道编码,采用更加先进的声学模型来减少损失音质&…