任务14:使用MapReduce提取全国每年最低/最高气温

news2024/9/24 15:16:53

任务描述

知识点

  • 使用MapReduce提取数据

重  点

  • 开发MapReduce程序
  • 统计每年每个月的最低气温
  • 统计每年每个月的最高气温

内  容

  • 使用IDEA创建一个MapReduce项目
  • 开发MapReduce程序
  • 使用MapReduce统计每年每个月的最低气温
  • 使用MapReduce统计每年每个月的最高气温

任务指导

1. 使用MapReduce提取最低气温

  • 使用IDEA创建Maven项目:TemperatureDemo
  • 在Settings中配置Maven
  • 配置pom.xml文件
  • 开发MapReduce程序
    • com.MinTemperatureMapper:提取日期和气温数据
    • com.MinTemperatureReducer:提取其中的最低温度,由于气温数据的膨胀因子为10,也就是说是原始数据的10倍,因此需要将获取的气温数据除以10
    • com.MinTemperature:MapReduce程序主入口
  • 程序编写完成,右键MinTemperature,点击Run 'MinTemperature.main()'运行MapReduce程序
  • 程序运行完成,进入master机器,查看运行结果

2. 使用MapReduce提取最高气温

  • 开发MapReduce程序
    • com.MaxTemperatureMapper:提取日期和气温数据
    • com.MaxTemperatureReducer:提取其中的最高温度,由于气温数据的膨胀因子为10,也就是说是原始数据的10倍,因此需要将获取的气温数据除以10
    • com.MaxTemperature:MapReduce程序主入口
  • 程序编写完成,右键MaxTemperature,点击Run 'MaxTemperature.main()'运行MapReduce程序
  • 程序运行完成,进入master机器,查看运行结果

任务实现

1. 使用MapReduce提取最低气温

  • 使用IDEA创建Maven项目:TemperatureDemo

  • 在Settings中配置Maven

  • 配置pom.xml文件,内容如下:
<dependencies>    
	<dependency>        
	<groupId>org.apache.hadoop</groupId>        
	<artifactId>hadoop-client</artifactId>        
	<version>2.9.2</version>    
	</dependency>
</dependencies>

       程序是一个典型的MapReudce程序结构,主要包括三个类,分别为:MinTemperatureMapper.java(Map程序)、MinTemperatureReducer.java(Reduce程序)、MinTemperature.java(Driver驱动类)。

       程序的作用是将前面ETL后的天气数据进行提取数据操作,抽取出22年内的每个月的最低温度,并保存到HDFS。

  • Map端:提取日期和气温数据
  • 在项目的src/main/java/com包中创建一个类MinTemperatureMapper.java,内容如下:
package com;

import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class MinTemperatureMapper extends Mapper<LongWritable, Text,Text, FloatWritable> {
    private static final int MISSING = -9999;
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        if (!"".equals(line)) {
            String[] values = line.split(",");
//          获取年份
            String year = values[1];
//          获取月份
            String month = values[2];
//          拼接年份和月份,作为输出key
            String textKey = year + "-" + month;
//          获取气温数据
            float temp = Float.parseFloat(values[5]);
            if (temp != MISSING) {
                System.out.println(textKey+":"+temp);
                context.write(new Text(textKey), new FloatWritable(temp));
            }
        }

    }
}
  • Reduce端:Reduce获取到Map端的输出,例如:<2000-01,list[-121,-32,-53,51........]>,将同一个月份的气温数据整合到一个list列表中,提取其中的最低温度,由于气温数据的膨胀因子为10,也就是说是原始数据的10倍,因此需要将获取的气温数据除以10。
  • 在项目的src/main/java/com包中创建一个类MinTemperatureReducer.java,内容如下:
package com;

import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class MinTemperatureReducer extends Reducer<Text, FloatWritable,Text,FloatWritable> {
    @Override
    protected void reduce(Text key, Iterable<FloatWritable> values, Context context) throws IOException, InterruptedException {

        float minValue = Float.MAX_VALUE;

        for (FloatWritable value : values) {
//          获取最低温度
            minValue = Math.min(minValue, value.get());
        }

//     气温数据的膨胀因子为10,需要将获取的气温数据除以10
        float air = minValue/10;

        context.write(key,new FloatWritable(air));
    }
}
  • Driver端:MapReduce程序的驱动类
  • 在项目的src/main/java/com包中创建一个类MinTemperature.java,内容如下:
package com;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class MinTemperature {
    public static void main(String[] args) {
        Configuration conf = new Configuration();

        Job job = null;
        try {
            job = Job.getInstance(conf);
            job.setJarByClass(MinTemperature.class);
            job.setJobName("Min temperature");
            job.setMapperClass(MinTemperatureMapper.class);
            job.setReducerClass(MinTemperatureReducer.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(FloatWritable.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(FloatWritable.class);

            FileInputFormat.addInputPath(job,new Path("hdfs://master:9000/china_all/"));
            FileOutputFormat.setOutputPath(job,new Path("hdfs://master:9000/output/mintemp/"));

            System.exit(job.waitForCompletion(true) ? 0 : 1);
//            job.submit();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}
  • 程序编写完成,右键MinTemperature,点击Run 'MinTemperature.main()'运行MapReduce程序
  • 控制台输出:

  • 程序运行完成,进入master机器,查看运行结果
# hadoop fs -ls /output/mintemp

# hadoop fs -cat /output/mintemp/part-r-*

2. 使用MapReduce提取最高气温

程序同样是一个典型的MapReudce程序结构,主要包括三个类,分别为:MaxTemperatureMapper.java(Map程序)、MaxTemperatureReducer.java(Reduce程序)、MaxTemperature.java(Driver驱动类)。

       程序的作用是将前面ETL后的天气数据进行提取数据操作,抽取出22年内的每个月的最高温度,并保存到HDFS。

  • Map端:提取日期和气温数据
  • 在TemperatureDemo项目的src/main/java/com包中创建一个类MaxTemperatureMapper.java,内容如下:
package com;

import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class MaxTemperatureMapper extends Mapper<LongWritable, Text,Text, FloatWritable> {
    private static final int MISSING = -9999;
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        if (!"".equals(line)) {
            String[] values = line.split(",");
//          获取年份
            String year = values[1];
//          获取月份
            String month = values[2];
//          拼接年份和月份,作为输出key
            String textKey = year + "-" + month;
//          获取气温数据
            float temp = Float.parseFloat(values[5]);
            if (temp != MISSING) {
                System.out.println(textKey+":"+temp);
                context.write(new Text(textKey), new FloatWritable(temp));
            }
        }

    }
}
  • Reduce端:Reduce获取到Map端的输出,例如:<2000-01,list[-121,-32,-53,51........]>,将同一个月份的气温数据整合到一个list列表中,提取其中的最高温度,由于气温数据的膨胀因子为10,也就是说是原始数据的10倍,因此需要将获取的气温数据除以10。
  • 在项目的src/main/java/com包中创建一个类MaxTemperatureReducer.java,内容如下:
package com;

import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class MaxTemperatureReducer extends Reducer<Text, FloatWritable,Text,FloatWritable> {
    @Override
    protected void reduce(Text key, Iterable<FloatWritable> values, Context context) throws IOException, InterruptedException {

        float maxValue = Float.MIN_VALUE;

        for (FloatWritable value : values) {
//          获取最高温度
            maxValue = Math.max(maxValue, value.get());
        }

        //     气温数据的膨胀因子为10,需要将获取的气温数据除以10
        float air = maxValue/10;

        context.write(key,new FloatWritable(air));
    }
}
  • Driver端:MapReduce程序的驱动类
  • 在项目的src/main/java/com包中创建一个类MaxTemperature.java,内容如下:
package com;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class MaxTemperature {
    public static void main(String[] args) {
        Configuration conf = new Configuration();

        Job job = null;
        try {
            job = Job.getInstance(conf);
            job.setJarByClass(MaxTemperature.class);
            job.setJobName("Max temperature");
            job.setMapperClass(MaxTemperatureMapper.class);
            job.setReducerClass(MaxTemperatureReducer.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(FloatWritable.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(FloatWritable.class);

            FileInputFormat.addInputPath(job,new Path("hdfs://master:9000/china_all/"));
            FileOutputFormat.setOutputPath(job,new Path("hdfs://master:9000/output/maxtemp/"));

            System.exit(job.waitForCompletion(true) ? 0 : 1);
//            job.submit();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}
  • 程序编写完成,右键MaxTemperature,点击Run 'MaxTemperature.main()'运行MapReduce程序
  • 程序运行完成,进入master机器,查看运行结果
# hadoop fs -ls /output/maxtemp

# hadoop fs -cat /output/maxtemp/part-r-*

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1388016.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SSM的网上招聘系统的设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;Vue 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#xff1a;是 目录…

OpenCV-22高斯滤波

一、高斯函数的基础 要理解高斯滤波首先要直到什么是高斯函数&#xff0c;高斯函数是符合高斯分布的&#xff08;也叫正态分布&#xff09;的数据的概率密度函数。 高斯函数的特点是以x轴某一点&#xff08;这一点称为均值&#xff09;为对称轴&#xff0c;越靠近中心数据发生…

Ubuntu12.0安装g++过程及其报错

Ubuntu12.0安装g过程及其报错 https://blog.csdn.net/weixin_51286763/article/details/120703953 https://blog.csdn.net/dingd1234/article/details/124029945 2.报错二&#xff1a; [41/80] Building CXX object absl/synchronization/CMakeFiles/graphcycles_internal.di…

Java集合之LinkedList源码篇

☆* o(≧▽≦)o *☆嗨~我是小奥&#x1f379; &#x1f4c4;&#x1f4c4;&#x1f4c4;个人博客&#xff1a;小奥的博客 &#x1f4c4;&#x1f4c4;&#x1f4c4;CSDN&#xff1a;个人CSDN &#x1f4d9;&#x1f4d9;&#x1f4d9;Github&#xff1a;传送门 &#x1f4c5;&a…

微信小程序定义并获取日志/实时log信息

步骤一&#xff1a;开通实时日志 可以在开发者工具->详情->性能质量->实时日志&#xff0c;点击前往&#xff0c;在浏览器打开we分析界面&#xff1a; 也可登录小程序管理后台&#xff0c;点击统计进入we分析&#xff1a; 在we分析界面找到性能质量&#xff0c;打开实…

读书笔记——《未来简史》

前言 《未来简史》是以色列历史学家尤瓦尔赫拉利的人类简史三部曲之一。三部分别为《人类简史》《未来简史》《今日简史》。其中最为著名的当然是《人类简史》&#xff0c;非常宏大的一本关于人类文明历史的书籍&#xff0c;绝对可以刷新历史观&#xff0c;《人类简史》这本书…

Linux知识(未完成)

一、Linux 1.1 Linux 的应用领域 1.1.1 个人桌面领域的应用 此领域是 Linux 比较薄弱的环节但是随着发展&#xff0c;近几年 linux 在个人桌面领域的占有率在逐渐提高 1.1.2 服务器领域 linux 在服务器领域的应用是最高的 linux 免费、稳定、高效等特点在这里得到了很好的…

区间预测 | Matlab实现LSSVM-ABKDE的最小二乘支持向量机结合自适应带宽核密度估计多变量回归区间预测

区间预测 | Matlab实现LSSVM-ABKDE的最小二乘支持向量机结合自适应带宽核密度估计多变量回归区间预测 目录 区间预测 | Matlab实现LSSVM-ABKDE的最小二乘支持向量机结合自适应带宽核密度估计多变量回归区间预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现…

MATLAB - 使用运动学 DH 参数构建机械臂

系列文章目录 前言 一、 使用 Puma560 机械手机器人的 Denavit-Hartenberg (DH) 参数&#xff0c;逐步建立刚体树形机器人模型。在连接每个关节时&#xff0c;指定其相对 DH 参数。可视化机器人坐标系&#xff0c;并与最终模型进行交互。 DH 参数定义了每个刚体通过关节与其父…

QT图表-折线图、曲线图

时间记录&#xff1a;2024/1/15 一、使用步骤 1.添加图表模块 .pro项目管理文件中添加charts模块 QChart类&#xff1a;图表类 QChartView类&#xff1a;图表显示类 2.ui文件中添加QChartView组件 &#xff08;1&#xff09;选择一个QGrapicsView组件将其拖拽到ui界面上合适位…

小程序基础学习(缓存)

目录 设置用户信息缓存(同步): wx.setStorageSync(key,value) ​编辑 获取用户信息缓存(同步): wx.getStorageSync(key) 删除用户信息缓存(同步): wx.removeStorageSync(key) 清空用户信息缓存(同步): wx.clearStorageSync() 设置用户信息缓存加密信息(异步): wx.setStorage(…

计算机导论05-计算机网络

文章目录 计算机网络基础计算机网络概述计算机网络的概念计算机网络的功能计算机网络的组成 计算机网络的发展计算机网络的类型 网络体系结构网络互联模型OSI/RM结构与功能TCP/IP结构模型TCP/IP与OSI/RM的比较 网络地址与分配IP地址构成子网的划分IPv6 传输介质与网络设备网络传…

JS | JS调用EXE

JS | JS调用EXE 网上洋洋洒洒一大堆文章提供,然我还是没找打合适的方案: 注册表方案做了如下测试(可行但是不推荐?): 先,键入文件名为 myprotocal.reg 的注册表,并键入一下信息: Windows Registry Editor Version 5.00[HKEY_CLASSES_ROOT\openExe] //协议名…

产品标识为什么要选择激光打标机

选择激光打标机作为产品标识的原因主要有以下几点&#xff1a; ​ 1. 独特的标识效果&#xff1a;激光打标机采用激光束照射在材料表面&#xff0c;通过控制激光束的运动轨迹和能量密度&#xff0c;可以在材料表面形成各种文字、图案和二维码等标识。这些标识具有永久性、耐磨、…

硅双通道光纤低温等离子体蚀刻控制与SiGe表面成分调制

引言 在过去的几年中&#xff0c;MOSFET结构从平面结构改变为鳍型结构(FinFETs ),这改善了短沟道效应&#xff0c;并导致更高的驱动电流泄漏。然而&#xff0c;随着栅极长度减小到小于20nm&#xff0c;进一步小型化变得越来越困难&#xff0c;因为它需要非常窄的鳍宽度&#x…

深度学习笔记(七)——基于Iris/MNIST数据集构建基础的分类网络算法实战

文中程序以Tensorflow-2.6.0为例 部分概念包含笔者个人理解&#xff0c;如有遗漏或错误&#xff0c;欢迎评论或私信指正。 截图和程序部分引用自北京大学机器学习公开课 认识网络的构建结构 在神经网络的构建过程中&#xff0c;都避不开以下几个步骤&#xff1a; 导入网络和依…

pytorch集智-5手写数字识别器-卷积神经网络

1 简介 简称&#xff1a;CNN&#xff0c;convolutional neural network 应用场景&#xff1a;图像识别与分类&#xff08;CNN&#xff09;&#xff0c;看图说话&#xff08;CNNRNN&#xff09;等 优越性&#xff1a;和多层感知机相比&#xff0c;cnn可以识别独特的模式&…

设计模式—行为型模式之中介者模式

设计模式—行为型模式之中介者模式 中介者模式(Mediator Pattern)&#xff1a;用一个中介对象来封装一系列的对象交互&#xff0c;中介者使各对象不需要显式地相互引用&#xff0c;减少对象间混乱的依赖关系&#xff0c;从而使其耦合松散&#xff0c;而且可以独立地改变它们之…

burp靶场-path traversal

路径遍历 1.路径遍历漏洞 ### 什么是路径遍历 路径遍历也称为目录遍历。这些漏洞使攻击者能够读取正在运行应用程序的服务器上的任意文件。这可能包括&#xff1a; 应用程序代码和数据。 后端系统的凭据。 敏感的操作系统文件。### <img src"/loadImage?filename218…

将Sqoop与Hive集成无缝的数据分析

将Sqoop与Hive集成是实现无缝数据分析的重要一步&#xff0c;它可以将关系型数据库中的数据导入到Hive中进行高级数据处理和查询。本文将深入探讨如何实现Sqoop与Hive的集成&#xff0c;并提供详细的示例代码和全面的内容&#xff0c;以帮助大家更好地了解和应用这一技术。 为…