任务13:使用MapReduce对天气数据进行ETL(获取各基站ID)

news2024/9/24 9:27:41

任务描述

知识点

  • 天气数据进行ETL

重  点

  • 掌握MapReduce程序的运行流程
  • 熟练编写MapReduce程序
  • 使用MapReduce进行ETL

内  容

  • 编写MapReduce程序
  • 编写Shell脚本,获取MapReduce程序的inputPath
  • 将生成的inputPath文件传入到Windows环境
  • 运行MapReduce程序对天气数据进行ETL处理

任务指导

1. 准备2000-2022年气象数据

(如在任务12中,按照手册已自行处理好2000-2022年的所有气象数据,也可跳过此步骤,使用自己处理好的数据文件即可,但需要在后续步骤中注意数据路径的问题)

先前按照任务12处理了2021-2022年数据,在后续气象预测部分任务需要2000-2022年的数据作为支持,所以现将处理后的(解压后)2000年-2022年的气象数据进行提供,可通过下述的URL下载地址进行下载

数据集路径:

格式:url/dataSet/systemLib/b3084be184684ee18f3b00b048bab0cc.zip,url参见实验窗口右侧菜单“实验资源下载”。

例如:https://staticfile.eec-cn.com/dataSet/systemLib/b3084be184684ee18f3b00b048bab0cc.zip

  • 在master机器的/home路径下载数据集
  • 解压数据集
  • 在/home/china_data目录中包含了2000-2022年,22年间的中国各个基站的气象数据

  • 在每个文件夹下均已将气象数据文件解压完成

使用MapReduce对天气数据进行预处理,并在数据文件中添加对应基站ID,并将原来字段间的分隔符改为使用逗号分隔,以便于大Hive中使用该数据集。

2. 使用MapReduce对数据进行ETL

当前在数据集中不包含基站编号字段,每个基站的编号体现在各个文件名的前5位,例如在“450010-99999-2000”文件中包含的是编号为“45001”的基站数据,所以需要将各个基站的编号添加到对应的数据文件中,并且在各个文件中每个字段之间的分隔符也是不一致的,所以也需要对数据进行清理,由于数据量较大,可以考虑使用MapReduce进行数据清理的工作。

  • 创建Maven项目:china_etl
  • 编写MapReduce程序
    • ChinaMapper:读取数据,对数据添加stn(基站ID)字段,并进行格式化处理
    • ChinaReducer:对处理后的数据进行输出
    • ChinaDriver:MapReduce程序的驱动类
  • 在master机器编写Shell脚本获取MapReduce程序的inputPath

  • 将生成的inputPath文件传入到Windows环境
  • 在Windows运行MapReduce程序
  • 程序运行完成,进入master机器查看结果

  • 数据格式说明:
基站编号时间温度露点温度气压风向风速云量1小时雨量6小时雨量
5999720221231212742501013370205-9999-9999

任务实现

1. 准备2000-2022年气象数据

(如在任务12中,按照手册已自行处理好2000-2022年的所有气象数据,也可跳过此步骤,使用自己处理好的数据文件即可,但需要在后续步骤中注意数据路径的问题)

先前按照任务12处理了2021-2022年数据,在后续气象预测部分任务需要2000-2022年的数据作为支持,所以现将处理后的(解压后)2000年-2022年的气象数据进行提供,可通过下述的URL下载地址进行下载

数据集路径:

格式:url/dataSet/systemLib/b3084be184684ee18f3b00b048bab0cc.zip,url参见实验窗口右侧菜单“实验资源下载”。

例如:https://staticfile.eec-cn.com/dataSet/systemLib/b3084be184684ee18f3b00b048bab0cc.zip

  • 在master机器的/home路径下载数据集
# cd /home
# wget https://staticfile.eec-cn.com/dataSet/systemLib/b3084be184684ee18f3b00b048bab0cc.zip
  • 解压数据集
# unzip /home/b3084be184684ee18f3b00b048bab0cc.zip
  • 在/home/china_data目录中包含了2000-2022年,22年间的中国各个基站的气象数据

  • 在每个文件夹下均已将气象数据文件解压完成

  • 将下载后的数据集上传至HDFS中
  • 将2000-2022年的所有气象数据上传至HDFS的/china目录中
# hadoop fs -mkdir /china
# hadoop fs -put /home/china_data/* /china

天气的格式如下:

NCDC天气的格式说明:

气象要素包括:气温、气压、露点、风向风速、云量、降水量等。

  • 例如:

  • 各字段的含义如下:
时间温度露点温度气压风向风速云量1小时雨量6小时雨量
202101010080-941028550601-9999-9999

当前在数据集中不包含基站编号字段,每个基站的编号体现在各个文件名的前5位,例如在“450010-99999-2000”文件中包含的是编号为“45001”的基站数据,所以需要将各个基站的编号添加到对应的数据文件中,并且在各个文件中每个字段之间的分隔符也是不一致的,所以也需要对数据进行清理,由于数据量较大,可以考虑使用MapReduce进行数据清理的工作。

2. 使用MapReduce对数据进行ETL

使用MapReduce对天气数据进行ETL流程如下:

  • 打开IDEA,如先前创建过项目,需点击File --> Close Project返回IDEA初始界面

  • 点击New Project新建项目

  • 创建Maven项目:china_etl

  • 打开File --> Settings,按照之前的方式配置Maven

  • 修改pom.xml文件,在标识位置填写<dependencies>标签中的内容,下载项目所需依赖

  • <dependencies>标签内容如下:
<dependencies>    
	<dependency>        
	<groupId>org.apache.hadoop</groupId>        
	<artifactId>hadoop-client</artifactId>        
	<version>2.9.2</version>    
	</dependency>
</dependencies>
  • 依赖下载完成后,将默认生成在src/main/java/com的Main类删除

  • 在src/main/java/com包下创建Mapper类:ChinaMapper.java

本次MapReduce任务的主要处理逻辑在Map函数中,在Map中获取当前正在处理的文件信息,通过文件信息获取相应的文件名,然后获取到文件名的前五位,前五位则是每个基站对应的基站编号,然后获取到数据文件中的每条数据并进行分割,分割后根据索引获取所需的数据,最后通过","对数据进行分隔,作为每个字段数据的新分隔符,根据所需重新将数据进行拼接

package com;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileSplit;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ChinaMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//         获取当前map正在处理的文件信息
        InputSplit inputSplit = (InputSplit) context.getInputSplit();
//         获取文件名,例如:当前获取到“450010-99999-2000”
        String fileName = inputSplit.toString().split("/")[5];
        NullWritable val = NullWritable.get();
//        取出基站编号,例如:“45001”
        String stn = fileName.substring(0,5);
//     System.out.println(stn);

/**     获取所需字段
        year=[]   #年
        month=[]  #月
        day=[]    #日
        hour=[]   #时间
        temp=[]   #温度
        dew_point_temp=[]  #露点温度
        pressure=[]        #气压
        wind_direction=[]   #风向
        wind_speed=[]       #风速
        clouds=[]          #云量
        precipitation_1=[]   #1小时降水量
        precipitation_6=[]   #6小时降水量
*/
//     获取输入的每一条数据
        String values = value.toString();
//     通过分隔符进行分割
        String[] lines = values.split("\\s+");
        String year = lines[0];
        String month = lines[1];
        String day = lines[2];
        String hour = lines[3];
        String temp = lines[4];
        String dew_point_temp = lines[5];
        String pressure = lines[6];
        String wind_direction = lines[7];
        String wind_speed = lines[8];
        String cloud=lines[9];
        String precipitation_1 = lines[10];
        String precipitation_6 = lines[11];
//     使用“,”对每条数据进行拼接,每条数据的分隔符设置为","
        String line = stn+","+year+","+month+","+day+","+hour+","+temp+","+dew_point_temp
                +","+pressure+","+wind_direction+","+wind_speed+","+cloud+","+precipitation_1+","+precipitation_6;
        System.out.println(line);
//     每条数据作为key进行输出
        context.write(new Text(line),val);
    }
}
  • 在src/main/java/com包下创建Reducer类:ChinaReducer.java
package com;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class ChinaReducer extends Reducer<Text,NullWritable,Text,NullWritable> {
    @Override
    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
        NullWritable val = NullWritable.get();
        // 获取key
        Text outLine = key;
        context.write(outLine,val);
    }
}
  • 在src/main/java/com包下创建Driver类: ChinaDriver.java
package com;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;

public class ChinaDriver {
    public static void main(String[] args) {
        Configuration conf = new Configuration();
        Job job = null;

        try {
            // 读取filename文件内容获取inputpath
            BufferedReader br = new BufferedReader(new FileReader("C:\\installed\\filename.txt"));
            String line = null;
            ArrayList list = new ArrayList();
            while((line=br.readLine())!=null){
                list.add(line);
            }
            Path[] inputPath = new Path[list.size()];
            for(int i = 0;i< inputPath.length;i++){
                inputPath[i] = new Path(list.get(i).toString());
                System.out.println(inputPath[i]);
            }

            job = Job.getInstance(conf);

            job.setJarByClass(ChinaDriver.class);
            job.setJobName("ChinaDriver");
//         设置Mapper类
            job.setMapperClass(ChinaMapper.class);
//         设置Reducer类
            job.setReducerClass(ChinaReducer.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(NullWritable.class);

            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(NullWritable.class);
//         设置输入路径
            FileInputFormat.setInputPaths(job, inputPath);
//         设置输出路径
            FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/china_all/"));
            System.exit(job.waitForCompletion(true) ? 0 : 1);
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}
  • 编写完成后,进入master机器

由于本次MapRedcue任务需要处理2000-2022年的数据,每个年份的数据都保存在一个以年份命名的文件夹下,所以MapReduce需要读取22个文件夹下的所有数据,因此在运行MapReduce程序前,需要编写一个Shell脚本以生成MapReduce的inputPath文件,在该文件中包含所有需要处理的数据路径(该操作类似任务12中的generate_input_list.sh脚本

  • 在master机器的/home/shell目录下,编写getHDFSfile.sh脚本,以生成MapReduce的inputPath文件
# vim /home/shell/getHDFSfile.sh
  • 脚本内容如下:
#/bin/bash
rm -rf /home/filename.txt
# file = echo `hdfs dfs -ls /china | awk -F ' ' '{print $8}'`
for line in `hdfs dfs -ls /china | awk -F ' ' '{print $8}'`
do
	filename="hdfs://master:9000$line"
	echo -e "$filename" >> /home/filename.txt
done
  • 为Shell脚本赋予执行权限
# chmod u+x /home/shell/getHDFSfile.sh
  • 运行Shell脚本,生成inputPath
# /home/shell/getHDFSfile.sh
  • 脚本运行完成,在/home目录下会生成一个filename.txt文件,在文件中包含所有需要处理的路径信息
  • 查看/home/filename.txt文件
# cat /home/filename.txt 

  • filename.txt文件生成后,将其通过filezilla工具传入到Windows环境的C:\installed目录
  • 进入Windows环境,打开filezilla工具,filezilla需要配置master的主机名(IP地址)、用户名、密码以及端口;

  • 可通过右侧工具栏,获取master机器的相关信息并将其进行填入

  • 配置完成后,点击快速连接master机器
  • 在左侧拦中是本地Windows环境的文件管理器,右侧是连接的远程Linux(master)机器文件管理器

  • 在Windows文件管理器,进入C:\installed目录,在右侧master机器中进入/home目录,找到生成的filename.txt文件,将其从master机器中拖拽到Windows机器

  • 右键ChinaDriver,点击Run 'ChinaDriver.main()'运行MapReduce程序

  • 控制台显示数据

进入master机器,查看运行结果最后5行数据:

# hadoop fs -cat /china_all/* | tail -5

数据格式说明:

基站编号时间温度露点温度气压风向风速云量1小时雨量6小时雨量
5999720221231212742501013370205-9999-9999

上一个任务下一个任务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1388083.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Debian】非图形界面Debian10.0.0安装xfce和lxde桌面

一、安装 1. Debian10.0.0安装xfce桌面 sudo apt update sudo apt install xfce4 startxfce4 2. Debian10.0.0安装lxde桌面 sudo apt-get install lxde安装后重启电脑。 二、说明 XFCE、LXDE 和 GNOME 是三个流行的桌面环境&#xff0c;它们都是为类 Unix 操作系统设计…

【数位dp】【C++算法】600. 不含连续1的非负整数

作者推荐 【矩阵快速幂】封装类及测试用例及样例 涉及知识点 数位dp LeetCode600. 不含连续1的非负整数 给定一个正整数 n &#xff0c;请你统计在 [0, n] 范围的非负整数中&#xff0c;有多少个整数的二进制表示中不存在 连续的 1 。 示例 1: 输入: n 5 输出: 5 解释: 下…

浏览器打印无法显示单选框选中效果

上面是原代码&#xff0c;我点击打印&#xff0c;出现打印页面&#xff0c;但单选框并未勾选中&#xff0c;我在外部放了一模一样的代码是能勾选上的&#xff0c;于是我对打印页的input单选框进行分析&#xff0c;发现他丢失了checked属性。然后通过gpt分析原因。得知了default…

RK3399平台入门到精通系列讲解(外设篇)热成像传感器MLX90640 JNI控制程序

文章目录 JNI回调函数回调函数的实现驱动可以详看:链接 JNI 文件:native-lib.cpp

领域特定语言(Domain-Specific Language, DSL)在 Visual Studio 2022中的实验——建立领域模型

一、环境 dotnet --version 8.0.101 Microsoft Visual Studio Enterprise 2022 (64 位) - Current 版本 17.8.4 已安装组件 ComponentLinkVisual Studiohttp://go.microsoft.com/fwlink/?LinkId185579Visual Studio SDKhttps://go.microsoft.com/fwlink/?li…

RabbitMQ的安装使用

RabbitMQ是什么&#xff1f; MQ全称为Message Queue&#xff0c;消息队列&#xff0c;在程序之间发送消息来通信&#xff0c;而不是通过彼此调用通信。 RabbitMQ 主要是为了实现系统之间的双向解耦而实现的。当生产者大量产生数据时&#xff0c;消费者无法快速消费&#xff0c;…

图解结算平台:准确高效给商户结款

这是《百图解码支付系统设计与实现》专栏系列文章中的第&#xff08;4&#xff09;篇。 本章主要讲清楚支付系统中商户结算涉及的基本概念&#xff0c;产品架构、系统架构&#xff0c;以及一些核心的流程和相关领域模型、状态机设计等。 1. 前言 收单结算是支付系统最重要的子…

曲面上偏移命令的查找

今天学习老王的SW绘图时&#xff0c;遇到一个命令找不到&#xff0c;查询了一会终于找到了这个命令&#xff0c;防止自己忘记&#xff0c;特此记录一下&#xff0c;这个命令就是“曲面上偏移”&#xff0c;网上好多的教程都是错误的&#xff0c;实际上这个命令没有在曲面里面&a…

蓝桥杯备赛 | 洛谷做题打卡day3

蓝桥杯备赛 | 洛谷做题打卡day3 sort函数真的很厉害&#xff01; 文章目录 蓝桥杯备赛 | 洛谷做题打卡day3sort函数真的很厉害&#xff01;【深基9.例1】选举学生会题目描述输入格式输出格式样例 #1样例输入 #1 样例输出 #1 我的一些话 【深基9.例1】选举学生会 题目描述 学校…

封装日期时间组件

概述 该组件包含日期选择&#xff0c;任意时间选择、固定时间点选择。 子组件代码(date-picker.vue) <template><div id"date_picker"><el-popover placement"top" width"322" trigger"click" ref"popover&quo…

【学习心得】图解Git命令

图解Git命令的图片是在Windows操作系统中的Git Bash里操作截图。关于Git的下载安装和理论学习大家可以先看看我写的另两篇文章。链接我放在下面啦&#xff1a; 【学习心得】Git快速上手_git学习心得-CSDN博客 【学习心得】Git深入学习-CSDN博客 一、初始化仓库 命令&#xff…

Go后端开发 -- 数组 slice map range

Go后端开发 – 数组 && slice && map && range 文章目录 Go后端开发 -- 数组 && slice && map && range一、数组1.数组的声明和初始化2.数组的传参 二、slice切片1.slice的定义和初始化2.len()和cap()函数3.空切片4.切片截取5…

基于深度学习的实例分割的Web应用

基于深度学习的实例分割的Web应用 1. 项目简介1.1 模型部署1.2 Web应用 2. Web前端开发3. Web后端开发4. 总结 1. 项目简介 这是一个基于深度学习的实例分割Web应用的项目介绍。该项目使用PaddlePaddle框架&#xff0c;并以PaddleSeg训练的图像分割模型为例。 1.1 模型部署 …

智能反射面—流形优化

使用Manopt工具箱适合优化最小化问题&#xff0c;如果你的优化问题是最大化问题&#xff0c;那么需要将其转换为最小化问题然后使用Manopt工具箱求解。 具体安装过程 Matlab添加Manopt - 知乎 (zhihu.com) 优化问题 clc,clear; close all; srng(1);%rand seed N10; GR_num1e3…

MathType中文网站2024最新版本下载及嵌入word教程

MathType是一款专业的数学公式编辑器,兼容Office word,excel等700多种程序,用于编辑数学试卷、书籍、报刊、论文、幻灯演示等文档轻松输入各种复杂的数学公式和符号。 MathType是一款功能强大的数学公式编辑器&#xff0c;广泛用于编写和编辑数学公式。Word是微软公司推出的文…

C语言练习day6

关于牛客网运行超时的问题 [NOIP2008]ISBN号码_牛客题霸_牛客网 题目 思路&#xff1a;这个题目重点在怎么去把这个ISBN号码正确输入&#xff0c;其实这个题目已经提示了我们一点信息&#xff1a;输入描述里说&#xff0c;是一个字符序列&#xff0c;其实我们就可以把这个IS…

中国社科院与新加坡社科大联合培养博士——单证还是双证?

有关博士学位&#xff0c;我想不用多说相信很多人都清楚&#xff0c;博士是我国学位等级中目前为止的最高学位&#xff0c;拥有了博士学位就相当于拥有了最高荣誉&#xff0c;但是&#xff0c;我国教育形式另开设了学历教育&#xff0c;对于学历教育的形式&#xff0c;在职博士…

MIT 6s081 lab1:Xv6 and Unix utilities

Lab1: Xv6 and Unix utilities 作业网址&#xff1a;https://pdos.csail.mit.edu/6.828/2020/labs/util.html Boot xv6(easy) 下载&#xff0c;启动xv6系统 $ git clone git://g.csail.mit.edu/xv6-labs-2020 Cloning into xv6-labs-2020... ... $ cd xv6-labs-2020 $ git …

Maxwell数据同步(增量)

1. Maxwell简介 1.1 Maxwell概述 Maxwell 是由美国Zendesk公司开源&#xff0c;用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作&#xff08;包括insert、update、delete&#xff09;&#xff0c;并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流…

浅谈智慧路灯安全智能供电方案设计

摘要: 智慧路灯&#xff0c;作为智慧城市、新基建、城市更新的主要组成部分&#xff0c;近些年在各大城市已得到很好的落地和 应用&#xff0c;但其与传统路灯相比集成大量异元异构电子设备&#xff0c;这些设备的供电电压、接口形式、权属单位各不相同&#xff0c; 如何设计一…