Mapreduce_csv_averageCSV文件计算平均值

news2025/1/22 20:45:38

csv文件求某个平均数据

查询每个部门的平均工资，最后输出

数据处理过程
在这里插入图片描述

employee_noheader.csv（没做关于首行的处理，运行时请自行删除）

EmployeeID,EmployeeName,DepartmentID,Salary  
1,ZhangSan,101,5000
2,LiSi,102,6000
3,WangWu,101,5500
4,ZhaoLiu,103,7000
5,SunQi,102,6500

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.hadoop</groupId>
    <artifactId>Mapreduce_csv_average</artifactId>
    <version>1.0-SNAPSHOT</version>

    <name>Mapreduce_csv_average</name>
    <description>wunaiieq</description>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <!--版本控制-->
        <hadoop.version>2.7.3</hadoop.version>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-yarn-api</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-streaming</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

    </dependencies>
    <!--构建配置-->
    <build>
        <plugins>
            <plugin>
                <!--声明-->
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.3.0</version>
                <!--具体配置-->
                <configuration>
                    <archive>
                        <manifest>
                            <!--jar包的执行入口-->
                            <mainClass>com.hadoop.Main</mainClass>
                        </manifest>
                    </archive>
                    <descriptorRefs>
                        <!--描述符，此处为预定义的，表示创建一个包含项目所有依赖的可执行 JAR 文件;
                        允许自定义生成jar文件内容-->
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <!--执行配置-->
                <executions>
                    <execution>
                        <!--执行配置ID，可修改-->
                        <id>make-assembly</id>
                        <!--执行的生命周期-->
                        <phase>package</phase>
                        <goals>
                            <!--执行的目标，single表示创建一个分发包-->
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

</project>

Map_1

package com.hadoop;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

public class Map_1 extends Mapper<LongWritable, Text,IntWritable,IntWritable> {
    @Override
    protected void map(LongWritable k1, Text v1, Context context)
            throws IOException, InterruptedException {
        //处理输入数据，类型转换
        //以     1,ZhangSan,101,5000  为例
        String data =v1.toString();

        //分词操作,csv用","进行分割
        //一般而言，分词操作大多使用String进行获取，后面可以附跟类型转换
        String[] words =data.split(",");

        //下文输出
        context.write(
                //K2:部门号输出
                new IntWritable(Integer.parseInt(words[2])),
                //K3:工资输出
                new IntWritable(Integer.parseInt(words[3]))
        );

    }
}

Reduce_1

package com.hadoop;

import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.io.IntWritable;
import java.io.IOException;
public class Reduce_1 extends Reducer<IntWritable,IntWritable,IntWritable,IntWritable>{
    @Override
    protected void reduce(IntWritable k3, Iterable<IntWritable> v3, Context context)
            throws IOException, InterruptedException {
            //对v3进行求和，计算总额
            int total=0;
            int i=0;
            for (IntWritable v:v3){
                total+= v.get();
                i++;
            }
            int average=total/i;
            context.write(k3,new IntWritable(average));
    }
}

Main

package com.hadoop;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Main {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        Job job =  Job.getInstance(new Configuration());
        job.setJarByClass(Main.class);

        //map
        job.setMapperClass(Map_1.class);
        job.setMapOutputKeyClass(IntWritable.class);//k2
        job.setMapOutputValueClass(IntWritable.class);//v2

        //reduce
        job.setReducerClass(Reduce_1.class);
        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);

        //输入和输出
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        //执行
        job.waitForCompletion(true);
    }
}

运行
请自行上传至hdfs中

hadoop jar Mapreduce_average.jar /input/employee_noheader.csv /output/csv_average

效果

hdfs dfs -cat /output/csv_average/part-r-00000

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2036666.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Mapreduce_csv_averageCSV文件计算平均值

csv文件求某个平均数据

相关文章

疫情下图书馆管理系统

mock.js的简单使用~

RCE-eval长度限制突破技巧

BGP路由优选（五）

使用腾讯云存储桶COS来实现上传和下载图片功能

proxy负载均衡

报名表EXCEL图片批量下载源码-CyberWinApp-SAAS 本地化及未来之窗行业应用跨平台架构

GD32 MCU如何使用双ADC内核提高ADC采样率？

力扣热题100_链表_206_反转链表

Leetcode面试经典150题-146.LRU缓存

公用事业公司与数据中心的电力协议推动未来增长

WMS助力企业数字化转型（六）

Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC文生图方向Task2笔记

GUI Agent with SFT 学习

离线安装部署springboot+vue系统到服务器

lvs的相关应用2

react的setState中为什么不能用++？

为什么要学习AI大模型？

Linux shell编程学习笔记70： curl 命令行网络数据传输工具选项数量雷人（下）

sql实战