hadoop mapreduce的api调用WordCount本机和集群代码

news2025/1/10 20:19:55

 本机运行代码

package com.example.hadoop.api.mr;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCount {
    /**
     * Text:指的是StringWritable
     * (LongWritable , Text) map端的输入:这俩参数永远不变,Text:文本数据,LongWritable:偏移量(数据分割时的偏移量)
     *
     * (Text, IntWritable) map端的输出:根据需求一直处于变化中
     */
    public static class MapTask extends Mapper<LongWritable,Text, Text, IntWritable>{
        /**
         * 每次读取一行数据,该方法就执行一次
         * 样例数据
         * hadoop,hadoop,spark,spark,spark,
         * hive,hadoop,spark,spark,spark,
         * spark,hadoop,hive,spark,spark,
         * @param key 偏移量
         * @param value 文本数据
         * @param context 输出数据(hadoop,1) (spark,1)
         */
        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            String[] words = value.toString().split(",");
            for (String word:words){
                context.write(new Text(word),new IntWritable(1));
            }
        }
    }

    /**
     * reduce map的输出就是reduce的输入
     */
    public  static class ReduceTask extends Reducer<Text,IntWritable,Text,IntWritable>{
        /**
         * 每操作一次key,方法就执行一遍
         * @param key
         * @param values
         * @param context
         * @throws IOException
         * @throws InterruptedException
         */
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
           int count = 0 ;
           for(IntWritable value:values){
               count++;
           }
           context.write(key,new IntWritable(count));
        }
    }

    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        //本地测试模式,job对象提交任务
        Job job = Job.getInstance();

        //提交我们的俩内部类
        job.setMapperClass(MapTask.class);
        job.setReducerClass(ReduceTask.class);

        //提交输出参数的类型,注意只要输出参数类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job,new Path("mr/wordcount.txt"));
        FileOutputFormat.setOutputPath(job,new Path("mr/outwordCount"));

        Boolean b = job.waitForCompletion(true);
        System.out.println(b?"成功":"失败请找bug");
    }
}

本机idea运行后发现报错

点击本机D:\hadoop-2.9.2\bin目录下winutils.exe报错msvcr100.dll找不到,说明缺少C++的运行环境,msvcr100.dll对应的是2010C++的运行环境,我的电脑是X64的,选择自己电脑的版本下载后直接安装即可

https://www.microsoft.com/en-us/download/details.aspx?id=26999

安装完成,保险起见可以将C:\Windows\System32\msvcr100.dll复制一份到hadoop的安装目录bin下D:\hadoop-2.9.2\bin

再次运行WordCount.java main方法,报错如下

现在又缺少hadoop.dll文件,所以单独下载下这个文件

https://github.com/steveloughran/winutils

选择一个和自己版本相近的,下载下来之后,copy到hadoop安装目录下

重启电脑,运行成功

运行后的统计结果

集群代码

package com.example.hadoop.api.mr;

import com.example.hadoop.util.SystemUtil;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.File;
import java.io.IOException;

/**
 * @author wangmeiyan
 * @Date 2023/11/02 17:10:00
 * 集群mapReduce
 */
public class WordCountColony {
    /**
     * Text:指的是StringWritable
     * (LongWritable , Text) map端的输入:这俩参数永远不变,Text:文本数据,LongWritable:偏移量(数据分割时的偏移量)
     *
     * (Text, IntWritable) map端的输出:根据需求一直处于变化中
     */
    public static class MapTask extends Mapper<LongWritable, Text, Text, IntWritable> {
        /**
         * 每次读取一行数据,该方法就执行一次
         * 样例数据
         * hadoop,hadoop,spark,spark,spark,
         * hive,hadoop,spark,spark,spark,
         * spark,hadoop,hive,spark,spark,
         *
         * @param key     偏移量
         * @param value   文本数据
         * @param context 输出数据(hadoop,1) (spark,1)
         */
        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            String[] words = value.toString().split(",");
            for (String word : words) {
                context.write(new Text(word), new IntWritable(1));
            }

        }
    }

    /**
     * reduce map的输出就是reduce的输入
     */
    public  static class ReduceTask extends Reducer<Text,IntWritable,Text,IntWritable> {
        /**
         * 每操作一次key,方法就执行一遍
         * @param key
         * @param values
         * @param context
         * @throws IOException
         * @throws InterruptedException
         */
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            int count = 0 ;
            for(IntWritable value:values){
                count++;
            }
            context.write(key,new IntWritable(count));
        }
    }

    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        //集群测试模式,job对象提交任务
        Configuration configuration = new Configuration();
        String hdfsUrl = SystemUtil.getProperties().getProperty("spring.hdfs.url");
        configuration.set("fs.defaultFS",hdfsUrl);
        Job job = Job.getInstance(configuration);

        //提交我们的俩内部类
        job.setMapperClass(WordCount.MapTask.class);
        job.setReducerClass(WordCount.ReduceTask.class);

        //提交输出参数的类型,注意只要输出参数类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);


        FileInputFormat.addInputPath(job,new Path(SystemUtil.getProperties().getProperty("spring.hdfs.input")));
        //如果文件已经存在就删除
        Path output = new Path(SystemUtil.getProperties().getProperty("spring.hdfs.output"));
        FileSystem fileSystem = FileSystem.get(configuration);

        if(fileSystem.exists(output)){
            fileSystem.delete(output,true);
        }
        FileOutputFormat.setOutputPath(job,output);

        Boolean b = job.waitForCompletion(true);
        System.out.println(b?"成功":"失败请找bug");
    }
}

hadoop页面上准备好目录和待统计的文件

直接运行代码,查看统计结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1162918.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

破局:如何从产业角度锻造企业不败竞争优势?

引言&#xff1a;究竟是坚守过去的辉煌,还是勇敢拥抱未来的变化?柯达的沉沦与富士胶片的崛起,揭示企业如何通过深刻理解自身的核心竞争力&#xff0c;利用产业战略的转变来实现持续发展。从产品竞争到产业升级,这不仅仅是一场商业竞赛的变革&#xff0c;更是一次企业战略思维的…

数据结构与算法—“二叉树”的实现

目录 一、二叉树链式结构的实现 1、声明结构体 2、创建新节点 3、创建二叉树 二、二叉树的遍历 1、前序遍历讲解 2、节点个数 3、叶子节点个数 4、二叉树的高度 5、第k层节点个数 6、查找值为x的节点 完整版代码&#xff1a; 一、二叉树链式结构的实现 1、声明结构体 我们为二…

【每日一练 | 华为认证真题练习Day11】

华为真题从Day1 开始的真题可留言获取 ​ Day11 华为认证中级考试真题 1、下面哪些是对网络进行管理的主要目标?(多选) A.确保网络用户收到期望的网络服务质量与技术服务信息 B.减少设备的搬迁费用 C.减少网络设备使用年限&#xff0c;和延长服务周期 D.帮助网络工程师…

nebula-br local-store 模式,快速搭建主备集群实践

因为线上图数据库目前为单集群&#xff0c;数据量比较大&#xff0c;有以下缺点&#xff1a; 单点风险&#xff0c;一旦集群崩溃或者因为某些查询拖垮整个集群&#xff0c;就会导致所有图操作受影响很多优化类但会影响读写的操作不好执行&#xff0c;比如&#xff1a;compact、…

HANA:计算视图-图形化视图-“参数“-引用表数据(性能优化)

1.前言 最近项目HANA部分的开发用的比较多&#xff0c;之前很少用图形化计算视图&#xff0c;最近研究了下&#xff0c;发现有些小功能对于图形化视图的性能提升&#xff0c;还有建模便利性都有很大帮助&#xff0c;今天发现了一个小功能&#xff0c;就是视图中的参数&#xf…

两种办法实现进制转换:将十进制数N转换成为r进制数

两种办法实现进制转换&#xff1a;将十进制数N转换成为r进制数 法一&#xff1a;递归 //进制转换 void change1(int N,int r) {if (N / r 0) {printf("%d", N%r);}else {change1(N/r, r);printf("%d", N%r);} }int main() {int N 0;int r 0;printf(&q…

grid布局中grid-row和grid-column

目录 一、grid-row 二、grid-column 三、实例 一、grid-row grid-row属性定义了网格元素行的开始和结束位置。结合了grid-row-start和grid-row-end grid-row: 1 / 3;//表示行线从第一行线到第三行线为止 二、grid-column grid-column属性定义了网格元素列的开始和结束位置…

企业税收违法查询API:提升财务监控和风险管理的关键利器

引言 随着企业税务环境的不断演变和政府对税收合规性的日益关注&#xff0c;企业面临着更多的税务合规挑战。为了降低税务风险&#xff0c;提高财务监控水平&#xff0c;许多企业已经开始采用先进的工具和技术。其中之一&#xff0c;便是企业税收违法查询API&#xff0c;这一强…

大神总结:做数据可视化,谨记三要、两不要

直观灵活分析数据&#xff0c;让数据更易懂的数据可视化报表是由大量不同类型的数据可视化图表组成的&#xff0c;那数据可视化图表又是怎么制作出来的&#xff1f;在制作数据可视化报表的过程中需要注意哪些事项&#xff1f; BI数据可视化工具里预设大量的数据可视图表&#…

魔术般的速度,焕然一新的磁盘空间 - Magic Disk Cleaner for Mac 2023

在当今这个信息时代&#xff0c;我们的磁盘空间无时无刻不在被各种文件和数据所填满。无论是工作文件&#xff0c;还是日常生活的照片、视频&#xff0c;亦或是下载的各种应用程序&#xff0c;都在不断地蚕食着我们的磁盘空间。面对这种情况&#xff0c;一款高效、便捷的磁盘垃…

竞赛选题 深度学习实现行人重识别 - python opencv yolo Reid

文章目录 0 前言1 课题背景2 效果展示3 行人检测4 行人重识别5 其他工具6 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; **基于深度学习的行人重识别算法研究与实现 ** 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c…

用友U8+ CRM任意文件上传漏洞

用友U8 CRM任意文件上传漏洞 免责声明漏洞描述漏洞影响漏洞危害网络测绘Fofa: body"用友U8CRM" 漏洞复现1. 构造poc2. 复现3. 访问webshell 免责声明 仅用于技术交流,目的是向相关安全人员展示漏洞利用方式,以便更好地提高网络安全意识和技术水平。 任何人不得利用该…

I/O性能优化——这一篇就足够啦

背景 继上一篇CPU性能优化文章 &#xff0c;本次向大家分享关于I/O性能优化的分析套路以及常见措施。后续还有关于内存及网络优化的篇章。 基本概念 对于I/O我们先了解几个概念&#xff0c;文件系统&#xff0c;磁盘&#xff0c;文件。 磁盘 磁盘为系统提供了最基本的持久化存…

香港高端人才通行证计划入围高校/全球百强大学综合名单公布!

香港高端人才通行证计划入围高校/全球百强大学综合名单公布&#xff01; 香港高才通计划希望吸引世界各地具备丰富工作经验及高学历的人才到香港探索机遇&#xff0c;这些高端人才包括高收入人士和在世界顶尖大学毕业的学生。 此计划并不适用于阿富汗、古巴、老挝、朝鲜、尼泊尔…

低功耗WiFi模块的技术发展

随着物联网的迅速发展&#xff0c;对于低功耗设备和技术的需求日益增加。低功耗WiFi模块应运而生&#xff0c;为连接大量设备提供了更长的电池寿命和更可持续的能源解决方案。本文将深入研究低功耗WiFi模块的技术发展&#xff0c;探讨其在物联网和移动设备领域的关键作用。 1.…

LEEDCODE 2235两整数相加

class Solution { public:int sum(int num1, int num2) {return (num1 num2);} };

AD9361 数据数字接口说明

一、简要 AD9361和BBP之间的数据接口以两种模式之一工作&#xff1a;标准CMOS兼容模式或低压差分信号&#xff08;LVDS&#xff09;兼容模式。本篇文章将简要介绍一下CMOS和LVDS工作模式下的数据具体的传输样式。 二、CMOS 工作模式 P0_D[11:0] and P1_D[11:0]: 端口0&#xf…

Firefox修改缓存目录的方法

打开Firefox&#xff0c;在地址栏输入“about:config” 查找是否有 browser.cache.disk.parent_directory&#xff0c;如果没有就新建一个同名的字符串&#xff0c;然后修改值为你要存放Firefox浏览器缓存的目录地址&#xff08;E:\FirefoxCacheFiles&#xff09; 然后重新…

继承访问限定

C施雷老师课堂笔记

鸿蒙问题记录

1、Variables decorated by Prop link, "Consume, and Obiectlink cannot be initialized locally 原因&#xff1a;被装饰器修饰的数据&#xff0c;不能初始化。这个应该是后续版本做了优化。当前使用 DevEco Studio 3.1.1 Release