MapReduce案例-电影网站数据统计分析

news2025/1/16 16:12:22

本文适合大数据初学者学习MapReduce统计分析业务问题的步骤和基础的MapReduce编程方法,初步掌握Hadoop对计算任务的管理。

本文末尾有全部数据集和完整代码连接。

1.准备工作

安装Hadoop:Hadoop 3.3.2 离线安装-CSDN博客

按照好Hadoop之后要检查一下datanode运行情况,Hadoop3.x的默认端口是9870

http://10.16.60.31:9870/

2.上传数据文件到HDFS

准备数据集

将数据上传到HDFS

[root@master sbin]# hadoop fs -mkdir -p /mapred-case
[root@master sbin]# hadoop fs -put /home/国家.txt /mapred-case/国家.txt
[root@master sbin]# hadoop fs -put /home/类型.txt /mapred-case/类型.txt
[root@master sbin]# hadoop fs -put /home/评分.txt /mapred-case/评分.txt
[root@master sbin]# hadoop fs -put /home/评价.txt /mapred-case/评价.txt
[root@master sbin]# hadoop fs -chmod a+w /mapred-case

3.编写统计分析代码

3.1 Windows系统配置Hadoop开发环境

windows开发调试Hadoop代码需要下载编译好的Hadoop二进制包。

还要下载winutils放到Hadoopbin目录

winutils下载地址吴所谓/winutils

注意这里Hadoop版本服务器Hadoop版本虽然不一致但是不影响程序调试

并且windowsHadoop不需要启动因为这个步骤只是为了解决MapReduce程序运行开始检测Hadoop环境报错问题

配置Hadoop环境变量并且D:\Dataware\data_cmpt\hadoop\hadoop-2.8.5\bin 添加到Path环境变量

3.2新建maven工程添加Hadoop 依赖配置信息

    <dependencies>
        <!-- Hadoop相关依赖包-->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>3.3.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>3.3.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.3.1</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
    </dependencies>

resources目录增加core-site.xml文件,并添加如下配置信息

    <property>
        <!-- URI 定义主机名称和 namenode 的 RPC 服务器工作的端口号 -->
        <name>fs.defaultFS</name>
        <value>hdfs://10.16.60.31:8020</value>
    </property>

resources目录增加mapred-site.xml文件,并添加如下配置信息

<configuration>
    <!-- 远程提交到 Linux 的平台上 -->
    <property>
        <name>mapred.remote.os</name>
        <value>Linux</value>
        <description>Remote MapReduce framework's OS, can be either Linux or Windows</description>
    </property>
    <!--允许跨平台提交 解决 /bin/bash: line 0: fg: no job control  -->
    <property>
        <name>mapreduce.app-submission.cross-platform</name>
        <value>true</value>
    </property>
</configuration>

添加log4j.properties文件用于配置日志输出信息

log4j.appender.A1.Encoding=UTF-8
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d{ABSOLUTE} | %-5.5p | %-16.16t | %-32.32c{1} | %-32.32C %4L | %m%n

3.3. 按照国家和地区统计电影的产地信息

首先看下国家.txt数据

新建Map用于统计文档单词信息

    // Mapper抽象类的核心方法,三个参数
    public void map(Object key, // 首字符偏移量
                    Text value, // 文件的一行内容
                    Context context) // Mapper端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        String[] ars = value.toString().split("['.;,?| \t\n\r\f]");
        for (String tmp : ars) {
            if (tmp == null || tmp.length() <= 0) {
                continue;
            }
            word.set(tmp);
            context.write(word, one);
        }
    }

新建Reduce用于文档每个单词出现次数

    // Reducer抽象类的核心方法,三个参数
    public void reduce(Text key, // Map端 输出的 key 值
                       Iterable<IntWritable> values, // Map端 输出的 Value 集合(相同key的集合)
                       Context context) // Reduce 端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) // 遍历 values集合,并把值相加
        {
            sum += val.get();
        }
        map.put(key.toString(), sum);
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + ":" + key + "出现了" + sum);
    }

新建主程序

public class CountryMain {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();

//        if (args.length != 2) {
//            System.exit(2);
//        }

        String input = "/mapred-case/国家.txt";
        String output = "/mapred-case/国家分布统计";

        Job job = new Job(conf, "CountryCount"); // 新建一个 job,传入配置信息
        job.setJarByClass(CountryMain.class); // 设置 job 的主类
        job.setMapperClass(CountryMap.class); // 设置 job 的 Mapper 类
        job.setCombinerClass(CountryReduce.class); // 设置 job 的 作业合成类
        job.setReducerClass(CountryReduce.class); // 设置 job 的 Reducer 类
        job.setOutputKeyClass(Text.class); // 设置 job 输出数据的关键类
        job.setOutputValueClass(IntWritable.class); // 设置 job 输出值类
        FileInputFormat.addInputPath(job, new Path(input)); // 输入路径(数据所在目录)
        FileOutputFormat.setOutputPath(job, new Path(output)); // 输出路径(必须不存在的文件夹)
        boolean result = false;
        try {
            result = job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) +
                (result ? "电影类型(Country)统计完毕!!!" : "统计失败!!!"));
    }
}

IDEA启动主程序可以看到程序执行日志信息如下

浏览器打开Hadoop管理页面下载part-r-00000文件,并用记事本打开

可以看到电影数据已经按照国家这个分类统计出来了

3.4 电影评论数量排行榜

首先看下数据这是电影名称评论数量列表但是评论数量并不是有序我们需要电影名按照评论数量排序

新建一个Map,将文档中的电影评论数量存入一个HashMap并调用上一步排序函数进行排序

    protected void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {
        String line = v1.toString();
        String[] fields = line.split("\t");
        String province = fields[0];
        if (isNumeric(fields[1])){
            Integer critics = Integer.parseInt(fields[1]);
            map.put(province, critics);
        }
    }

新建一个启动创建一个Hadoop Job执行上一步统计排序函数

public class CommentMain {
    public static void main(String[] args) {
        try {
            // 运行jar包程序指令输入错误,直接退出程序
//            if (args.length != 2) {
//                System.exit(100);
//            }

            String input = "/mapred-case/评价.txt";
            String output = "/mapred-case/评价数量统计";

            Configuration conf = new Configuration();//job需要的配置参数
            Job job = Job.getInstance(conf, "CommentMain");//创建一个job作业
            job.setJarByClass(CommentMain.class);//设置入口类
            FileInputFormat.setInputPaths(job, new Path(input));//指定输入路径(可以是文件,也可以是目录)
            FileOutputFormat.setOutputPath(job, new Path(output));//指定输出路径(只能是指定一个不存在的目录)
            job.setMapperClass(CommentMap.class);
            // 指定K2的输出数据类型
            job.setMapOutputKeyClass(Text.class);
            // 指定v2的输出数据类型
            job.setMapOutputValueClass(IntWritable.class);
            // 指定Reduce阶段的相关类
            job.setNumReduceTasks(0);
            //提交作业job
            job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

执行成功之后我们看下执行日志

浏览器打开Hadoop管理页面下载执行结果文件

看下执行结果电影名称已经按照评论数量降序排列

3.5 电影评分分布

首先看一下数据文档中电影评分

新建Map程序评分写入上下文


    // Mapper抽象类的核心方法,三个参数
    public void map(Object key, // 首字符偏移量
                    Text value, // 文件的一行内容
                    Context context) // Mapper端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        String[] ars = value.toString().split("\t\n");
        for (String tmp : ars) {
            if (tmp == null || tmp.length() <= 0) {
                continue;
            }
            word.set(tmp);
            context.write(word, one);
        }
    }

新建Reduce统计每个评分梳理放入HashMapkey评分value次数

    // Reducer抽象类的核心方法,三个参数
    public void reduce(Text key, // Map端 输出的 key 值
                       Iterable<IntWritable> values, // Map端 输出的 Value 集合(相同key的集合)
                       Context context) // Reduce 端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) // 遍历 values集合,并把值相加
        {
            sum += val.get();
        }
        map.put(key.toString(), sum);
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + ":" + key + "出现了" + sum);
    }

新建MapReduce程序启动创建一个Job并执行

public class ScoreMain {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();

//        if (args.length != 2) {
//            System.exit(2);
//        }
        String input = "/mapred-case/评分.txt";
        String output = "/mapred-case/评分分布";
        Job job = new Job(conf, "ScoreCount"); // 新建一个 job,传入配置信息
        job.setJarByClass(ScoreMain.class); // 设置 job 的主类
        job.setMapperClass(ScoreMap.class); // 设置 job 的 Mapper 类
        job.setCombinerClass(ScoreReduce.class); // 设置 job 的 作业合成类
        job.setReducerClass(ScoreReduce.class); // 设置 job 的 Reducer 类
        job.setOutputKeyClass(Text.class); // 设置 job 输出数据的关键类
        job.setOutputValueClass(IntWritable.class); // 设置 job 输出值类
        FileInputFormat.addInputPath(job, new Path(input)); // 文件输入
        FileOutputFormat.setOutputPath(job, new Path(output)); // 文件输出
        boolean result = false;
        try {
            result = job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + (result ? "电影评分(Score)统计完毕!!!" : "统计失败!!!"));
    }
}

执行统计结果如下

3.6 电影类型分布

数据电影分类

新建Map电影类型写入上下文

    // Mapper抽象类的核心方法,三个参数
    public void map(Object key, // 首字符偏移量
                    Text value, // 文件的一行内容
                    Context context) // Mapper端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        String[] ars = value.toString().split("['.;,?| \t\n\r\f]");
        for (String tmp : ars) {
            if (tmp == null || tmp.length() <= 0) {
                continue;
            }
            word.set(tmp);
            context.write(word, one);
        }
    }

新建Reduce统计每个分类数量

    // Reducer抽象类的核心方法,三个参数
    public void reduce(Text key, // Map端 输出的 key 值
                       Iterable<IntWritable> values, // Map端 输出的 Value 集合(相同key的集合)
                       Context context) // Reduce 端的上下文,与 OutputCollector 和 Reporter 的功能类似
            throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) // 遍历 values集合,并把值相加
        {
            sum += val.get();
        }
        map.put(key.toString(), sum);
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + ":" + key + "出现了" + sum);
    }

新建MapReduce程序启动创建一个Job并执行

public class TypeMain {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();

//        if (args.length != 2) {
//            System.exit(2);
//        }

        String input = "/mapred-case/类型.txt";
        String output = "/mapred-case/类型分布";

        Job job = new Job(conf, "TypeCount"); // 新建一个 job,传入配置信息
        job.setJarByClass(TypeMain.class); // 设置 job 的主类
        job.setMapperClass(TypeMap.class); // 设置 job 的 Mapper 类
        job.setCombinerClass(TypeReduce.class); // 设置 job 的 作业合成类
        job.setReducerClass(TypeReduce.class); // 设置 job 的 Reducer 类
        job.setOutputKeyClass(Text.class); // 设置 job 输出数据的关键类
        job.setOutputValueClass(IntWritable.class); // 设置 job 输出值类
        FileInputFormat.addInputPath(job, new Path(input)); // 文件输入
        FileOutputFormat.setOutputPath(job, new Path(output)); // 文件输出
        boolean result = false;
        try {
            result = job.waitForCompletion(true);
        } catch (Exception e) {
            e.printStackTrace();
        }
        System.out.println(new SimpleDateFormat("yyyy-MM-dd hh:mm:ss").format(new Date()) + (result ? "电影标签(Type)统计完毕!!!" : "统计失败!!!"));
    }
}

本文全部数据代码连接https://download.csdn.net/download/shangjg03/88596022

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1608514.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python数据容器(三)

一.tuple&#xff08;元组&#xff09; 1.元组同列表一样&#xff0c;都可以封装多个、不同类型的元素在内。 但最大的不同点在于&#xff1a;元组一旦定义完成&#xff0c;就不可修改。 2.元组定义&#xff1a;定义元组使用小括号&#xff0c;且使用逗号隔开各个数据&#…

大气的免费wordpress模板

国产的wordpress模板&#xff0c;更适合中国人使用习惯&#xff0c;更符合中国老板的审美的大气wordpress企业官网建站模板。 WordPress模板&#xff0c;也称为主题&#xff0c;是用于定义WordPress网站或博客外观和功能的预设计文件集。这些模板使用HTML、CSS和PHP代码构建&a…

ARM之栈与方法

ARM之栈与方法 计算机中的栈是一种线性表&#xff0c;它被限定只能在一端进行插入和删除操作&#xff08;先进后出&#xff09;。通常将可以插入和删除操作的一端称为栈顶&#xff0c;相对的一端为栈底。 通常栈有递增堆栈&#xff08;向高地址方向生长&#xff09;、递减堆栈…

视频监控平台的超大任务文件导入功能,如何通过日志判断导入是否成功

目录 一、概述 &#xff08;一&#xff09;编写目的 &#xff08;二&#xff09;适用情况 &#xff08;三&#xff09;导入相关参数说明 二、文件导入说明 &#xff08;一&#xff09; 日志文件路径 &#xff08;二&#xff09;不同情况下的说明和提示 1、 所有数据正确…

便携式手提Camera Link 模拟源测试设备

便携式手提Camera Link 模拟源测试设备 平台简介 便携式手提CameraLink模拟源测试设备&#xff0c;以PCIe的Camera link 播出卡和X86主板为基础&#xff0c;构建便携式的手提设备。 平台默认操作系统为win7 64位系统&#xff1b;具备丰富的外设接口&#xff0c;如VGA、HDMI、千…

患者关系管理系统功能详解

脉购健康管理系统&#xff08;软件&#xff09;包含&#xff1a;客户开卡、健康档案、问卷调查、问诊表、自动设置标签、自动随访、健康干预、健康调养、历年指标趋势分析、疾病风险评估、饮食/运动/心理健康建议、同步检查报告数据、随访记录、随访电话录音、健康阶段总结、打…

ELK日志采集系统

1.什么是ELK ELK 是一套流行的数据搜索、分析和可视化解决方案&#xff0c;由三个开源项目组成&#xff0c;每个项目的首字母合起来形成了“ELK”这一术语&#xff1a; Elasticsearch (ES): Elasticsearch 是一个基于 Apache Lucene 构建的分布式、实时搜索与分析引擎。它能够…

AI绘画 究竟在哪些方面降低了门槛

AI绘画的产物是图像。图像对人类的认知、情感和文化发展起着重要的作用&#xff0c;包括信息传递、创造性表达、历史记录、审美享受和交流。 从原来的纸笔调色板到数字时代的数字板、绘图软件&#xff0c;再到AI绘画时代&#xff0c;任何人都可以用几行简单的文字创作出高质量…

Python实现贪吃蛇

提供学习或者毕业设计使用,功能基本都有,不能和市场上正式游戏相提比论,请理性对待!通过购买专栏或者CSDN问答提问,采纳后,私信博主。提供源码! 说明:需要的话联系博主!谢谢。 代码: import pygame import random import tkinter as tk from tkinter import mess…

免费建筑su模型网站:让设计师的创意飞翔!

对于设计师而言&#xff0c;建筑SU模型是表达创意、规划空间、实现设计概念的重要工具。为了满足设计师对优质模型的需求&#xff0c;有许多网站提供免费的建筑SU模型下载服务&#xff0c;这些网站无疑为设计师们提供了广阔的创意空间和无尽的灵感。 1.建e网&#xff1a;拥有百…

图神经网络与分子表征:7. LEFTNet

在执行性质预测任务时&#xff0c;我们需要考虑两个问题&#xff1a;1. 如何正确的将图结构进行编码&#xff1f;2. 如何汇聚编码信息预测整个分子的任务&#xff1f; LEFTNet 就是通过回答上述问题来进行模型设计的。 原文地址 算法设计 原文中&#xff0c;作者定义了三个图…

SpringBoot + Redis实现用户信息登录的缓存

&#x1f34e;前言 &#x1f350;项目的背景 背景&#xff1a;&#x1f349;当我们在完成用户信息登录时&#xff0c;我们往往每次都会在数据库中查询用户的记录&#xff0c;生成token并返回给前端&#xff0c;不过这样会有一定的问题。 &#x1f350;造成的问题 问题&#xf…

【Linux】文件描述符——万字详解

目录​​​​​​​ 前言 预备知识 复习C语言的文件接口 写方式打开文件 追加方式打开文件 读方式打开文件 系统的文件接口 open close write read 文件描述符 0 & 1 & 2 理解文件描述符 文件描述符的分配规则 重定向的本质 dup2 理解Linux下一切…

vue+springboot+websocket实时聊天通讯功能

前言 在我的前一篇文章里 vuespringboot实现聊天功能 &#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388; 实现了最最基础的聊天功能&#xff0c;可以通过聊天互相给对方发送信息 &#x1f388;&#x1f388;&#x1f388;&…

每日一题 — 最小覆盖子串

76. 最小覆盖子串 - 力扣&#xff08;LeetCode&#xff09; 解法一&#xff1a;暴力遍历哈希表 解法二&#xff1a;滑动窗口哈希表 定义left和right初始化为零&#xff0c;固定left&#xff0c;先向右遍历right&#xff0c;放到哈希表中这个时候我们需要统计有效字符的个数&…

企业智能EDM邮件群发推广软件哪个好?

精准、高效的电子邮件营销已经成为企业触达潜在客户、维护现有客户关系以及提升品牌影响力不可或缺的手段。在这其中&#xff0c;云衔科技以其独树一帜的智能EDM邮件营销系统解决方案&#xff0c;为企业带来了革命性的市场推广体验。 云衔科技凭借前瞻性的战略眼光和深厚的AI技…

抖音在线点赞任务发布接单运营平台PHP网站源码 多个支付通道+分级会员制度

抖音在线点赞任务发布接单运营平台PHP网站源码&#xff0c;多个支付通道分级会员制度。 介绍 1、代理裂变&#xff0c;静态返佣/动态返佣均可设置。 2、自动机器人做任务&#xff0c;任务时间可设置&#xff0c;机器人价格时间可设置。 3、后台可设置注册即送X天机器人。 …

RT-Thread在Win10下编译出现 unsupported pickle protocol: 5解决方案

调试背景&#xff1a; 在WIN10下编译RT-Thread源码&#xff1a;对象处理器平台是Microchip SAMA5D27-SOM1-EK评估板。 unsupported pickle protocol: 5 编译出现报错:ValueError : unsupported pickle protocol: 5 $ scons scons: Reading SConscript files ... Newlib ver…

c语言题目之求最大公约数

题目内容&#xff1a;求最大公约数 给定两个数&#xff0c;求这两个数的最大公约数 例如&#xff1a; 输入&#xff1a;20 40 输出&#xff1a;20 什么叫最大公约数&#xff1f; 方法分析&#xff1a; 提示&#xff1a;这里我们用辗转相除法&#xff1a; 例如&#xff1a;输…

七月论文审稿GPT第4.5版:通过15K条paper-review数据微调Llama2 70B(含各种坑)

前言 当我们3月下旬微调完Mixtral 8x7B之后(更多详见&#xff1a;七月论文大模型&#xff1a;含论文的审稿、阅读、写作、修订 )&#xff0c;下一个想微调的就是llama2 70B 因为之前积攒了不少微调代码和微调经验&#xff0c;所以3月底apple便通过5K的paper-review数据集成功…