基于MapReduce的京东20年口红数据的分析与实现

文章目录

基于MapReduce的京东20年口红数据的分析与实现
- 一、前言
- 二、数据可视化
- - 1、安装Python和Flask框架
  - 2、创建Flask应用程序
  - 3、创建基于Echarts的网页展示代码
  - 4、最终结果
- 三、最后我想说

一、前言

这是一个利用Hadoop+MapReduce+JAVA进行数据处理+Python flask+Echarts进行分析与前端可视化实现的一个小项目，整个任务的实现大致分为如下几个步骤：

准备工作：
- 在Linux系统上安装Hadoop并配置环境变量。
- 在Hadoop集群中启动HDFS和YARN服务。
上传数据文件到HDFS：
- 将电商数据信息数据上传到HDFS文件系统中。
编写MapReduce任务程序：
- 创建一个Java项目，导入Hadoop相关的库。
- 编写Mapper类，实现Map阶段任务编程，解析每行数据并发射（emit）商品名称和销量（评价人数）作为键值对。
- 编写Reducer类，实现Reduce阶段编程，对相同商品名称的销量进行累加。
- 编写Driver类，设置输入路径、输出路径，配置Mapper和Reducer类，并提交MapReduce任务。
运行MapReduce任务：
- 将Java项目打包为可执行的JAR文件。
- 使用以下命令提交MapReduce任务到YARN集群进行执行。
数据可视化：
- 安装Python和Flask框架。
- 创建一个Flask应用程序，编写路由和视图函数。
- 在视图函数中读取MapReduce任务的输出结果文件，解析数据。
- 使用Echarts可视化库，将数据可视化并在网页中展示。

其中前四步操作跟我之前写的一篇博客基本一致，其中几个JAVA代码基本都是在前面的基础上进行稍加修改的，所以我重点介绍后面几步的实现以及所遇见的问题解决办法。

前四步不会的朋友可以移步去看一下我之前的博客：云计算中的大数据处理：尝试HDFS和MapReduce的应用

本次小项目用到的数据集是**京东口红数据集**，来自和鲸官网的一名博主，数据共3000条京东口红的商品数据，包括商品名称，商品价格，店铺名称，评价人数，商品标签。

在这里插入图片描述

本次实验主要分析统计每种商品的销量。

二、数据可视化

1、安装Python和Flask框架

Flask是一个轻量级的Python web框架，用于快速开发Web应用程序。它是一个简单的、易于学习和使用的框架，适合用于小型和中型项目,Flask非常轻量级，没有复杂的依赖关系，只需要最基本的Python环境即可运行。

下面是在Linux环境中下载Flask框架的步骤：

安装pip3，一般CentOS7都会自带。

安装virtunlenv

pip3 install virtualenv --index-url=https://pypi.org/simple/

这样下载可以避免网络问题。

配置虚拟项目

依次在自定义的目录中执行如下命令：
```
mkdir myproject
cd myproject
virtualenv env
. env/bin/activate
```
这样就会激活Python虚拟环境。
安装Flask
直接使用pip3命令安装：
```
pip3 install Flask
```

到这里Flask框架就安装完成了。

2、创建Flask应用程序

建立一个py程序在你创建的虚拟项目的根目录中：

from flask import Flask, render_template

app = Flask(__name__)

@app.route('/')
def index():
    # 读取数据文件
    with open('/root/jdkh/part-r-00000', 'r', encoding='utf-8') as file:
        data = file.readlines()

    # 处理数据
    product_sales = []
    for line in data:
        line = line.strip()
        parts = line.split('\t')
        if len(parts) == 2:
            product_sales.append((parts[0].strip('"'), int(parts[1])))

    # 按销量排序并获取前十
    top_10_products = sorted(product_sales, key=lambda x: x[1], reverse=True)[:10]

    # 提取商品名称和销量
    product_names = [item[0] for item in top_10_products]
    sales = [item[1] for item in top_10_products]

    return render_template('jdkh-20y.html', product_names=product_names, sales=sales)

if __name__ == '__main__':
    app.run(host='0.0.0.0')

请注意代码中的最后主函数中的这段代码：

app.run(host='0.0.0.0')

需要注意的是flask的app.run()方法是运行服务器应用，默认是只能在本机访问的，所以如果需要在其他机器上访问，需要修改为：app.run(host=‘0.0.0.0’)否则后续将无法访问到我们的网页。

3、创建基于Echarts的网页展示代码

首先我们在Python虚拟项目中创建一个名为templates的文件夹，然后在templates文件夹中创建一个名为xxx.html的文件，其用于我们在xxx.html文件中编写HTML代码，用于呈现数据可视化。请确保templates的文件夹和你创建的py程序位于同一目录下，如果不在一个目录中会出现TemplateNotFound的异常。

下面是一个简单的前端展示代码：

<!DOCTYPE html>
<html>
<head>
    <title>商品销量统计</title>
    <style>
        body {
            display: flex;
            justify-content: center;
            align-items: center;
            height: 100vh;
        }

        .chart-container {
            display: flex;
            flex-direction: column;
            align-items: center;
            justify-content: center;
        }
    </style>
    <script src="https://cdn.staticfile.org/echarts/5.1.2/echarts.min.js"></script>
</head>
<body>
    <div class="chart-container">
        <div id="barChart" style="width: 800px; height: 600px;"></div>
        <div id="pieChart" style="width: 600px; height: 400px;"></div>
    </div>

    <script>
        // 提取商品名称和销量
        var productNames = {{ product_names|tojson }};
        var sales = {{ sales|tojson }};

        // 初始化echarts实例
        var barChart = echarts.init(document.getElementById('barChart'));
        var pieChart = echarts.init(document.getElementById('pieChart'));

        // 配置柱状图选项
        var barOptions = {
            title: {
                text: '商品销量统计',
                left: 'center'
            },
            grid: {
                left: '10%',
                right: '10%',
                bottom: '10%',
                containLabel: true
            },
            xAxis: {
                data: productNames,
                axisLabel: {
                    rotate: 45,  // 旋转45度以避免标签重叠
                    interval: 0  // 强制显示所有标签
                }
            },
            yAxis: {},
            series: [{
                name: '销量',
                type: 'bar',
                data: sales,
                itemStyle: {
                    color: function (params) {
                        // 自定义颜色，根据不同的商品选择不同的颜色
                        var colors = ['#FF0000', '#00FF00', '#0000FF', '#FFFF00', '#FF00FF', '#00FFFF', '#000000', '#808080', '#800000', '#008000'];
                        return colors[params.dataIndex % colors.length];
                    }
                }
            }]
        };

        // 配置饼图选项
        var pieOptions = {
            title: {
                text: '商品销量占比',
                left: 'center'
            },
            tooltip: {
                trigger: 'item',
                formatter: '{b}: {c}%'
            },
            legend: {
                orient: 'vertical',
                left: 'left',
                data: productNames
            },
            series: [{
                name: '销量占比',
                type: 'pie',
                radius: '55%',
                center: ['50%', '60%'],
                data: sales.map(function (value, index) {
                    return {
                        name: productNames[index],
                        value: value
                    };
                }),
                label: {
                    formatter: '{b}: {c}%'
                }
            }]
        };

        // 使用刚指定的配置项和数据显示柱状图和饼图
        barChart.setOption(barOptions);
        pieChart.setOption(pieOptions);
    </script>
</body>
</html>