外卖大数据案例

news2025/1/11 7:41:49

一、环境要求 Hadoop+Hive+Spark+HBase 开发环境。

二、数据描述

meituan_waimai_meishi.csv 是某外卖平台的部分外卖 SPU(Standard Product Unit , 标准产品单元)数据,包含了外卖平台某地区一时间的外卖信息。具体字段说明如下:

字段名称

中文名称

数据类型

spu_id

商品spuID

String

shop_id

店铺ID

String

shop_name

店铺名称

String

category_name

类别名称

String

spu_name

SPU名称

String

spu_price

SPU商品售价

Double

spu_originprice

SPU商品原价

Double

month_sales

月销售量

Int

praise_num

点赞数

Int

spu_unit

SPU单位

String

spu_desc

SPU描述

String

spu_image

商品图片

String

三、功能要求

1.数据准备

在 HDFS 中创建目录/app/data/exam,并将 meituan_waimai_meishi.csv 文件传到该 目录。并通过 HDFS 命令查询出文档有多少行数据。

启动Hadoop

[root@kb135 ~]# start-all.sh

退出安全模式

[root@kb135 ~]# hdfs dfsadmin -safemode leave

上传文件

[root@kb135 examdata]# hdfs dfs -put ./meituan_waimai_meishi.csv /app/data/exam

查看数据行数

[root@kb135 examdata]# hdfs dfs -cat /app/data/exam/meituan_waimai_meishi.csv | wc -l

2.使用 Spark加载 HDFS 文件

加载meituan_waimai_meishi.csv 文件,并分别使用 RDD 和 Spark SQL 完成以下分析(不用考虑数据去重)。

Rdd:

启动spark

[root@kb135 ~]# spark-shell

创建Rdd

scala> val fileRdd = sc.textFile("/app/data/exam/meituan_waimai_meishi.csv")

清洗数据

scala> val spuRdd = fileRdd.filter(x=>x.startsWith("spu_id")==false).map(x=>x.split(",",-1)).filter(x=>x.size==12)

①统计每个店铺分别有多少商品(SPU)。

scala> spuRdd.map(x=>(x(2),1)).reduceByKey(_+_).collect.foreach(println)

②统计每个店铺的总销售额。

scala> spuRdd.map(x=>(x(2),x(5).toDouble*x(7).toInt)).filter(x=>x._2>0).reduceByKey(_+_).collect.foreach(println)

③统计每个店铺销售额最高的前三个商品,输出内容包括店铺名,商品名和销售额,其 中销售额为 0 的商品不进行统计计算,例如:如果某个店铺销售为 0,则不进行统计。

scala> spuRdd.map(x=>(x(2),x(4),x(5).toDouble*x(7).toInt)).filter(x=>x._3>0).groupBy(x=>x._1).mapValues(x=>x.toList.sortBy(item=>0-item._3).take(3)).flatMapValues(x=>x).map(x=>x._2).collect.foreach(println)

scala> spuRdd.map(x=>(x(2),x(4),x(5).toDouble*x(7).toInt)).filter(x=>x._3>0).groupBy(x=>x._1).flatMap(x=>{x._2.toList.sortBy(item=>0-item._3).take(3)}).collect.foreach(println)

scala> spuRdd.map(x=>(x(2),x(4),x(5).toDouble*x(7).toInt)).filter(x=>x._3>0).groupBy(x=>x._1).map(x=>{x._2.toList.sortBy(item=>0-item._3).take(3) }).flatMap(x=>x).collect.foreach(println)

---------------------------------------------------------------------------------------------------------------------------------

spark sql:

①统计每个店铺分别有多少商品(SPU)。

scala> spark.sql("select shop_name ,count(spu_name) as num from spu group by shop_name").show

②统计每个店铺的总销售额。

scala> spark.sql("select shop_name,sum(spu_price*month_sales) as money from spu where month_sales !=0 group by shop_name").show

③统计每个店铺销售额最高的前三个商品,输出内容包括店铺名,商品名和销售额,其中销售额为 0 的商品不进行统计计算,例如:如果某个店铺销售为 0,则不进行统计。

scala> spark.sql("select t.shop_name,t.spu_name,t.money,t.rn from (select shop_name,spu_name,spu_price*month_sales as money,row_number() over(partition by shop_name order by spu_price*month_sales desc) as rn from spu where month_sales != 0) t where t.rn<4").show(100)

3.创建 HBase 数据表

在 HBase 中创建命名空间(namespace)exam,在该命名空间下创建 spu 表,该表下有

1 个列族 result。

启动zookeeper

[root@kb135 ~]# zkServer.sh start

启动hbase

[root@kb135 examdata]# start-hbase.sh

[root@kb135 examdata]# hbase shell

创建表空间

hbase(main):002:0> create_namespace 'exam202009'

创建表

hbase(main):003:0> create 'exam202009:spu','result'

4.在 Hive 中创建数据库 spu_db

在该数据库中创建外部表 ex_spu 指向 /app/data/exam 下的测试数据 ;创建外部表 ex_spu_hbase 映射至 HBase 中的 exam:spu 表的 result 列族 

 ex_spu 表结构如下:

字段名称

中文名称

数据类型

spu_id

商品spuID

string

shop_id

店铺ID

string

shop_name

店铺名称

string

category_name

类别名称

string

spu_name

SPU名称

string

spu_price

SPU商品价格

double

spu_originprice

SPU商品原价

double

month_sales

月销售量

int

praise_num

点赞数

int

spu_unit

SPU单位

string

spu_desc

SPU描述

string

spu_image

商品图片

string

ex_spu_hbase 表结构如下:

字段名称

字段类型

字段含义

key

string

rowkey

sales

double

销售额

praise

int

点赞数

创建表语句:

create external table if not exists ex_spu(
spu_id string,
shop_id string,
shop_name string,
category_name string,
spu_name string,
spu_price double,
spu_originprice double,
month_sales int,
praise_num int,
spu_unit string,
spu_desc string,
spu_image string
)
row format delimited fields terminated by ","
stored as textfile location "/app/data/exam"
tblproperties("skip.header.line.count"="1");
create external table if not exists ex_spu_hbase(
key string,
sales double,
praise int
)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with
serdeproperties("hbase.columns.mapping"=":key,result:sales,result:praise")
tblproperties("hbase.table.name"="exam202009:spu");

 5. 统计查询

统计每个店铺的总销售额 sales, 店铺的商品总点赞数 praise,并将 shop_id 和 shop_name 的组合作为 RowKey,并将结果映射到 HBase。

插入数据:

hive (spu_db)> insert into ex_spu_hbase (select concat(shop_id,shop_name) as key ,sum(spu_price*month_sales) as sales,sum(praise_num) as praise from ex_spu group by shop_id,shop_name);

完成统计后,分别在 hive 和 HBase 中查询结果数据。

hive (spu_db)> select * from ex_spu_hbase;

hbase(main):005:0> scan 'exam202009:spu'

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1100129.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文件内容相关

1.查看文件 cat /etc/passwd 2.编辑文件 echo "i like dog" > qun.txt 标准输出重定向 echo "i like best cat" >> qun.txt 标准输出追加重定向 cat >> qun.txt cat >>qun.txt<< ene vim编辑 进入编辑模式 i 光标所在…

在unity中给游戏物体一个标记

标记 方便识别&#xff01; 标签&#xff08;Tag&#xff09; 引擎内部会对物体的标签建立了索引。通过标签查找物体&#xff0c;要比通过名字查找物体快得多。标签最多只能有 32个。前几个是常用标签&#xff0c;具有特定含义&#xff0c;例如玩家( Player)、主摄摄像机 (Mai…

【RTOS学习】优先级 | Tick | 任务状态 | 空闲任务 | 任务调度

&#x1f431;作者&#xff1a;一只大喵咪1201 &#x1f431;专栏&#xff1a;《RTOS学习》 &#x1f525;格言&#xff1a;你只管努力&#xff0c;剩下的交给时间&#xff01; 优先级 | Tick | 任务状态 | 空闲任务 | 任务调度 &#x1f3c0;优先级⚽任务管理 &#x1f3c0;T…

PostMan使用csv/json进行数据参数化

创建csv文件 或者创建json文件 [{"name": "zhangsan","age": 18},{"name": "lisi","age": 20} ] 运行集合脚本的时候选择data文件 在请求接口中输入全局变量 {{user}}的方式进行传递 在Tests中要使用断言&…

C# Winform编程(4)多文档窗口(MDI)

多文档窗口&#xff08;MDI&#xff09; 添加菜单&#xff0c;IsMdiContainer设为True: From窗口添加菜单 Form1.cs using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using S…

华为鸿蒙系统安装第三方软件 - 注意事项

华为鸿蒙系统安装第三方软件 - 注意事项 前言关闭增强防护关闭应用检测发现恶意软件解除软件管控 前言 华为鸿蒙系统默认开启纯净模式&#xff0c;仅支持安装经过华为应用市场检测的应用&#xff0c;并禁止运行病毒和风险应用。但此功能是可以关闭的&#xff0c;下文介绍如何安…

Qtday01(qt简介、简单窗口组件)

今日任务 仿qq登录界面&#xff0c;QT实现 代码&#xff1a; 头文件&#xff1a; #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QLineEdit> #include <QLabel> #include <QPushButton> #include <QtDebug> #…

session认证

目录 前言 http协议的无状态性 session的工作原理 在express中使用session认证 在session中存数据 在session中取数据 清空session 结尾 前言 session是一种记录客户状态的机制&#xff0c;客户端浏览器法访问服务器的时候&#xff0c;服务器把客户端信息以某种形式记录…

基于闪电连接过程优化的BP神经网络(分类应用) - 附代码

基于闪电连接过程优化的BP神经网络&#xff08;分类应用&#xff09; - 附代码 文章目录 基于闪电连接过程优化的BP神经网络&#xff08;分类应用&#xff09; - 附代码1.鸢尾花iris数据介绍2.数据集整理3.闪电连接过程优化BP神经网络3.1 BP神经网络参数设置3.2 闪电连接过程算…

互联网Java工程师面试题·Java 总结篇·第四弹

目录 31、String s new String(“xyz”);创建了几个字符串对象&#xff1f; 32、接口是否可继承&#xff08;extends&#xff09;接口&#xff1f;抽象类是否可实现&#xff08;implements&#xff09;接口&#xff1f;抽象类是否可继承具体类&#xff08;concrete class&am…

【Qt控件之QToolButton】概述及示例

简介 QToolButton 类提供了一个快速访问命令或选项的按钮&#xff0c;通常在 QToolBar 内部使用。 工具按钮是一种特殊的按钮&#xff0c;用于快速访问特定的命令或选项。与普通的命令按钮相反&#xff0c;工具按钮通常不显示文本标签&#xff0c;而是显示一个图标。 通常情…

文件夹加密后,忘记文件夹密码怎么办?

文件夹加密是保护文件夹数据安全的重要手段&#xff0c;没有正确的密码将无法访问文件夹。那么&#xff0c;如果我们忘记了文件夹密码该怎么办呢&#xff1f;下面我们就一起来了解一下。 忘记文件夹密码怎么办&#xff1f; 以夏冰加密软件的产品为例&#xff0c;能够为文件夹设…

Groovy语法Gradle配置学习笔记

第一部分&#xff1a;Groovy语法 变量的类型和定义 Groovy所有类型都是对象类型&#xff1a; int x 10 println x.class double y 3.14 println y.classdef 定义变量&#xff1a; def str "dddd" println str.class字符串 字符串&#xff1a; // 单引号 双引号…

【环境配置】Windows10上的OpenFace安装与使用

&#xff08;小乱&#xff0c;待整理&#xff0c;先将就用&#xff09; github下载&#xff0c;安装必要的依赖&#xff0c;参考自&#xff1a; 缺东西的到这里看&#xff0c;缺啥安装啥 pip install opencv-pythonpip install CMakepip install Boostpip install dlib这些我…

去中心遇见混币器

区块链的去中心化交易所在保护隐私和安全性上有着无可比拟的优势&#xff0c;用户甚至不需要提供注册资料&#xff0c;只要有web3钱包即可跟智能合约交易。在uniswap上可兑换绝大多数加密币&#xff0c;新推出的衍生品交易所ununx已经可以交易美股&#xff0c;期货和外汇,一个全…

Babel 在Powershell 上无法查看版本

ES6 模块语法不能应用在ES5环境中 (ES6模块化语法不能在node.js中执行)&#xff0c;此时需要Babel进行转码 通过npm install -g babel-cli 安装好后&#xff0c;想通过 babel --version产看版本。但是无法查看 首先&#xff0c;我们要以管理员方式运行PowerShell&#xff0c;&…

网工记背配置基础命令总结(4)---DHCP配置

目录 1.DHCP相关配置 2.基于不同网段内DHCP服务器和DHCP中继 3.VRRP组网下同网段内配置基于全局地址池的DHCP服务器 4.配置DHCP客户端 5.DHCP snooping(网关防假冒)配置 6.IPSG(IPMAC绑定)配置 1.配置IPSG防止主机私自更改IP地址&#xff08;静态绑定&#xff09; 2.配…

Springboot整合WebSocket实现浏览器和服务器交互

Websocket定义 代码实现 引入maven依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></dependency>配置类 import org.springframework.context.annotation.Bean;i…

Supervisor监控Go程序

目的&#xff1a; 线上服务有时候会由于一些bug导致painc&#xff0c;程序终止&#xff0c;这个时候需要自动重启项目&#xff0c;让项目能继续提供服务。 容器启动Golang项目 vscode安装golang插件,让vscode可以运行go代码 提示没有go环境&#xff0c;服务器本地确实是没有…

AMEYA360:君正低功耗AIoT图像识别处理器—X1600/X1600E

• 高性能 XBurst 1 CPU&#xff0c;主频1.0GHz • 超低功耗 • 内置LPDDR2(X1600&#xff1a;32MB&#xff0c;X1600E&#xff1a;64MB) • 实时控制核XBurst 0&#xff0c;面向安全管理和实时控制 • 丰富的外设接口 应用领域 • 基于二维码的智能商业 • 智能物联网 • 高端…