项目流程图
1.数据仓库的概念
- 数据
- 业务数据 存储在mysql
- 处理事务过程中产生的数据
- 例如:登录、下单、支付
- 用户行为数据 日志文件(以文件形式)
- 用户与客户端产品交互过程中产生的数据
- 通过埋点实现:代码埋点(前端/后端)、可视化埋点、全埋点
-
页面浏览记录、动作记录、曝光记录、启动记录和错误记录
- 例如:浏览、点击、评论、点赞、收藏
- 页面浏览记录
用户信息 包括用户ID、设备ID 时间信息 用户跳入页面的时间 地理位置信息 用户浏览页面时所处的地理位置 设备信息 包括设备品牌、设备型号、设备系统 应用信息 指用户访问的应用信息,例如应用版本 渠道信息 指应用的下载渠道 页面信息 用户浏览的页面相关信息,包括页面ID,页面对象 - 动作记录
用户信息 包括用户ID、设备ID 时间信息 动作时间 地理位置信息 动作发生时所处的地理位置 设备信息 包括设备品牌、设备型号、设备系统 应用信息 指用户访问的应用信息,例如应用版本 渠道信息 指应用的下载渠道 动作目标信息 动作用户目标对象相关信息,包括对象类型、对象ID
对象类型:动作的对象 例如:领优惠券
对象ID:例如:三个优惠券的id - 曝光记录
页面向用户展示内容 展示过的是曝光用户信息 包括用户ID、设备ID 时间信息 曝光时间 地理位置信息 曝光行为发生时所处的地理位置 设备信息 包括设备品牌、设备型号、设备系统 应用信息 指用户访问的应用信息,例如应用版本 渠道信息 指应用的下载渠道 曝光对象信息 曝光对象相关信息,包括对象类型、对象ID - 启动记录
用户信息 包括用户ID、设备ID 时间信息 启动时间 地理位置信息 启动时所处的地理位置 设备信息 包括设备品牌、设备型号、设备系统 应用信息 指用户访问的应用信息,例如应用版本 渠道信息 指应用的下载渠道 启动类型 包括图标和推送 开屏广告信息 包括广告ID等信息 -
错误记录
错误记录的是用户在使用应用过程中的报错行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、以及可能与报错相关的页面信息、动作信息、曝光信息和动作信息。
- 爬虫数据 项目不做爬虫数据
- 其他平台的数据(容易触犯法律)
- 业务数据 存储在mysql
- 数据处理流程
2.项目需求分析
-
1.采集平台
- 用户行为数据采集平台搭建
- 业务数据采集平台搭建
-
2.离线需求
主题 子主题 指标 用户主题 用户新增活跃统计 新增用户 活跃用户 用户行为漏斗分析 首页浏览人数 商品详情页浏览人数 加购人数 下单人数 支付人数 新增下单用户统计 新增下单人数 新增支付成功人数 最近七日内连续三日下单用户数 商品主题 复购率统计 最近30日各品牌复购率 各品牌商品下单统计 各品牌订单数 各品牌订单人数 各品类商品交易统计 各品类订单数 各品类订单人数 购物车存量统计 各分类商品购物车存量Top3 各品牌商品收藏次数Top3 下单到支付时间间隔平均值 各省份交易统计 各省份订单数 各省份订单金额 优惠券主题 优惠券使用率统计 使用次数 使用人数 -
3.实时需求
主题 子主题 指标 流量主题 各渠道流量统计 当日各渠道独立访客数 当日各渠道会话总数 当日各渠道会话平均浏览页面数 当日各渠道会话平均停留时长 当日各渠道跳出率 流量分时统计 当日各小时独立访客数 当日各小时页面浏览数 当日各小时新访客数 新老访客流量统计 各类访客数 各类访客页面浏览数 各类访客平均在线时长 各类访客平均访问页面数 关键词统计 当日各关键词评分 用户主题 用户变动统计 当日回流用户数 用户新增活跃统计 当日新增用户数 当日活跃用户数 用户行为漏斗分析 当日首页浏览人数 当日商品详情页浏览人数 当日加购人数 当日下单人数 当日支付成功人数 新增交易用户统计 当日新增下单人数 当日新增支付成功人数 商品主题 *复购率统计 最近 7/30 日截至当前各品牌复购率 各品牌商品交易统计 当日各品牌订单数 当日各品牌订单人数 当日各品牌订单金额 当日各品牌退单数 当日各品牌退单人数 各品类商品交易统计 当日各品类订单数 当日各品类订单人数 当日各品牌订单金额 当日各品类退单数 当日各品类退单人数 各 SPU 商品交易统计 当日各 SPU 订单数 当日各 SPU 订单人数 当日各 SPU 订单金额 交易主题 交易综合统计 当日订单总额 当日订单数 当日订单人数 当日退单数 当日退单人数 各省份交易统计 当日各省份订单数 当日各省份订单金额 优惠券主题 优惠券补贴率统计 当日优惠券补贴率 活动主题 活动补贴率统计 当日活动补贴率
4.项目框架
-
1.技术选型
- 数据采集传输: Flume,Kafka , DataX ,Maxwell,Sqoop ,Logstash
- 数据存储:MySOL,HDFS,HBase,Redis,MongoDB
- 数据计算: Hive, Spark ,Flink,Storm , Tez
- 数据查询: Presto,Kylin ,Impala, Druid,ClickHouse,Doris
- 数据可视化:Superset,Echarts,Sugar, QuickBI,DataV
- 任务调度: DolphinScheduler,Azkaban,Oozie,Airflow
- 集群监控: Zabbix,Prometheus
- 元数据管理:Atlas
- 权限管理: Ranger,Sentry
粉色:离线实时公用
蓝色:离线
绿色:实时
黑色:不采用
-
2.版本选择
-
3.测试集群服务器规划
服务名称
子服务
服务器
hadoop102
服务器
hadoop103
服务器
hadoop104
HDFS
NameNode
√
DataNode
√
√
√
SecondaryNameNode
√
Yarn
NodeManager
√
√
√
Resourcemanager
√
Zookeeper
Zookeeper Server
√
√
√
Flume(采集日志)
Flume
√
√
Kafka
Kafka
√
√
√
Flume
(消费Kafka日志)
Flume
√
Flume
(消费Kafka业务)
Flume
√
Hive
√
√
√
MySQL
MySQL
√
DataX
√
√
√
Spark
√
√
√
DolphinScheduler
ApiApplicationServer
√
AlertServer
√
MasterServer
√
WorkerServer
√
√
√
LoggerServer
√
√
√
Superset
Superset
√
Flink
√
ClickHouse
√
Redis
√
Hbase
√
服务数总计
20
11
12
-
4.系统数据流程设计