电商数仓—前言

news2024/11/25 3:57:24

项目流程图

1.数据仓库的概念

  • 数据

     

    • 业务数据 存储在mysql
      • 处理事务过程中产生的数据
      • 例如:登录、下单、支付
    • 用户行为数据 日志文件(以文件形式)
      • 用户与客户端产品交互过程中产生的数据
      • 通过埋点实现:代码埋点(前端/后端)、可视化埋点、全埋点
      • 页面浏览记录、动作记录、曝光记录、启动记录和错误记录

        • 例如:浏览、点击、评论、点赞、收藏
        • 页面浏览记录
          用户信息包括用户ID、设备ID
          时间信息用户跳入页面的时间
          地理位置信息用户浏览页面时所处的地理位置
          设备信息包括设备品牌、设备型号、设备系统
          应用信息指用户访问的应用信息,例如应用版本
          渠道信息指应用的下载渠道
          页面信息用户浏览的页面相关信息,包括页面ID,页面对象
        • 动作记录 
          用户信息包括用户ID、设备ID
          时间信息动作时间
          地理位置信息动作发生时所处的地理位置
          设备信息包括设备品牌、设备型号、设备系统
          应用信息指用户访问的应用信息,例如应用版本
          渠道信息指应用的下载渠道
          动作目标信息动作用户目标对象相关信息,包括对象类型、对象ID

                 对象类型:动作的对象   例如:领优惠券
                 对象ID:例如:三个优惠券的id
        • 曝光记录
          页面向用户展示内容 展示过的是曝光
          用户信息包括用户ID、设备ID
          时间信息曝光时间
          地理位置信息曝光行为发生时所处的地理位置
          设备信息包括设备品牌、设备型号、设备系统
          应用信息指用户访问的应用信息,例如应用版本
          渠道信息指应用的下载渠道
          曝光对象信息曝光对象相关信息,包括对象类型、对象ID
        • 启动记录
          用户信息包括用户ID、设备ID
          时间信息启动时间
          地理位置信息启动时所处的地理位置
          设备信息包括设备品牌、设备型号、设备系统
          应用信息指用户访问的应用信息,例如应用版本
          渠道信息指应用的下载渠道
          启动类型包括图标和推送
          开屏广告信息包括广告ID等信息
        • 错误记录
          错误记录的是用户在使用应用过程中的报错行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、以及可能与报错相关的页面信息、动作信息、曝光信息和动作信息。

    • 爬虫数据 项目不做爬虫数据
      • 其他平台的数据(容易触犯法律)
  • 数据处理流程

2.项目需求分析

  • 1.采集平台

    • 用户行为数据采集平台搭建
    • 业务数据采集平台搭建
  • 2.离线需求

    主题子主题指标
    用户主题用户新增活跃统计新增用户
    活跃用户
    用户行为漏斗分析首页浏览人数
    商品详情页浏览人数
    加购人数
    下单人数
    支付人数
    新增下单用户统计新增下单人数
    新增支付成功人数
    最近七日内连续三日下单用户数
    商品主题复购率统计最近30日各品牌复购率
    各品牌商品下单统计各品牌订单数
    各品牌订单人数
    各品类商品交易统计各品类订单数
    各品类订单人数
    购物车存量统计各分类商品购物车存量Top3
    各品牌商品收藏次数Top3
    下单到支付时间间隔平均值
    各省份交易统计各省份订单数
    各省份订单金额
    优惠券主题优惠券使用率统计使用次数
    使用人数

  • 3.实时需求

    主题子主题指标
    流量主题各渠道流量统计当日各渠道独立访客数
    当日各渠道会话总数
    当日各渠道会话平均浏览页面数
    当日各渠道会话平均停留时长
    当日各渠道跳出率
    流量分时统计当日各小时独立访客数
    当日各小时页面浏览数
    当日各小时新访客数
    新老访客流量统计各类访客数
    各类访客页面浏览数
    各类访客平均在线时长
    各类访客平均访问页面数
    关键词统计当日各关键词评分
    用户主题用户变动统计当日回流用户数
    用户新增活跃统计当日新增用户数
    当日活跃用户数
    用户行为漏斗分析当日首页浏览人数
    当日商品详情页浏览人数
    当日加购人数
    当日下单人数
    当日支付成功人数
    新增交易用户统计当日新增下单人数
    当日新增支付成功人数
    商品主题*复购率统计最近 7/30 日截至当前各品牌复购率
    各品牌商品交易统计当日各品牌订单数
    当日各品牌订单人数
    当日各品牌订单金额
    当日各品牌退单数
    当日各品牌退单人数
    各品类商品交易统计当日各品类订单数
    当日各品类订单人数
    当日各品牌订单金额
    当日各品类退单数
    当日各品类退单人数
    各 SPU 商品交易统计当日各 SPU 订单数
    当日各 SPU 订单人数
    当日各 SPU 订单金额
    交易主题交易综合统计当日订单总额
    当日订单数
    当日订单人数
    当日退单数
    当日退单人数
    各省份交易统计当日各省份订单数
    当日各省份订单金额
    优惠券主题优惠券补贴率统计当日优惠券补贴率
    活动主题活动补贴率统计当日活动补贴率

4.项目框架

  • 1.技术选型

    • 数据采集传输: Flume,Kafka DataXMaxwell,Sqoop ,Logstash
    • 数据存储:MySOLHDFSHBase,Redis,MongoDB
    • 数据计算: Hive, SparkFlink,Storm , Tez
    • 数据查询: Presto,Kylin ,Impala, Druid,ClickHouse,Doris
    • 数据可视化:Superset,Echarts,Sugar, QuickBI,DataV
    • 任务调度: DolphinScheduler,Azkaban,Oozie,Airflow
    • 集群监控: ZabbixPrometheus
    • 元数据管理:Atlas
    • 权限管理: Ranger,Sentry

                                                                                               粉色:离线实时公用
                                                                                               蓝色:离线
                                                                                               绿色:实时
                                                                                               黑色:不采用
       

     

  • 2.版本选择

  • 3.测试集群服务器规划​​​​​​​

    服务名称

    服务

    服务器

    hadoop102

    服务器

    hadoop103

    服务器

    hadoop104

    HDFS

    NameNode

    DataNode

    SecondaryNameNode

    Yarn

    NodeManager

    Resourcemanager

    Zookeeper

    Zookeeper Server

    Flume(采集日志)

    Flume

    Kafka

    Kafka

    Flume

    (消费Kafka日志)

    Flume

    Flume

    (消费Kafka业务)

    Flume

    Hive

    MySQL

    MySQL

    DataX

    Spark

    DolphinScheduler

    ApiApplicationServer

    AlertServer

    MasterServer

    WorkerServer

    LoggerServer

    Superset

    Superset

    Flink

    ClickHouse

    Redis

    Hbase

    服务数总计

    20

    11

    12

  • 4.系统数据流程设计

     

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/424415.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Unity集成GPT

GPT想必是最近互联网最火的话题了,作为一个Unity开发者,今天来介绍一下如何在Unity中使用GPT。 一、API 密钥 使用GPT的API首先要获得密钥,如下进入OpenAI官网(https://platform.openai.com/account/api-keys)–>选择自己的账号–>查…

Docker-Compose企业生产环境实战

1. Docker-Compose企业生产环境实战 Docker Compose 是 Docker 官方编排(Orchestration)项目之一,负责快速在集群中部署分布式应用。Compose 定位是“defining and running complex applications with Docker”,前身是 Fig&#…

手把手教你如何管理进程和计划任务管理

目录一、查看和控制进程1.1查看进程1.1.1 ps 命令— 查看静态的进程统计信息1.1.2ps -elf 命令— 查看静态的进程统计信息1.1.3grep过滤查询1.1.4top命令—动态查看进程信息1.1.5pgrep命令— 根据特定条件查询进程PID信息1.1.6pstree命令—查看进程树1.2控制进程1.2.1手动启动1…

单片机--第六章中断系统--例6-3学习

单片机--第六章中断系统--例6-3学习 同6-2图,要求:使用定时器T0中断实现流水灯操作,流水频率为每0.5s更替一次(假设单片机外接11.0592MHZ的晶振)。 这个代码实现的是流水灯的效果,即将多个 LED 灯依次点亮并…

.net6 Program.cs 文件解析

Program.cs 是整个Web应用程序的入口文件,.NET6 用了极简单的风格搞定了很多事情。 Program.cs中首先注意的是: 1.builder.Services.AddXXX是用来添加服务的,builder是WebApplicationBuilder对象; 2.builder.Services.Configure&…

【C++】判断语句中对变量的合理定义

先总结一下这篇博客的核心: C中,不允许重复定义同一个变量,否则保留的初次定义的值(虽然编译能通过)涉及到判断的多分支时,应在进判断分支之前定义好变量,如果在分支中分别定义会出现编译错误&…

基于HashData的湖仓一体解决方案的探索与实践

2023年4月7日,由中国DBA联盟(ACDU)和墨天轮社区联合主办的第十二届『数据技术嘉年华』(DTC 2023) 在北京新云南皇冠假日酒店盛大开启。HashData资深解决方案架构师李俊在4月8号专题会场6-“融合应用:湖仓技术创新”上发表了《基于…

从零开始学JAVA(05):面向对象编程--04

一、StringBuilder StringBuilder是一个非常方便的用来处理和拼接字符串的类,它和string不同的是,它是可变的 package com.lcy.learn;public class LearnStringBuilder {public static void main(String[] args) {// StringBuilder首先是可变的// 而且对…

牛客网算法八股刷题系列(九)训练过程损失函数不下降问题

牛客网算法八股刷题系列——训练过程损失函数不下降问题题目描述正确答案:D\mathcal DD题目解析延伸:训练过程损失函数不下降的其他情况题目描述 在训练神经网络时,损失函数(Loss)(\text{Loss})(Loss)在最初的几个Epoch\text{Epoch}Epoch时没…

delphi 实现Ribbon风格的窗体

随着office2007的兴起,微软让我们看到了Ribbon风格的窗体,现在很多软件也都开始使用Ribbon风格。 那么我们如果要自己开发,应当怎么做呢?本文就是为大家解开这个疑团的。 首先,Delphi本身并没有Ribbon风格的窗口可以直…

epoll为什么用红黑树?

网络编程的时候有没有碰到过 Socket 对象?或者在配置代理的时候,有没有碰到配置 Socket 地址?当你看到服务端 Socket、客户端 Socket 等名词时,是否可以明确理解这些概念? 学习好这些知识有一条主线,就是抓…

Dockerfile构建镜像缓慢解决方案总结

分几种不同的情况,不断更新中 1、Dockerfile apk add 下载更新软件时,比较慢,如何解决 例子如下: 更好一下仓库源 RUN sed -i s/dl-cdn.alpinelinux.org/mirrors.aliyun.com/g /etc/apk/repositories或者改成科大的镜像 RUN…

android核心架构Framework组件介绍

作为一个android开发者,核心架构是必须要了解的。只有了解每个核心层的作用,才能更深入的理解和学习。本篇主要讲解Java Framework层核心代码流程。 文章目录一,Android系统架构1.System Apps2.Java Framework3.系统运行库层4.硬件抽象层&…

Matplotlib库的简单用法

Matplotlib库的简单用法 Matplotlib是python科学计算中最基础、最重要的绘图库,是Python中最流行的数据可视化库之一,它提供了大量的绘图函数和工具,可以让用户创建各种类型的图表和图形,一般使用matpltlib完全可以满足我们绘图需…

“成功学大师”杨涛鸣被抓

我是卢松松,点点上面的头像,欢迎关注我哦! 4月15日,号称帮助一百多位草根开上劳斯莱斯,“成功学大师”杨涛鸣机其团队30多人已被刑事拘留,培训课程涉嫌精神传销,警方以诈骗案进行立案调查。 …

基于4412的dm9000驱动移植

1 概述 以太网高速稳定的特性比Wifi无线传输有一定的优势,当无线传输无法满足一些智能设备,需要开发设计以太网模块。Linux支持以太网系统,结合4412开发板,重点学习dm9000驱动的设计与实现。 2 硬件资源分析 2.1 4412开发板以太网…

【Python】Python中的列表,元组,字典

文章目录列表创建列表获取元素修改元素添加元素查找元素删除元素列表拼接遍历列表切片操作元组创建元组元组中的操作字典创建字典添加/修改元素删除元素查找字典的遍历合法的key类型列表 列表是一种批量保存数据的方式,列表使用[]表示 创建列表 创建两个空列表 …

nginx优化及配置

nginx隐藏版本号 查看方法 浏览器F12 看network头部看server curl -i 192.168.232.7 获取头部(查版本号) 配置文件改 添加server_tokens off 改源码 cd /src/core vim nginx.h 修改 修改的IIS为window常用的软件服务 重新编译安装 cd nginx_1.2…

【C++】while 循环应用案例 - 猜数字游戏

目录 1、缘起 2、案例描述 3、代码 4、相关知识点 4.1、rand() 函数 4.2、srand() 函数 5、总结 1、缘起 猜数字游戏是一种简单而又有趣的游戏,在这个游戏中,计算机会生成一个随机数字,玩家需要通过不断猜测来猜出这个数字。在本篇博…

使用docker搭建lnmp环境+redis服务

lnmp搭建过程,前文已经写了传送门,本文主要写一下运行redis容器和php-fpm容器内安装redis扩展 redis 1.创建宿主机配置和数据文件夹 [rootlocalhost ~] mkdir -p /lnmp/redis/{data,conf}2.放置/lnmp/redis/conf/redis.conf文件 点我下载 3.启动容器 …