出版时间:2021年11月
副标题:用户行为分析、A/B实验、SQLFlow
作者们是一线互联网企业的数据科学家、数据分析师和算法工程师,主要就职于滴滴、部分就职于腾讯、快手等。
点评:神仙下凡布道。感谢大佬们的分享。本书让我领略了大厂如何运用最新数据技术解决商业问题。有点小瑕疵就是,有部分章节的引用案例不是大厂实战,缺少说服力。
再次感叹,平台和机会多么重要啊!
文章目录
- 一、数据科学是什么
- 二、观测数据的分析技术
- (一)如何分析用户的选择
- (二)与时间相关的行为分析
- (三)洞察用户长期价值:基于神经网络的LTV模型
- (四)使用体系化分析方法进行场景挖掘
- (五)行为规律的发现与挖掘
- (六)对观测到的事件进行因果推断
一、数据科学是什么
数据科学包括三要素,商业理解是方向,量化模型是起点,数据技术是道路。
二、观测数据的分析技术
(一)如何分析用户的选择
场景:
家庭旅游时,选择哪种交通方式出行?自驾还是非自驾?飞机、火车、长途汽车、自驾?
DCM的功能:
用来分析”从有限互斥选项集中进行单项选择“的计量模型。选择结果=F(决策者,备选项集合,备选项属性)。
DCM的任务:
1.预测一组决策者的决策行为
2.决策者在做出决策时,衡量不同选项属性的影响
3.了解不同群体如何评价一个备选项的不同属性,以便通过精心设计的策略,修改对个体决策者有重要影响的选项的属性,以主动的方式去改变用户行为。
常用的DCM模型:
附IIA假设:选择两个备选项的概率之比与其他备选项的存在无关。这条假设一般很难达到。因此,NL比MNL更科学、严谨,应用更广。
python实现:
pip install statsmodels
pip install pylogit
from collections import OrderedDict #记录模型的声明specification
import scipy # Hausman卡方检验
import statsmodels.stats.outliers_influence import variance_inflation_factor #多重共线性检验。因LR是广义线性模型。
import statsmodels.api as sm # 引入逻辑回归
import pylogit
(二)与时间相关的行为分析
场景:
二手车定价(本章案例)。通过建模分析找到最优定价策略并实现自动化定价。
其他应用如用户留存分析、病人的治愈情况、 婚姻持续情况、产品出现故障的情况。
-
问题
价格越高存放时间越长,则仓储及维护成本越高。 -
两个核心点
1.求解在不同价格水平下,具备不同信息参数的二手车随时间连续变化的留存(未被出售)概率曲线,进而得出随时间推移车辆消耗的成本。
2.基于毛利最大化原则寻找最优价格。
解决方案排除:
回归模型(如线性回归、决策树回归等)处理的是截面数据。模型输出结果是特定时间截面下的事件发生概率。有两个不足:1.它无法处理连续时间信息,即车辆留存概率与时间的关系。2.难以分析调价对出售概率的影响。
生存分析:
同时关注事件结果、事件发生时间。
- 关键词:
生存曲线、半衰期(中位生存时间)
python实现:
from lifelines import KaplanMeierFitter #引入生存分析包 KM生存曲线
from lifelines.statistics import logrank_test #引入生存分析包 logrank检验
from lifelines import NelsonAalenFitter #引入生存分析包 风险曲线
from lifelines import CoxPHFitter #引入生存分析包 Cox模型
(三)洞察用户长期价值:基于神经网络的LTV模型
LTV (lift time value)
用户长期价值,是基于用户行为的公司估值法。该方法有5大要素:用户获取、用户留存、用户下单、用户消费、边际利润。
行业应用:零售、金融服务、媒体、制药等。
特点:
1.长期性
2.变化性。初创公司,重视获客规模;稳定发展的公司,重视留存、用户平台价值。好的产品和运营策略,可以增强用户黏性,延长LTV。
LTV能解决的问题:
1.如何找出最优价值的用户?
2.企业怎么才能产生让用户长期喜爱和依赖的产品?
3.影响用户购买行为的因素有哪些?如何更好地满足不同用户的需求?
4.如何制定获客预算?
python实现:
pip install Keras
from sklearn.preprocessing import MinMaxScaler
from Keras.layers import Input,ConvID,Dropout,LSTM,TimeDistributed,Bidirectional,Dense
from Keras.models import model
from Keras.callbacks import EarlyStopping
(四)使用体系化分析方法进行场景挖掘
(待补充)
(五)行为规律的发现与挖掘
(待补充)
(六)对观测到的事件进行因果推断
(待补充)