第一章
市场调研的基本步骤:提出问题-->理论推演-->收集材料-->构建模型-->归因分析。
定性研究方法:1、文案调查法;2、深度访谈法;3焦点小组座谈法;4、投影技法。
一般离中趋势的指标有:标准差、变异系数、平均差等;
集中趋势的有:平均数、众数、中位数。
直方图 可以看分布趋势。
梯度分析法:逐步寻找最优解。
发现异常值的方法:均值加减标准法。
ETL:数据提取--转换---清洗----装载。
元数据就是描述数据的数据。
概率抽样(可控)和非概率抽样(不可控)。
第二章
中心极限定理:数据量足够大的情况下,样本均值是接近正态分布的。
AB实验:两组实验验证,一组对照,一组实验。
T检验:针对小样本、均值、找差异。
F检验:问卷、实验、因素分析,影响是否显著,组间。
卡方分布:方差,区间估计问题,单个正态总体方差检验。
置信区间:首先计算均值标准误差: ;s是均值,n是个数。再计算区间:
拒真:错误,原假设为真却拒绝。p(拒绝H0|H0正确)=
取伪:错误,原假设为假却接受。
假设检验步骤:建立假设-----选择统计量,给出拒绝域形式------选择显著性水平-----给出拒绝域。
原假设想推翻,备择假设要支持。
SST=SSM+SSE;
单因素分析中,偏方差平方和的自由度为r-1,误差平方和的自由度为n-r。
回归平法和p,残差平方和n-p-1。
方差分析分析的是均值,不是方差。
影响因素:组内是随机因素,组间是随机因素和系统因素。
回归系数检验肯定是t检验。相关系数为(-1,1)之间。
第五章
常用的相关性的度量方法:
- 两个连续变量使用皮尔逊相关系数。
- 两个顺序序列使用斯皮尔曼相关系数。
- 一个连续一个顺序使用肯德尔曼相关系数。
主成分分析计算步骤:主成分建模,标准化处理------计算特征值、特征向量(协方差矩阵,特征值就是主成分的方差)--------选取主成分个数。
主成分的特点:
- 1、主成分的方差依次由大到小。
- 2、主成分的个数远小于变量个数。
- 3、主成分之间互不相关。
- 4、原始变量都是主成分的线性结合。
主成分分析在数学上的表示:将原随机变量的协方差矩阵变成对角矩阵。
主成分可以通过特征值分解来实现。
主成分是一种线性降维,有局限性。
主成分分析是组合的过程,因子分析是分解的过程。
因子旋转分为正交和斜交。
因子分析的KMO检验,变量越相关,KNO越大,区间在(0,1).
因子分析的步骤:因子载荷矩阵------因子旋转------公共因子。
因子载荷矩阵是用来表示变量与因子之间的关系。
因子分析假设:简单来说共同因子与公共因子之间不相关,他们自身也不相关。
逻辑回归系数代表自变量对几率的对数的影响。逻辑回归属于广义线性回归。
逻辑回归算法:通过逻辑回归模型计算得到y后,通过公式计算得概率p。
线性回归假设前提:
- 1、解释变量不相关
- 2、随机项满足正态分布
- 3、解释变量与随机项不相关
- 4、随机序列不相关
是指回归平方和和总离差平法和的比值。
矩阵n*p,一般n为样本量,p、k为变量个数。
在多元线性回归中,遇到多重共线性可以用:逐步回归、正则、偏最小二乘法。
多重共线性是指变量之间还存相关性。
自变量检验多重共线性使用方差膨胀因子VIF。
评价估计量的指标:无偏性、有效性、一致性。
最小二乘法也适用多元线性回归;在系统估计中,最小二乘法是唯一的最小方差估计。
回归系数的估计方法只有最小二乘法。
回归系数检验使用T检验
线性检验使用F检验。
线性回归的被解释变量为连续型,逻辑回归的被解释变量是分类变量。
多元回归中,残差图的绘制,横为预测值,纵为残差。
回归系数中p>|z|表示参数显著性,超过0.05就是不显著。
在多元回归中,解释力度看r-squared。
SSE=n-p=No.observation-dfmodel-1;
SSR=p
聚类分析一般两种:
- 聚类:变量归一化-------分布转换(哑变量转换)-------主成分-------聚类。
- 发现异常值:变量归一化------主成分-------聚类。
系统聚类:可以帮助做分类决策,直观但不适合做大数据。
k-means:大样本就是k不能确定。
聚类是无监督学习。
时间序列
winter模型用于趋势成分和季节成分序列的预测。
hotl模型用于对线性趋势的预测。
分解法与winter相似。
在时间序列中,均值用于表述数据的趋势变化。
方差、标准差、偏度则用于描述离散程度和分布形状。
arma模式:
AR(p) | MA(q) | ARMA(p,q) | |
自相关 | 拖尾 | q步截尾 | 拖尾 |
偏相关 | p步截尾 | 拖尾 | 拖尾 |
影响时间序列:长期趋势变动、季节变动、循环变动、不规则变动。
自回归中AR对自己进行预测,数据需要平稳,如果不平稳需要做差分。
AM关注误差项的累计。
AR模型平稳的判别方法有:单位根判别法、平稳域判别法、时序图。
第六章
因果图又称鱼骨头,鱼头在右侧是原因型。
类型有三种:原因型、决策型、整理问题型。
鱼骨头中:鱼头是目标,鱼尾是问题和现状,鱼椎就是完成的过程和影响因素。
帕累托图:找到影响最大的少数因素。
散点图:两个变量之间的关系。
关联图:找多因素之间的关系。
亲和图:找到其他不易发现的关系。主要用于定性分析。
其他
用户标签是基于业务经验,有很强的主观性。
麦肯锡问题分析方法:恢复原状型、追求理想型、防范潜在型。
连续变量补充缺失值,使用插值法、EM算法、随机森林。
QQ图用来检验两个分布是否一样。
数据完整性:实体完整性、参照完整性、用户完整性。
五问法的角度:制造、检验、体系。
第二份模拟题
一、选择题
1、二次规划问题求解方法:拉格朗日法、内点法、椭球法
2、求解整数规划的方法:分支定界法、割平面法、隐枚举法
3、将普通线性规划问题转换为标准型:
(1)通过松弛变量或剩余变量将一般线性问题的约束条件中的不等式转化为等式
(2)通过变换(比如同乘以-1)将约束条件右端的常数转换为非负数
(3)将决策变量转换(比如加入新变量量)为非负数
4、是一非矩阵工具:用来理解似是而非的问题原因
5、整理问题型鱼骨图适用范围:各要素与特征值是结构构成关系
原因型鱼骨图适用范围:各要素与特征值存在原因关系
6、鱼骨图创建图形的方式:分散分析法、原因枚举图
7、自回归模型AR模型:
- (1)用自身的数据进行预测
- (2)时间序列数据必须具有平稳性
- (3)只适用于预测与自身前期相关的现象
- (4)关注模型中往期的影响的累加
8.非线性趋势预测:简单指数平滑、指数模型、多项式模型
9.消除模型异方差的方法:加权最小二乘法、方差稳定性变化法、Box-Cox变换法
10.逻辑回归的预测值=logit(P)=ln(P/1-P)
11、解决回归模型的多重共线性问题:
(1)逐步回归
(2)正则
(3)偏最小二乘
12.检验原始变量能否做因子分析的方法:相关系数矩阵、KMO检验、反映像相关矩阵
13.线性无关=协方差为0
14.假设检验的步骤:
(1)建立假设
(2)选择检验统计量
(3)给出拒绝域形式
(4)选择显著性水平
(5)给出拒绝域
15.置信区间:点估计+-置信度(根据置信水平决定)*标准误,标准误=标准差/sqrt(样本量)
16.按事件的发展过程来看,用户画像准确性验证分为事中和事后,其中事中指用户开发过程中,而事后则是指画像上线运用于业务后。不同阶段的验证方法也有所不同。
事中验证:模型验证指标、抽样验证、交叉验证
事后验证:真实数据验证、A/B Test、业务反馈数据验证
17、主数据:指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据);主数据是组织的最关键、最核心的数据,重点用来解决异构系统之间关键数据的不一 致、不正确、不完整等问题。
交易数据:交易数据是业务处理过程中或事物处理所产生的数据,也称业务数据。
元数据:描述数据的数据或关于数据的结构化数据;元数据是帮助查找、存取、使用和管理信息资源的信息
数据元:用一组属性描述定义、标识、表示和允许值的 数据单元,数据元由三部分组成:对象、特性、表示。
18.改变数据量纲的方法:归一化、z-score标准化、取对数
19、建立逆向评分:旧取值J个,则新取值=(J+1)-旧取值
20、根原因识别的工具:因果图、矩阵图、五问法等
21、严平稳:均值、方差、协方差等统计特征都不会受到时间的影响
22、宽平稳:假设一时间序列数据,均值、方差为常数,协方差只与时间间隔k有关
23.随机序列预测:简单指数平滑
Holt指数平滑:线性趋势预测
指数模型:非线性趋势预测
多项式模型:非线性趋势预测
24、多元线性回归模型的古典假设:
(1)残差的均值恒定为0
(2)同方差和无自相关假定
(3)随机扰动项与解释变量不相关假定
(4)无多重共线性假定
25、降维的方法:PCA(主成分分析)、FA(因子分析)、MDS(多维度尺度分析)
26、检测异常值的方法:箱线图、散点图、学生化残差指标
二、多选题
1.信息的组成:数据、元数据(描述数据的数据)
2.时间序列的组成成分:趋势、季节变动、循环变动、不规则变动,它们与观测值的关系可以通过加法模型和乘法模型
3.聚类分析时候,变量相似性的测量尺度:间隔尺度、顺序尺度、名义尺度
4.分层标签:RFM、客户价值
三.材料题
1.混淆矩阵指标讲解:
精度(precision, 或者PPV, positive predictive value) = TP / (TP + FP)
召回(recall, 或者敏感度,sensitivity,真阳性率,TPR,True Positive Rate) = TP / (TP + FN)
特异度(specificity,或者真阴性率,TNR,True Negative Rate) = TN / (TN + FP)
AUC:ROC曲线下面积
SST总方差的自由度为SSE+参数个数-1;
SSR=参数个数-1。
2.逻辑回归的参数计算方法:牛顿法、梯度下降法
3.使用哑变量的前提:建模中出现分类变量
4.数据标准化方法:Z-score标准化、区间缩放、向量单位化
检测异常值:箱线图、散点图、3sigma法则
5.时间序列数据:一个个体的不同时间下的数据
横截面数据:多个个体的同一时间下的数据
面板数据:不同个体的不同时间下数据
6.ARIMA(p,d,q):自回归差分移动平均模型,通过差分将非平稳时间序列转化为平稳时间序列,再用ARMA模型来处理
模型参数解释:p:偏自相关系数截尾阶数,q:自相关系数截尾阶数,d:差分的阶数(差分次数)