数据科学导论

《数据科学导论》

重点归纳

第1~4章

数据科学研究的问题边角广泛，只要是和数据收集、清洗整理、分析和挖掘有关的问题都是数据科学要研究的问题；
数据科学的主要方法：有监督学习、无监督学习、半监督学习；
有监督学习中，既存在因变量，也存在自变量，研究的问题主要分为回归和分类两大问题，因此利用回归模型探究自变量如何影响因变量的过程属于有监督学习；
无监督学习经典的方法有聚类分析、主成分分析、因子分析、关联规则、社交网络等，注意，主成分回归涉及回归问题，因此不属于无监督学习；
初始数据中，往往存在缺失值、重复值、异常值或者错误值，我们通常将这些数据称为“脏数据”；
常见的数据类型有：分类数据、有序数据、区间数据、比例数据；
从数据缺失的分布来讲，缺失值可以分为完全随机缺失、随机缺失和完全非随机缺失；
缺失数据的处理方法有三种，分别是直接删除、均值插补法、多重插补法；
数据噪声是指数据中存在的随机性错误或偏差，噪声数据的处理方法有分箱、聚类分析和回归分析等；
数据变换包括平滑、聚合、泛化、规范化、属性和特征的重构等操作；
数据规范化的常用方法：（1）标准差标准化；（2）极差标准化；（3）极差正规化；注意，最大——最小规范化不属于数据规范化；

第5章

线性回归中的重要步骤：建立回归模型，参数估计，参数统计检验、变量显著性检验；
线性回归的参数估计采用的方法是最小二乘法；
在模型参数估计中，需要考察参数估计量的统计性质，主要包括线性性、无偏性和有效性；
线性回归模型的预测主要有两种预测，分别是点预测和区间预测；
拟合优度检验是对回归拟合值与实际观测值之间拟合程度的一种检验。度量拟合优度的指标主要是判定系数（可决系数）R2，其取值范围是[0,1]，越接近1，说明实际观测点离样本线越近，拟合优度越高；
一元线性回归的Excel结果分析：

图中，x表示广告费用（单位：万元），因变量为汽车销售量（单位：辆）。
本结果中，y=2.03x+363.69，意为若增加1万元的广告费用，汽车销售量会增加2.03辆；模型显著性检验的t值为19.98，对应的p值远小于0.05，因此认定广告费用显著影响汽车销售量。R2其取值为0.9756，模型拟合较好。
该模型仍有一定的改进之处，例如其它影响因素未考虑、样本量较小等；

第6章

回归模型是假设因变量Y是定量的，分类问题是假设因变量Y是定性的；
线性分类问题可以建立的模型有线性概率模型、Logit模型、Probit模型；
线性概率模型的优点是可以采用普通的最小二乘法对待估参数进行估计，系数本身具有实际意义，即自变量变化一个单位后，因变量会出现的概率上升（下降）多少。但是线性概率模型也有缺点，其一是再利用线性概率模型进行预测时，因变量会出现大于1或者小于0的情形；其二是扰动项是二项分布而不是正态分布；其三在线性改模型中，扰动项是异方差的；
利用概率分布函数将带有自变量和扰动项的主体部分“复合”，构成新的可以分析线性分类问题的模型。如果采用的概率分布函数是标准正态分布，则模型称之为Probit模型；如果采用的概率分布函数是Logistics分布函数，则模型称之为Logit模型；
在Probit模型和Logit模型中，自变量对Y取值为1的概率的边际影响并不是常数，它会随着自变量的变化而变化。因此，对于Probit模型和Logit模型来说，需要计算平均边际效应。

第7章

在模型训练过程中，一般可以通过训练误差和测试误测来衡量模型的拟合程度；
P95页图7-1，随着模型复杂度的增加，模型的训练误差会一直减小并趋向于0（最后的模型就是逐点拟合，即出现了过拟合）。模型的测试误差则不然，通常在模型过于简单是，误差偏高，此时模型欠拟合。随着模型复杂度的增加，测试误差会先减少后增加。但无论是欠拟合还是过拟合，模型的推广预测能力都较差。
常用的重抽样的方法有交叉验证法和自助法；

第8章

模型选择是指利用统计方法，从众多变量中选择显著的、最能解释因变量变化的那一部分自变量参与建模。
模型选择的方法通常可以分为三类：传统的子集选择发【包括最后子集法和逐步选择法】、基于压缩估计【正则化】、降维法。
本章模型选择实质是指当回归模型中自变量之间存在多重共线性时的解决方法。
逐步选择法主要分为向前逐步选择法、向后逐步选择法；
模型选择的依据主要有Cp值、AIC准则、BIC准则、调整的R2；
回归模型中存在多重共线性的危害：第一，会导致整个回归模型的拟合优度较大，但是对于单个的解释变量系数显著性检验可能无法通过，或者系数大小不合理；第二，增加解释变量的个数，会使得原有解释变量的系数估计值发生较大的变化；第三，共线性的存在不会改变系数的无偏性，但是会增加系数的方差，失去了有效性；
共线性检验方法：VIF【一般的，VIF值大于10，说明存在共线性】、相关系数法【两个变量之间的相关系数值大于0.7/0.8】；
共线性解决方法：第一，不解决【前提条件，关心的核心解释变量与共线性的变量无关】；第二，扩充样本量；第三，逐步回归【向前逐步回归、向后逐步回归】；第四，惩罚函数【原理：损失部分无偏性以达到有效性】；
逐步回归的缺陷：逐步回归之后，模型中共线性问题仍然存在；逐步回归可以降低共线性，但是不能消除共线性，而且，逐步回归有可能会剔除我们关心的核心解释变量；
两类惩罚函数：岭回归和Lasso惩罚【不同点，岭回归在估计参数的同时不可以选择变量，Lasso惩罚在估计参数的同时可以选择变量】
例：某数据分析员欲研究企业资产状况与负债状况对企业获得银行信贷规模的影响，他采集了一些数据，利用Stata软件分析，得到如下结果。根据结果回答：

[注：yhxd表示企业获得银行信贷数量，zzc表示企业总资产，gdzc表示固定资产，ldzc表示企业流动资产，zfz表示企业总负债，ldfz表示企业流动负债]

写出程序结果表示的模型表达式与各自变量的显著性检验，并解释其实际意义；

上图显示了对各变量的VIF检验，从这个检验中你能得出什么结论，并说明这个结论会对研究本身产生什么危害？

如果你是该数据分析员，为了避免（2）中的问题，你会怎么做？（6分）

（1）模型表达式：

yhxd=-0.5335zzc+0.2387gdzc-0.4919ldzc+0.2177zfz+1.3427ldfz+4.2107

所有的自变量均在95%的置信水平下显著，说明总资产、固定资产、流动资产、总负债、流动负债显著影响银行信贷规模；

（2）VIF检验显示，模型中存在较为严重的多重共线性；多重共线性危害参见[31];

（3）怎么解决多重共线性，参见[33]

第9章

基于树的方法是数据科学、机器学习里最常用的方法之一，本质上它是一种非参数方法，不需要实现对总体的分布做任何假设。决策树的算法有很多，最为经典的是CART；
CART的基本思想是一种二分递归分割方法，在计算过程中充分利用二叉树，在一定的分割视角下将当前样本集分割为两个子样本集，使得生成的决策树的每个非叶节点都有两个分裂，这个过程有在子样本集上重复进行，直至无法再分成叶节点为止；
决策树包含有3种节点，分别为根节点、中间节点、叶节点；
决策树的优点：易理解、解释性强；不需要任何先验假设；与传统的回归和分类方法比，更接近人的大脑决策模式；可以用图形展示，可视化效果好，非专业人士也可以轻松解释；可以直接处理定性的自变量，而无须像线性回归那样将定性变量转换成虚拟变量；
决策树的缺点：方差大、不稳定，数据很小的扰动可能得到完全不同的分裂结果，有可能是完全不同的决策树；
通过组合算法可以降低方差，显著提升预测效果：Bagging、随机森林、Boosting；

第10、11章（略）

第12章

无监督学习的主要方法：聚类分析、主成分分析、因子分析和典型相关分析。

一、数据科学的主要研究方法？说明两种常用的聚类方法？

答：有监督无监督半监督具体看上面

K-means聚类是一种把数据集分成k个不同类的简单快捷的方法，其基本思想是一个好的聚类方法应该使类内差异小。

系统聚类法不需要事先设定类数K，是将给定的数据集进行层次的分解，直到满足某个条件为止。

二、简述ROC曲线的绘制过程

答：对于给定的分类器和数据集，我们只能得到一个分类结果，即一对FPR和TPR的值。这是远远不够的，所以，我们需要通过分类器得到所有样本的概率输出，并将其从小到大排序，依次作为将概率作为阈值，当样本输出大于这个值时，我们成为正样本，反之为负样本，这样每次我们就可以得到一对FPR和TPR，我们，将阈值端点设为0和1，以fpr为横轴，tpr为纵轴，将得到的每对FPR、TPR在图上连起来，这样就得到了roc曲线了。选取的阈值越多，roc越平滑。

三、如果有多种回归方法，如何评价哪种更好？

答：看拟合优度即可决系数R2=ESS/TSS=1-RSS/TSS,R2越接近1，回归方法越好

看估计误差，估计误差越小，回归方法越好

分析残差，残差越小，越好

通过K折交叉验证法，得到测试误差，越小，越好

四、逐步选择方法有哪些？

向前逐步选择法：依次向模型中添加变量，每次只能将能够最大限度地提升模型效果的变量加入，直到所有预测变量都在模型中。

向后逐步选择法：从含有所有的变量开始，依次剔除不显著的变量

向前向后选择法：边加入边剔除

五、简述lasso惩罚的基本思想、原理，并画图解释

思想：通过惩罚约束模型的回归系数，同步实现变量选择和系数估计。

原理：

Lasso惩罚函数可以起到减小变量的作用，当拉姆达大到一定程度时，可将部分系数压缩为0，这样就可以实现连续的变量选择，剔除掉比较小的北塔的值。

如图，lasso的求解在正方形范围内，找到最小二乘法函数的最小值，也就是找到与菱形相交的最小椭圆，若交点正好在定点时，会出现某一回归系数北塔为0，这样在估计参数的同时就实现的变量选择。

六、k折交叉验证法的基本思想和算法？

七、测试误差的含义，并画图解释模型复杂度与测试误差的关系？

答：将拟合的模型用于一个新的观测集上，来预测对应的因变量所产生的平均误差，它衡量一个模型的推广推广预测能力。

随着模型复杂度的增加，测试误差会先减少后增加。

八、简述过拟合和欠拟合，如何可以减轻过拟合现象？

答：模型过于简单，偏差较大，方差较小，误差高欠拟合

随着模型复杂度的增加，模型的训练误差会一直减小并趋于0，方差逐渐增大过拟合

增加训练集的规模，使模型简单化，降低模型复杂度，采用正则化方法

九、简述何为决策树，及决策树分类的流程？

答：决策树一般是自上而下生成的。每个决策或事件（即自然状态）都可能引出两个或多个事件，导致不同的结果，把这种决策分枝画成图形很像一棵树的枝干，故称决策树。

根据解决的问题的不同，将决策树分为分类树和回归树。

将自变量空间分割成j个互不重叠的区域。对落入区域r的每一个观测都将其预测为r上训练集的响应值的简单算数平均

十、简述何为随机森林，以及如何用随机森林分类？

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。

随机森林是通过对树做了去相关处理，从而实现对把bagging改进的一种算法。随机森林在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。在随机森林中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数k控制了随机性的引入程度。若令k=d，则基决策树的构建与传统决策树相同；若令k=1，则是随机选择一个属性用于划分。在MLlib中，有两种选择用于分类，即k=log2(d)、k=sqrt(d)；一种选择用于回归，即k=1/3d。

十一、简述最大间隔分类器的原理及构造最大间隔分类器的流程