一.方差分析
水平:因素的不同状态,分组是按照因素的不同水平划分的
因变量:在分组试验中,对试验对象所观测记录的变量,它是受各因素影响的变量
常见的方差分析类型:单因素方差分析,多因素方差分析
单因素方差分析:是指检验由单一因素影响一个因变量的组间差异是否显著
多因素方差分析:对一个响应变量是否受多个因素影响进行分析,常用的是双因素方差分析
方差分析的基本思路就是判断样本均值的变异是由于因素的不同水平造成的,还是纯粹由于随机因素造成的
总变差:总体数据的离差平方和,包括组间离差平方和以及组内离差平方和
组间离差平方和:反映的是组间之间的差异程度
组内离差平方和:反映的是组内变量之间的差异程度
我们知道,所有样本数据的离差肯定和样本个数有关,所以为了消除样本个数对离差平方和的影响,需要将其除以个数进行平均,这就是均方。具体的计算方法就是用离差平方和除以相应的自由度
组间方差受因素A和随机因素影响
组内方差只受随机因素影响
自由度:是指样本中独立或者能自由变化的自变量的个数
在估计总体的平均数时,由于样本中的N个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以自由度为N
但在估计总体方差时,使用的是离差平方和
在估计总体方差前,均值就已经确定了,如果知道了其中N-1个数的离差平方和,第N个数的离差平方和也就确定了
这里,均值就相当于一个限制条件,由于加了这个限制条件,所以总体方差的自由度为N-1
组间方差就是用组间离差平方和除以自由度,这里的自由度是R-1,其中R是因素水平个数,也就是总体数据分成了多少组。因为确定了R-1个组之后,第R个组就确定了,所以这里的自由度就是R-1
组内方差就是利用组内离差平方和除以自由度N-R。因为组内方差求的是组内的差异,每个组内数据不需要和自身计算离差,一共R个组,所以自由度就是用总体数据N减去R
了解了数据间的组内差异和组间差异之后,我们需要借助一个统计量来检验因素对结果的显著影响,我们用组间差异除以组内差异来表示,也就是检验统计量F
双因素方差分析有两种类型:无交互作用的双因素方差分析和有交互作用的双因素方差分析
无交互作用的双因素方差分析:它假定因素A和因素B的效应之间是相互独立的,不存在相互关系
有交互作用的双因素方差分析:它假定因素A和因素B的结合会产生出一种新的效应
二.主成分分析
主成分分析和因子分析都是多元分析中的一种降维的统计方法,在我们的日常应用中很常见,而且应用也非常广泛
这种方法的原理就是可以有效地找出数据中最主要的元素和结构,去除噪音和冗余,揭示隐藏在复杂数据背后的简单结构
过度拟合的模型实际上包含了错误的信息,预测能力很差
因为模型和软件,会把噪音当成了信息进行拟合,使得拟合优度超过了理论的最优拟合度
将多个变量浓缩成少量变量,就涉及到主成分分析
作用:减少特征数;减少噪音和冗余;减少过度拟合的可能性
如果用多个指标分析一个问题的时候,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等地纳入模型,就会导致结果失真
在几何图形上,主成分分析是如何实现降维的呢?
首先看三维数据是如何转化成二维数据
三维立体空间内的任意一点都可以用(x1,x2,x3)来表示,我们将这些点映射到二维平面上,这个平面就是(x1,x2)组成的平面
同样的,一组二维数据也可以转化成一维数据
比如说,下面左边这个图是一个平面空间的二维表,平面上每个点都可以用坐标(x1,x2)来表示,我们按照逆时针旋转坐标系,旋转一定的角度之后得到右边这张图
在旋转过程中,尽量使这些点在一个方向上,只保留一个坐标轴,使纵向的坐标轴的数据尽可能都为0,这样我们就可以将一组二维数据转化成一组一维数据
对于二维平面的数据,我们将x1轴和x2轴先平移,再同时按逆时针方向旋转一定的角度,得到新坐标轴C1,C2,其中C1,C2是两个新变量
在旋转的过程中,我们尽量让数据在C1方向上的方差最大,所以在新坐标中,数据的发散程度主要在C1方向上,C1是原始数据变差最大的方向,而在C2方向上,数据相对集中
结论:主成分分析在几何意义上就是旋转坐标轴,使数据在这个坐标轴上的方差最大
三.因子分析
因子分析也是多元统计方法中常见的一种,和主成分分析一样,也是采用降维的思想,而且已经被各行业广泛应用
虽然两者都是降维的思想,但在实际的应用中,这两种方法又有自己不同的侧重点
主要思路:降维,简化数据结构
目的:将(具有错综复杂关系的)变量综合为(数量较少的)因子,以再现原始变量与因子的关系
原理:人的心理结构具有层次性,即分为外显和内隐。一个人的内在自我会在相当程度上决定他的外在行为特征,表现为某些行为倾向具有高度的一致性或相关性。反过来说,我们可以通过对个体进行系统的观察和测量,从一组高度相关的行为倾向(可观测)中,探索到某种稳定的内在心理结构(潜在的)
这种内在规律的探索,就是因子分析所能做的
四.聚类分析
能干的聚类专家善于在细微处见功夫,善于找出某些子集的特色,把大集合中的对象凝聚成若干个特色小簇,小集合,使得簇内相似度大,簇间相似度小
聚类技术的应用非常广泛,中文中有很多类似“同某”的词汇,如同学,同乡,同事,同胞,还有数学上的同态,同构,都是聚类技术的具体应用
像“同学”,“同乡”等名词,对应英文单词attribute(属性),在敬酒技巧中可泛称为同A技巧
它是用来表明:我们之间是有共同属性的,目的是借此来拉近彼此的距离
一句话:敬酒就是通过套近乎是自己进入到某个簇中
需要说明的是:对于聚类,我们既可以用某一项指标来分类,也可以同时考虑多项指标来分类
分类:就是按照某种标准,给对象贴标签,再根据标签来区分归类
聚类:是指事先没有“标签”,而是通过某种成因分析找出事物之间聚集的原因
聚类和分类的区别
分类是按照事先定义好的分类体系进行分类;聚类不存在分类体系,类别在聚类过程中自动生成
分类是被动的,聚类是主动的:分类代表了人们主观意志对分类过程的监督,它是被动的划分类别;聚类遵循的是“物以类聚,人以群分”的道理,所以聚类对象是主动自发
聚类分析的目的:根据某种准则(最短距离法,最长距离法,中间距离法,重心法),使同一类内的差别较小,而类与类之间的差别较大,将相似的事物归类,从而简化分析对象
随着人类科学技术的发展,对分类的要求越来越高,以致于仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,之后就形成了聚类分析
聚类分析是通过建立一种分类,将一批样本按照在性质上的亲疏程度,在没有先验知识的情况下自动进行分类的过程
其中:类内个体具有较高的相似性,类间的差异性较大
亲疏程度:指的是数据间的相似程度或差异程度,距离越近,越亲密,聚成一类,距离越远,越疏远,分别属于不同的类
分类:系统聚类或分层聚类,快速聚类,两步聚类
1.系统聚类
定义:将若干个体分成若干类的方法
基本思想:先将每一个体各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止
系统聚类不需要事先规定好分几类,开始时有多少点就是多少类
2.K均值聚类
也叫快速聚类
它要求事先说好要分多少类,所以看起来有些主观
步骤:假定分3类,K均值聚类要求事先确定3个点为“聚类种子”,也就是说,把这3个点作为三类中每一类的基石;然后根据和这三个点的距离远近,把所有点分成三类;再把这三类的中心(均值)作为新的基石或种子(原来的种子就没用了),重新按照距离分类
系统聚类通常用于数据量较少的情况下,如果数据太大,系统聚类会很慢很低效,而且系统聚类无需事先指定分成几类
K均值聚类法占内存少,计算量小,处理速度快,特别适合处理大样本数据,而且数据量越大,准确性越高,但是需要我们事先指定聚成几类