聚类与判别分析概述
基本概念
聚类分析
聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本又聚合为一类。根据分类对象的不同,聚类分析可分为对样本的聚类和对变量的聚类两种。
判别分析
判别分析是判别样本所属类型的一种统计方法。
样本间亲疏关系的度量
连续变量的样本间距离常用度量
主要方法有欧氏距离(Euclidean Distance)、欧氏平方距离(Squared Euclidean Distance)、切比雪夫距离(Chebychev Distance)、明可斯基距离(Minkowski Distance)、用户自定义距离(Customize Distance)、Pearson相关系数、夹角余弦(Cosine)等
顺序变量的样本间距离常用度量
常用的有 统计量(Chi-square measure)和 统计量(Phi-square measure)。
二者区别
不同之处在于,判别分析是