潜类别模型(Latent Class Modeling)
潜在类别分析(LCA)数据分析流程(详细版) - 简书 (jianshu.com)
R数据分析:用R语言做潜类别分析LCA - 知乎 (zhihu.com)
About Latent Class Modeling - Statistical Innovations
1.潜类别模型概述
潜在类别模型(Latent Class Model, LCM; Lazarsfeld & Henry, 1968)或潜在类别分析(Latent Class Analysis, LCA)是通过间断的潜变量即潜在类别(Class)变量来解释外显指标间的关联,使外显指标间的关联通过潜在类别变量来估计,进而维持其局部独立性的统计方法(见图1-1)。其基本假设是,外显变量各种反应的概率分布可以由少数互斥的潜在类别变量来解释,每种类别对各外显变量的反应选择都有特定的倾向(邱皓政,2008; Collins, & Lanza, 2010)。与潜在类别分析非常相似的是潜在剖面分析(Latent Profile Analysis, LPA),区别在于前者处理分类变量,后者分析连续变量。
一、潜在类别分析的基础知识
潜在类别分析是潜在变量分析的一种,是将潜在变量理论与分类变量相结合的一种统计分析技术,是探讨存在统计学关联的分类外显变量背后的类别潜在变量的技术。LCA的目的在于利用最少的潜在类别数目解释外显分类变量之间的关联,并使各潜在类别内部的外显变量之间满足局部独立的要求。
1)潜在变量与外显变量
潜在变量与外显变量,也称潜变量与显变量,是结构方程模型中的两种主要变量。
外显变量是指日常生活中能够直接观测、统计的变量。
潜在变量是指不能被直接精确观测,或虽能被观测但尚需通过其它方法加以综合的指标。
一个潜在变量往往对应着多个外显变量,可以看作是对应的多个外显变量的抽象和概括,外显变量则可视为特定潜在变量的反映指标。
2)连续变量与类别变量
依据统计学概念,连续变量(continuous variables)指在一定区间内可以取任意值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。连续变量的测量结果是有意义的数值反应强度,例如身高几公分、体重几公斤等。在潜在变量分析中,即使被测量的结果是离散数值、无法作更精确的切割(例如家庭人数),但由于其数值具有测量大小的意义,可以进行加减乘除四则运算,也认为是连续变量的概念。
类别变量(categorical variables)是指仅仅代表某一特定类别,类别之间互有差别,但不能做四则运算的变量,例如性别、居住地区、宗教信仰、教育水平、医学上的疾病分类、牛物上的物种分类、管理学中的成功失败、对商品的满意程度等等。这些变量充斥着牛活,很容易被观察与测量,但其反映的是测量对象在本质上的类型上的差异,而非测量程度大小的概念,因此多半以人为的方式予以定义。
多半W人为的方式予以定义。
3)潜在变量分析与潜在类别分析
潜在变量分析与潜在类别分析都是研究潜在变量与外显变量关系的手段,区别在于分析变量的类型,潜在类别分析是潜在变量分析的一种特殊情况。
潜在类别模型(latent class model, LCM)是探讨LCA的模型化分析技术。
它与传统因素分析最大的不同在于变量的形式:因素分析处理的是连续变量,潜在类别模型处理的是类别变量。一个完整的LCM的建立需要经过模型的概率参数化与模型构建、参数估计与模型拟合、潜在分类三个步骤。