潜类别模型（Latent Class Modeling）

1.潜类别模型概述

潜在类别模型(Latent Class Model, LCM; Lazarsfeld & Henry, 1968)或潜在类别分析(Latent Class Analysis, LCA)是通过间断的潜变量即潜在类别(Class)变量来解释外显指标间的关联，使外显指标间的关联通过潜在类别变量来估计，进而维持其局部独立性的统计方法（见图1-1）。其基本假设是，外显变量各种反应的概率分布可以由少数互斥的潜在类别变量来解释，每种类别对各外显变量的反应选择都有特定的倾向(邱皓政，2008; Collins, & Lanza, 2010)。与潜在类别分析非常相似的是潜在剖面分析(Latent Profile Analysis, LPA)，区别在于前者处理分类变量，后者分析连续变量。

图1-1 LCM示意图

LCM是根据个体在外显指标上的反应模式即不同的联合概率来进行参数估计的统计方法。例如，一份数学测验有10个判断题，数学能力高的个体可能全部正确的回答所有题目，能力低的学生只能正确回答容易的题目，能力中等的学生可能回答全部容易和部分困难的题目。不同能力水平的学生在正确回答不同难易水平的题目时表现出某种相似性，因此通过学生回答题目的情况可以将其分为不同的能力水平组。LCM分析逻辑的就是根据个体在外显项目上的反应模式将其分类。

1.1数学表达式

（1）潜类别分析模型

可以从方差分析的角度理解LCM。方差分析的特点是将方差分解成不同的来源，常见的有组间vs.组内和被试间vs.被试内。在LCM中，可以将方差分解为类别内和类别间(Sterba, 2013)。

根据局部独立性(local independence)假设，类别内的任意两个观测指标间的关联已通过潜类别变量解释，所以它们之间已没有关联。根据独立事件联合发生的概率等于单独发生概率之积的原理，在每个类别内部，多个两点计分项目的联合概率可以表示为：

上式中，表示个体i在指标j的两个选项y=1或y=0的得分。下标j表示2点计分的指标，c为潜类别变量，有k个水平。

同时考虑多个类别水平时，上式扩展为：

表示某一类别组k所占总体的比率，亦称潜类别概率。

（2）潜剖面分析模型

当观测指标为连续型变量时，LCM称作潜在剖面分析(Latent Profile Modeling, LPM)。此时，将连续指标的方差分解为类别/剖面间和类别/剖面内方差(Lazarsfeld & Henry, 1968)：

其中和为剖面k内指标i的均值和方差。为类别概率，即每个类别个体占全体的比例。当满足局部独立性和同质假设时，上式简化为：

1.2 类别概率和条件概率

在LCM中，有两个非常重要的参数：潜类别概率和条件概率(Conditional Probability)。潜在类别概率类似与FA中的解释方差比例。在FA中，解释方差比例说明每个因子在解释数据时所占的分量。LCM的潜在类别概率类则用于将样本分成不同比例的类别。换句话说，潜在类别概率就是用于说明各个类别的人数比例。例如，根据1000个被试在4个观测指标上的得分情况将其分成3个潜在类别，潜在类别概率为70%，25%和5%，表示第1类有700个被试占70%，第2类有250个被试占25%，第3类有50个被试占5%。

条件概率指潜类别组内的个体在外显指标上的作答概率。例如，类别潜变量C有3个类别C1，C2和C3，外显指标A有3个选项，C1的条件概率就是计算C1内的个体在A的三个选项上的选择比例。依次类推，C2和C3也可以计算各自在A上的条件概率，共9个（每个类别有三个）。由于T1内的个体必然在A的三个不同选项的某个特定选项上选择，所以类别内的条件概率总和等于1，公式如下。

表1-2中呈现了下文探索性LCA分析时4个类别在前5个指标选项1上的条件概率和潜类别概率。

表1-2条件概率和类别概率

潜类别		条件概率				潜类别概率
潜类别	T1	T2	T3	T4	T5	潜类别概率
C1	.390	.435	.276	.184	.182	.2054
C2	.903	.963	.951	.872	.943	.2946
C3	.493	.710	.468	.339	.538	.3357
C4	.739	.790	.883	.551	.883	.1643

注：T1-T5为五个项目；由于每个项目只有两个选项所以表中只呈现了在一个选项上的条件概率，在第二个选项上的条件概率为1减表中数值。

条件概率与因子负荷类似，表达潜变量与外显变量之间关系的强弱。各潜在类别的概率总和以及每个外显变量的条件概率总和都为1，这是LCA模型的基本限制条件；也可以根据特定研究的相关理论对参数进行限定。

一旦最优的LCA模型拟合成功，就需要将每个个体归入不同的潜在类别。换句话说，就是确定每个个体的潜类别属性(Class Membership)。在LCA中，采用的分类依据是贝叶斯后验概率(Posterior Probability)，公式如下。

后验类别概率是根据个体的作答类型，在LCA拟合后估计得来，其值表示个体属于某一类别的概率。根据个体后验概率的最大值将其归入特定类别。例如，某个体X在四个类别上的后验概率分别为.80, .10, .05和.05。根据此值，X在第一类别中的概率值最高，所以应该将归入第一类。在Mplus中，后验概率和个体分类如下命令获得：

表1 LCM分类概率的Mplus语句

SAVEDATA: FILE=ptsd-lca-4.txt;（保存文件名）。

SAVE=cprob;（要求报告后验概率）。

潜类别模型（Latent Class Modeling）的更多相关文章

R数据分析：潜类别轨迹模型LCTM的做法，实例解析
最近看了好多潜类别轨迹latent class trajectory models的文章,发现这个方法和我之前常用的横断面数据的潜类别和潜剖面分析完全不是一个东西,做纵向轨迹的正宗流派还是这个方法,当 ...
mplus数据分析：增长模型潜增长模型与增长混合模型再解释
混合模型,增长混合模型这些问题咨询的同学还是比较多的,今天再次尝试写写它们的区别,希望对大家进一步理解两种做轨迹的方法有帮助. 首先,无论是LCGA还是GMM,它们都是潜增长模型的框框里面的东西: L ...
海量数据挖掘MMDS week4: 推荐系统之隐语义模型latent semantic analysis
http://blog.csdn.net/pipisorry/article/details/49256457 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
LFM隐语义模型Latent Factor Model
实际应用 LFM 模型在实际使用中有一个困难,就是很难实现实时推荐.经典的 LFM 模型每次训练都需要扫描所有的用户行为记录,并且需要在用户行为记录上反复迭代来优化参数,所以每次训练都很耗时,实际应用 ...
推荐系统--隐语义模型LFM
主要介绍隐语义模型 LFM(latent factor model). 隐语义模型最早在文本挖掘领域被提出,用于找到文本的隐含语义,相关名词有 LSI.pLSA.LDA 等.在推荐领域,隐语义模型也 ...
Stat3—因子分析（Factor Analysis）
题注:主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型.主成分分析:原始变量的线性组合表示新的综合变量,即主成分:因子分析:潜在的假想变量和随机影响变量的线性组合 ...
PCA主成分分析 R语言
1. PCA优缺点利用PCA达到降维目的,避免高维灾难. PCA把所有样本当作一个整体处理,忽略了类别属性,所以其丢掉的某些属性可能正好包含了重要的分类信息 2. PCA原理条件1:给定一个m*n ...
R语言实战（九）主成分和因子分析
本文对应<R语言实战>第14章:主成分和因子分析主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量成为主成分. 探索性因子分析(EFA)是 ...
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍一
Latent Semantic Analysis (LSA) Tutorial 译:http://www.puffinwarellc.com/index.php/news-and-articles/a ...

随机推荐

Autofac Mvc注入
private void DependencyInjection() { var builder = new ContainerBuilder(); builder.RegisterControlle ...
C# 简单生成双色球代码
红球篮球产生代码 public class TestD { //产生几组数据 public void getzhu( int num) { ; m < num; m++) { getred(); ...
qt Cannot connect creator comm socket /tmp/qt_temp.S26613/stub-socket: No such
Tool->Options->Environment->General 将terminal改为 xterm -e
jstree 取消选中父节点
问题说明: 当选择子节点时,它的父节点只有一个子节点的情况下,默认会选中父节点. 当前应用场景: 不需要选中当前的父节点实验截图: 修改部分: jstree.js 信息
New Concept English Two 7
$课文14 你会讲英语吗? 133. I had an amusing experience last year. 去年我有过一次有趣的经历. 134. After I had left a smal ...
CtaAlgo vs PyAlgoTrade
转自知乎:https://zhuanlan.zhihu.com/p/21971854 在Python量化领域,PyAlgoTrade和zipline并列两大策略回测框架的先驱,其中PyAlgoTrad ...
JavaScript的this原理
this原理理解下面两种写法,可能有不一样的结果. var obj = { foo: function () {} }; var foo = obj.foo; // 写法一 obj.foo() // ...
iis6 , URL重写HTM文件名后,出现真实的HTM文件不能访问的解决
服务器环境是windows 2003 IIS6 在web.config文件中加入 1.在<compilation debug="true"> 节点加入 <buil ...
ambassador 学习一基本试用
安装使用docker for mac Without RBAC 安装ambassador 安装 kubectl apply -f https://getambassador.io/yaml/ambas ...
solr5.5.0在CenOS上的安装与配置
solr5.5.0在CenOS上的安装与配置 1. Solr简介 Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XS ...

潜类别模型（Latent Class Modeling）

潜类别模型（Latent Class Modeling）的更多相关文章

随机推荐

热门专题