如何检验测量模型不变性在结构方程的多组比较中
结构方程的分组比较是一种统计方法,用于在多个不同群体或样本之间比较结构关系的一致性或差异。这种方法基于结构方程模型(SEM),通过对比不同组之间的标准化路径系数估计,来评估结构关系的稳定性和普遍性。通常当研究者想要考察调节效应的时候, 调节变量又是一个分类变量, 我们就会使用多组比较的方法,英文叫 Multigroup SEM。
结构方程的分组比较是一种统计方法,用于在多个不同群体或样本之间比较结构关系的一致性或差异。这种方法基于结构方程模型(SEM),通过对比不同组之间的标准化路径系数估计,来评估结构关系的稳定性和普遍性。通常当研究者想要考察调节效应的时候, 调节变量又是一个分类变量, 我们就会使用多组比较的方法,英文叫 Multigroup SEM。
我们经常比较两个模型哪个拟合更好, 比如在调节效应的分析中,
如果调节效应显著,我们就期望增加交互项应该可以提高模型的拟合度,
那么我们应该如何做呢?
多水平验证性因子分析是一种在Mplus中用于分析复杂调查数据的方法。这种方法包括两个或更多水平的数据,每个水平代表一个不同的数据来源或测量层次。例如, 你的数据来自于多个学校的学生,学生是以学校为单位抽取得到的, 那么学生数据之间存在相关性。 比较适合多水平的验证性因子分析(Multilevel Confirmatory Factor Analysis,以下简称 MCFA 。
在纵向数据中, 一个个体会被测量多次, 我们将每个时间点的数据作为样本, 那么时间点是嵌套在个体之中的,
这种结构的数据与前面的嵌套数据结构是一致的。
因子分析主要有两种:一种旨在探索新的因子结构(探索性因子分析),另一种旨在已经确立的因子结构中验证结构的合理性。
在本篇文章中,我们重点关注的是两者的不同使用环境,我们大部分人都用错了。
探索性因子分析(Exploratory Factor Analysis,EFA)是多元统计分析技术的一个分支,主要用于研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个潜变量(即因子)来表示基本的数据结构。这种方法有助于将具有错综复杂关系的变量综合为少数几个核心因子,从而实现对数据的降维处理。
在探索性因子分析中,一旦因子被抽取出来,确定保留因子的个数就变得非常关键。常用的确定因子个数的准则包括特征值大于1准则(eigenvalue greater than 1 rule)和碎石图(scree test)。 其实还有其他的方法比这两个方法更准确,也更合理, 但是因为这两种方法最简单, 最终他们被使用的频率最高。不过,这两个标准往往也是有分歧的, 也就是说大于1的特征值的因子可能有3个, 但是根据碎石图可以提取4个, 这种情况很普遍, 这就告诉我们任何一种标准都不是一定正确的。
此外,探索性因子分析也有助于建立新的假设和发展新的理论,尤其在理论架构尚不清晰或需要进一步完善的情况下,这种方法能够发挥重要作用。
第一个提出探索性因子分析的是英国心理学家Charles Spearman。他在1904年发表了一篇著名论文《对智力测验得分进行统计分析》,提出了单一化的智能因子,这被视为探索性因子分析的起点。
探索性因子分析是通过研究多个变量之间的相关系数来找出内部依赖关系,并从错综复杂的变量中找出为数不多的关键变量,以再现原始变量与因子之间的相互关系。这种分析方法旨在简化复杂问题,避免人为因素的干扰,从而更加客观准确地评判事物及其中存在的规律。
随着研究的深入,探索性因子分析的应用领域逐渐扩大,从最初的心理学和教育学拓展至经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域,都取得了非常显著的成绩。
如需更多关于探索性因子分析的信息,建议查阅统计学相关书籍或咨询统计学专家。
验证性因子分析(Confirmatory Factor Analysis,CFA)是对社会调查数据进行的一种统计分析,主要测试一个因子与相对应的测度项之间的关系是否符合研究者所设计的理论关系。这是一种使用样本数据对已经根据某些理论、先验知识作出的因子结构假设进行验证的过程。
在验证性因子分析中,研究者首先会开发调查问卷,对应于每一个研究者所感兴趣的理论变量,问卷中往往有多个问题。例如,研究者对顾客的忠诚度感兴趣,忠诚度可能用购买频率、主观评估、消费比例等多个问题来衡量。这个理论变量就是因子,这些个别问题是测度项。验证性因子分析就是要检验这些测度项是否真的可以反映该理论变量。
验证性因子分析是结构方程模型的一种常见应用,它的主要用途包括:针对成熟量表进行效度分析,如结构效度、聚合(收敛效度)和区分效度;用于组合信度的分析;进行共同方法偏差(CMV)检验;以及进行权重计算。
验证性因子分析(Confirmatory Factor Analysis,CFA)最早是由瑞典统计学家于1969年提出。这种方法主要是将因子分析和路径分析等统计技术结合起来,能够同时估计因子结构和因子关系,且允许研究者将观察变量依据理论或先前假设建构模型,再来评价因子结构和样本资料的匹配吻合程度。它是社会及行为科学学者验证量表是否符合所收集资料的重要方法。
探索性因子分析(EFA)和验证性因子分析(CFA)都是重要的统计分析方法,用于研究变量之间的关系和数据结构。然而,它们在目的、应用前提以及操作上存在着显著的区别。
首先,探索性因子分析的主要目的是寻找影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度,以揭示一套相对较大的变量的内在结构。它没有先验信息,研究者通过因子载荷凭知觉推断数据的因子结构。因此,探索性因子分析通常用于初步了解数据的结构,为后续的理论构建或假设生成提供基础。
而验证性因子分析的主要目的是验证研究者事先定义的因子模型是否拟合实际数据,即检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。验证性因子分析有明确的先验信息,它基于理论预期来检验因子结构,以确保数据与理论的契合度。
在操作层面上,探索性因子分析相对简单,只需要将所有量表题放入,设定想要输出的因子个数即可。如果没有明确的因子个数预期,系统也可以自动判断。而验证性因子分析则更为明确和具体,研究者需要将同属于一个因子下的题目放入到一个因子中,每一题项都需要有明确的归类。
最后,从应用的角度来看,探索性因子分析更适用于理论构建或初步研究阶段,而验证性因子分析则更多用于对已有理论的验证和修正。
综上所述,探索性因子分析和验证性因子分析在目的、应用前提、操作以及应用阶段等方面都存在着明显的差异。研究者应根据研究目的和实际情况选择合适的方法进行分析。
在 EFA 中,样本量非常重要,推荐的最小样本通常至少为 100 个样本(Kline,1994)。 一些资料来源建议每个题目至少有 5 个样本,因此如果您的量表包含 30 个题目,则至少需要 150 名参与者(Hatcher,1994)。
作为一个总结, 我们用一个表格来对比EFA和CFA的区别。
特征 | EFA | CFA |
---|---|---|
软件 | SPSS | AMOS |
难易 | 容易 | 难 |
因子结构 | 未知 | 已知 |
因子个数 | 未知 | 已知 |
理论验证 | 探索 | 验证 |
题目跨因子 | 可以 | 不可以 |
样本量 | >5倍 | >5倍 |
K 均值聚类(MacQueen 1967)是最常用的无监督机器学习算法之一,用于将给定数据集划分为一组 k 个组(即 k 个簇),其中 k 表示分析师预先指定的组数 。 它将对象分类为多个组,使得同一簇内的对象尽可能相似(即类内相似度高),而来自不同簇的对象尽可能不相似(即类间相似度低)。 在 k 均值聚类中,每个聚类由其中心(即质心)表示,该中心对应于分配给该聚类的点的平均值。
SEMinR 为创建和估计结构方程模型 (SEM) 非常容易的使用方法。 SEMinR 集成了 SmartPLS 具有的偏最小二乘路径建模 (PLS-PM) 进行估计,也可以使用 LISREL 和 AMOS 的基于协方差的结构方程模型 (CBSEM) 进行估计, 还支持反应性测量模型的验证性因素分析 (CFA)。SEMinR 中 CBSEM 和 CFA 估计都使用 Lavaan 软件包。
本教程提供了在 Mplus 软件系统中进行潜在剖面分析 (LPA) 的实用指南。 本指南适用于熟悉某些潜在变量建模但不熟悉 LPA 的研究人员。 进行 LPA 的一般程序分为六个步骤:(a) 数据检查,(b) 模型的迭代评估,(c) 模型拟合和可解释性,(d) 调查保留模型中的剖面模式,(e) 协变量分析,以及 (f) 结果呈现。
本教程提供了代码和结果解读, 以及帮助理解的示例来举例。
本教程旨在介绍使用贝叶斯网络学习和推理的基础知识,
如何使用R语言(bnlearn)完成一个贝叶斯网络结构建立和参数学习,
以介绍图算法建模的典型数据分析工作流程。 要点包括:
Cronbach Alpha信度(克隆巴赫系数),也称为内部一致性系数,是心理或教育测验中最常用的信度评估工具。
它依一定公式估量测验的内部一致性,作为信度的指标。这种方法克服了部分折半法的缺点,是社会研究最常使用的信度指标之一,适用于测量一组同义或平行测验“总和”的信度。
在实际研究中,为了保证数据的可靠性和有效性,Cronbach Alpha可以帮助研究者评估测量工具的信度,从而判断其是否适合用于数据分析和统计。
组合信度(composite reliability )ρ_c 是 Jöreskog’s (1971) 开发的一个指标.
Jöreskog 的 ρ_c 是结构方程模型 (SEM) 和偏最小二乘结构方程模型 (PLS-SEM) 中用于评估构念的可靠性的度量。构念composite是一种潜变量(未观察变量),由多个指标变量(观察变量)来测量。
组合信度有时候被归纳为聚合效度的一种, 因为聚合效度就是指的是测量指标聚合为一个构念的程度, 因此各种名词很多时候都指的是一个意思.
ρ_c表示指标潜变量(也叫构念)的方差被测量指标解释的比率, 最大是1. 值越高(通常高于 0.7)表示可靠性越高.