这篇文章介绍了 Williams(2010)《Method Variance and Marker Variables: A Review and Comprehensive CFA Marker Technique》的主要内容。它讲的是如何利用一个“标记变量”(可以理解为一种“对照变量”)来排除研究中可能出现的“方法偏差”(也就是研究结果受到测量方法影响的程度)。这篇文章会先回顾别人怎么做的,然后提出自己的方法,并用实际的例子来演示,最后还会讨论理论、假设和局限性。
术语
- CMV: Common Method Variance,中文意思是共同方法偏差或共同方法变异。
- CMB: 英文全称: Common Method Bias (共同方法偏差), 指的是当研究中的变量都使用相同的方法(例如,都是自评问卷)收集数据时,由于测量方法的相似性,可能会导致变量之间的相关关系被高估或低估。这种偏差不是由于变量之间的真实关系,而是由于测量方法本身引起的。这与CMV (Common Method Variance) 是高度相关的概念,CMV通常被认为是导致CMB的因素之一。
-CMV 模型 (限制性模型): 假设方法偏差对所有变量的影响是相同的,也就是说,它假设所有变量都受到一个相同的“方法因子”的影响。 - UMV 模型 (非限制性模型): 则放弃了这种假设,允许方法偏差对不同变量产生不同的影响。 这使得模型更灵活,更能反映真实数据的情况。
概述
这篇文章将回顾 Lindell 和 Whitney (2001) 发表后,使用标记变量的组织研究文献。目的是为选择标记变量提供指导,并开发一种能克服偏相关局限性的分析方法。
为了实现这个目的,我们首先会:
- (a) 回顾 Lindell 和 Whitney 开发的使用偏相关和显性变量进行分析的具体的“相关标记技术”;
- (b) 然后,回顾那些遵循了他们全部或部分步骤的组织研究实证文献。
此外,我们还会:
- (c) 描述一种使用潜在变量的结构方程模型方法,用于分析标记变量;
- (d) 并回顾利用这种较新的分析方法进行的实证研究。
接下来,我们会:
- (e) 开发一套全面的验证性因子分析 (CFA) 标记技术分析方案,旨在增加我们对标记变量和相关方法偏差效应的理解;
- (f) 并且用一个实际的例子来演示这个方案。
最后, 以案例来介绍 CFA 标记技术,以帮助研究者理解如何利用这种技术来检验共同方法偏差。
基于相关性的标记变量法
以下是 Lindell 和 Whitney (2001) 开发的 基于相关性的标记变量法 的五个具体步骤的总结:
前提假设:
- 该技术基于“共同方法偏差 (CMV) 模型”,该模型假设研究中的变量都被一个单一的未测量因子所污染,且该因子对所有变量的影响相等。
- 与此相反的是 “非限制性方法偏差 (UMV) 模型”,它不假设这种相等效应。
五个步骤总结:
下文中提到的”真实变量”指的是研究者真正关心的变量, 属于你的研究模型的 , 或者用于假设验证的变量;
而”标记变量”指的是与研究无关的, 仅仅用来检测共同方法变异的变量.
- 选择最小相关性 (Choose the smallest correlation): 在标记变量与所有真实变量变量之间的多个相关系数中,选择绝对值最小的一个。这个最小的相关系数被用作方法偏差的估计值。
- 偏相关公式 (Partial correlation formula): 将第一步中获得的估计值代入偏相关公式。该公式的分子是两个真实变量变量之间的原始相关系数,减去方法偏差的估计值。分母是1.0减去方法偏差的估计值。通过这种偏相关计算,可以从真实变量变量之间的关系中减去方法偏差的影响。
- 检验显著性 (Test for significance): 计算偏相关后,重点关注偏相关系数是否仍然在统计上显著。 如果消除方法偏差后,真实变量变量之间的原始相关性不再显著,则表明方法偏差可能是一个问题。
- 校正衰减 (Correct for attenuation): 由于随机测量误差会减弱所有相关系数,包括偏相关系数,因此需要使用零阶相关系数(即原始相关系数)进行衰减校正,该校正基于所涉及变量的可靠性样本估计值。然后使用校正后的相关系数重新计算偏相关。
- 灵敏度分析 (Sensitivity analysis): 为了考虑到方法偏差估计值受抽样误差的影响,进行灵敏度分析。具体步骤是:
- 计算标记相关系数在其 95% 和 99% 置信区间的上界和下界的估计值。
- 使用这些估计值计算额外的偏相关,并检验方法偏差的影响。
- 如果所有这些额外的偏相关仍然显著,则表明方法偏差不是解释预测变量与标准变量之间相关关系的关键因素。
总而言之,这个方法通过以下步骤尝试控制方法偏差:
- 找到一个在理论上与真实变量变量无关的标记变量。
- 使用标记变量与真实变量变量之间最小相关性来估计方法偏差的大小。
- 使用偏相关公式来调整真实变量变量之间的相关性,减少方法偏差的影响。
- 校正测量误差,避免方法偏差被低估。
- 通过灵敏度分析来评估结果的稳健性。
需要强调的关键点:
- 该技术依赖于 CMV 模型(所有变量都受到相同的方法偏差影响),而这个假设可能不总是成立的。
- 该技术使用偏相关公式,但无法针对纠正测量误差后的偏相关系数进行显著性检验。
基于相关性的标记变量法的应用举例
作者列举了很多使用该方法的论文, 这些论文你可以直接到文献中查询, 这里不再赘述.
验证性因子分析 (CFA) 标记技术分析方案
核心目标:
该分析方案旨在通过结构方程模型 (SEM) 框架,更全面地研究标记变量及其相关的方法偏差效应,并克服传统偏相关技术和早期 SEM 应用的局限性。该方案分为三个阶段,依次检验CMV的存在、量化方法偏差对潜变量测量的影响,以及评估抽样误差的影响。
阶段一:模型比较 (Model Comparisons)
此阶段旨在检验方法偏差的存在,以及 CMV 和 UMV 模型之间的差异,并检验方法偏差是否对真实变量之间的相关性产生偏差。它包含以下步骤:
- CFA 模型 (CFA Model): 这是基准模型,其中仅包含真实潜变量及其指标,没有方法偏差因素。它用于获得指标的因子载荷和测量误差方差的估计。
- 基线模型 (Baseline Model): 在这个模型中,标记变量被建模为一个与所有真实变量正交的潜变量,其指标的因子载荷和测量误差方差固定为 CFA 模型中的值。该模型为后续方法效应的评估设定了基线。
- 方法 C 模型 (Method-C Model): 该模型在基线模型的基础上,添加了从标记潜变量到所有真实指标的因子载荷。 这些因子载荷被约束为相等,以反映 CMV 模型,该模型假设方法偏差对所有指标产生相同的影响。将此模型与基线模型进行比较,可以检验是否存在方法偏差。
- 方法 U 模型 (Method-U Model): 该模型与方法 C 模型相似,但是不约束标记潜变量到真实指标的因子载荷相等。 它允许这些因子载荷自由估计,以反映 UMV 模型,该模型允许方法偏差对不同变量产生不同的影响。将此模型与方法 C 模型进行比较,可以检验 CMV 模型假设是否成立。
- 方法 R 模型 (Method-R Model): 该模型与方法 C 模型或方法 U 模型(取决于哪个模型更好)类似,但是模型中真实潜变量之间的相关性被固定为基线模型中的值。 它用于检验方法偏差是否会对真实潜变量之间的相关性产生偏差。将此模型与 Method-C 或 Method-U 模型进行比较,可以确定方法偏差是否影响变量之间的关系。
阶段二:信度分解 (Reliability Decomposition)
此阶段旨在量化方法偏差对潜变量测量的影响。
- 计算整体信度: 使用基线模型中获得的因子载荷和误差方差,计算每个潜变量的整体信度 (Rtot)。
- 分解信度: 使用方法 C 或方法 U 模型(取决于第一阶段的结果)中获得的因子载荷和误差方差,将整体信度分解为以下两个部分:
- 真实信度 (Rsub): 反映潜变量测量的真实部分。
- 方法信度 (Rmeth): 反映潜变量测量中方法偏差影响的部分。
- 计算方法偏差占比: 计算方法信度在整体信度中的占比,以量化方法偏差对潜变量测量的影响。
阶段三:灵敏度分析 (Sensitivity Analysis)
此阶段旨在评估抽样误差对方法偏差估计的影响,并检验结论的稳健性。
- 设定因子载荷范围: 从 方法 C 或 方法 U 模型中获取的标记方法因子载荷的估计值,并计算其置信区间。
- 固定因子载荷: 创建新的模型(方法 S 模型),并将标记方法因子载荷固定为置信区间的上下限值。
- 比较结果: 评估这些新模型中,真实潜变量之间的相关性,并将其与原始模型中的结果进行比较,以确定结论是否受到抽样误差的影响。
验证性因子分析 (CFA) 标记技术分析实战
阶段1, 比较各个模型
这是5个模型的分析结果:
- Table 3
Model | χ² | df | CFI |
---|---|---|---|
1. CFA | 708.22 | 224 | 0.82 |
2. Baseline | 738.81 | 233 | 0.81 |
3. Method-C | 724.59 | 232 | 0.81 |
4. Method-U | 665.86 | 213 | 0.83 |
5. Method-R | 669.69 | 210 | 0.83 |
Chi-Square Model Comparison Tests | |||
ΔModels | Δχ² | Δdf | |
1. Baseline vs. Method-C | 13.92* | 1 | |
2. Method-C vs. Method-U | 58.73* | 19 | |
3. Method-U vs. Method-R | 3.83 | 3 | |
Chi-Square Critical Value; 0.05 | 3.84 | ||
*p<.05 |
- Table 4
Item | Leader-Member Exchange | Role Ambiguity | Job Complexity | Marker Variable |
---|---|---|---|---|
LMX1 | 0.89* | 0.20* | ||
LMX2 | 0.89* | 0.23* | ||
LMX3 | 0.88* | 0.34* | ||
LMX4 | 0.80* | 0.32* | ||
LMX5 | 0.89* | 0.30* | ||
LMX6 | 0.75* | 0.37* | ||
LMX7 | 0.61* | 0.27* | ||
LMX8 | 0.70* | 0.38* | ||
RA1 | 0.55* | 0.31* | ||
RA2 | 0.50* | 0.29* | ||
RA3 | 0.42* | 0.11 | ||
RA4 | 0.78* | 0.17* | ||
RA5 | 0.88* | 0.22* | ||
RA6 | 0.58* | 0.38* | ||
JC1 | 0.52* | 0.28* | ||
JC2 | 0.67* | 0.36* | ||
JC3 | 0.57* | 0.41* | ||
JC4 | 0.65* | 0.31* | ||
JC5 | 0.43* | 0.16 | ||
JC6 | 0.29* | 0.02 | ||
B1 | 0.68a | |||
B2 | 0.95a | |||
B3 | 0.86a |
我们对几个不同的模型进行了比较分析,这些模型的分析结果都展示在上表中,包括卡方值、自由度和比较拟合指数(CFI)。
需要注意的是,这些CFI值没有达到通常建议的0.90或0.95,这可能是因为我们用来衡量变量的指标(20个)比较多,并且模型中有很多参数是固定的。
我们首先比较了基础模型(Baseline Model)和方法C模型(Method-C Model),目的是检验一个假设:用来辅助分析的“标记变量”对所有20个指标有影响,且影响是一样的大小。 如果标记变量指向20个指标的路径不显著, 那么这两个模型拟合度应该差别不大。但结果是,两个模型的差异非常大(卡方差值为13.92,远大于临界值3.84),这意味着标记变量的确对指标有影响。
接着,我们比较了方法U模型(Method-U Model)和方法C模型,想知道标记变量对所有20个指标的影响是不是都一样。这次检验的结果也表明,标记变量对所有指标的影响并不相同。两个模型的差异很大(卡方差值为58.73,远大于临界值30.14),因此,方法U模型才是更好地解释了标记变量影响的模型。
方法U模型中的因子载荷(每个指标与对应变量的关联程度)在0.29到0.89之间,并且所有指标都很好地与它们应该测量的变量相关。另外,在方法U模型中,20个指标中有17个都受到了标记变量的影响,这个影响值在0.17到0.41之间,中位数是0.31,表示标记变量导致的每个指标的变化幅度大约是9.6%。其中,指标RA3、JC5和JC6没有受到标记变量的显著影响。
此外,方法U模型中,三个潜在变量之间的相关性分别是: LMX(领导-成员交换)和角色模糊的相关性是0.64,LMX和工作复杂度的相关性是0.59,角色模糊和工作复杂度的相关性是0.48。
我们还进行了另一组模型比较,想看看标记变量对因子之间相关性的影响。为此,我们建立了一个限制模型(Method-R Model)。这个模型和方法U模型几乎一样,只是把因子之间的相关性固定在了基础模型中的数值。
通过比较方法U模型和方法R模型,我们想检验标记变量是否对因子之间的相关性产生了显著的偏差。结果表明,这两个模型之间没有显著差异。虽然之前的分析表明标记变量是显著的,并且方法U模型也体现了它的影响,但这项分析表明,标记变量并没有显著影响到因子之间的相关性。换句话说,基础模型中的因子相关性(0.75, 0.64, 和 0.60)与方法U模型中的因子相关性(0.64, 0.59, 和 0.48)没有显著区别。
阶段2, 信度分解
Latent Variable | Total Reliability | Substantive Reliability | Method Reliability | % Reliability Marker Variable |
---|---|---|---|---|
Leader-Member Exchange | 0.96 | 0.84 | 0.12 | 12.50 |
Role Ambiguity | 0.83 | 0.72 | 0.11 | 13.50 |
Job Complexity | 0.76 | 0.62 | 0.15 | 19.70 |
Marker Variable | 0.87 | 0.87 | 0 |
在研究的第二阶段,我们的重点是信度的分解。 具体来说,我们希望将三个主要潜在变量——LMX(领导-成员交换)、角色模糊和工作复杂性——的测量总信度,拆解为由实际变量带来的部分和由测量方法带来的部分。表5呈现了这些变量(以及未进行分解的标记潜在变量)的信度信息。表中包含了基于基础模型计算的总体信度值,以及使用方法U模型估计值分解后得到的结果。
结果表明,所有潜在变量的测量都具有足够的总体信度,其数值范围在0.76至0.96之间。通过分解,我们发现工作复杂性受测量方法的影响最为显著,其方法组成部分的值为0.15。相比之下,LMX和角色模糊的方法组成部分的值稍低,分别为0.12和0.11。若将方法组成部分占总信度的比例进行计算,LMX、角色模糊和工作复杂性分别占其信度值的12.5%、13.5%和19.7%。
阶段3, 敏感性分析
Factor Correlations | CFA Model | Baseline Model | Method-U Model | Method-S(.05) Model | Method-S(.01) Model |
---|---|---|---|---|---|
1. Leader-member exchange—Role ambiguity | .76* | .75* | .64* | .65* | .66* |
2. Leader-member exchange—Job complexity | .64* | .64* | .59* | .59* | .60* |
3. Role ambiguity—Job complexity | .60* | .60* | .48* | .50* | .52* |
4. Leader-member exchange—Marker variable | .34* | 0 | 0 | 0 | 0 |
5. Role ambiguity—Marker variable | .39* | 0 | 0 | 0 | 0 |
6. Job complexity—Marker variable | .48* | 0 | 0 | 0 | 0 |
好的,这是这段文字的中文翻译:
第三阶段:敏感性分析。
上表展示了所考察的各种模型中潜在变量之间的因子相关性。为了进行比较,我们列出了CFA模型和基础模型(这两个模型没有包含方法因子载荷)得出的值,以及方法U模型和两个方法S模型得出的值。从上表中可以看出,对方法因子载荷进行调整,仅导致因子相关性发生了较小的相应变化。
最初,在基础模型中,三个实质性因子相关性都是显著的。当在方法U模型中引入方法效应时,观察到了类似的模式,尽管潜在变量之间的相关性值有所下降(从0.75降至0.64,从0.64降至0.59,以及从0.60降至0.48),但它们仍然是显著的。当方法因子载荷的大小增加到与方法S(.05)模型中0.05置信区间上限相关的值时,潜在变量之间的相关性仍然显著,且相对没有变化。当基于方法S(.01)模型中0.01置信区间增大因子载荷的幅度时,因子相关性仍保持显著,且数值相对不变。
总结来说, 敏感性分析表明,即使考虑方法因子载荷的影响,潜在变量之间的相关性依然存在,并且变化不大。无论如何调整方法因子载荷,三个主要变量之间的相关性都保持显著。