SPSS+AMOS数据分析案例教程-关于中介模
SPSS视频教程内容目录和跳转链接
SPSS+AMOS数据分析案例教程-关于中介模
SPSS视频教程内容目录和跳转链接
R语言快速入门视频教程
Python智联招聘数据分析
LCA潜在类别分析和Mplus应用
Amos结构方程模型数据分析入门教程
倒U关系回归分析中介效应和调节效应分析SPSS视频教程

多水平建模入门-多层线性模型的逻辑

在B站@mlln-cn, 我就能回答你的问题奥!

文章目录
  1. 1. 一元线性回归模型
  2. 2. J个学校的情况
  3. 3. 没有自变量X的随机截距模型
  4. 4. 引入学校层面变量
  5. 5. 随机斜率模型
  6. 6. 引入学校层面的变量
  7. 7. 变量中心化
    1. 7.1. grandmean
    2. 7.2. groupmean

层次线性模型有很多名字,比如混合效应模型,多层线性模型,层次回归模型等等。
本篇介绍层次线性模型的逻辑。我们从一个简单的例子开始,这个例子建立在读者对回归和方差分析(ANOVA)中熟悉的概念的理解之上。

一元线性回归模型

我们首先考虑单个学生层面的预测变量(例如,社会经济地位[SES])与一个学生层面的结果变量(数学成就 Achivement)在一个假设学校内的关系。
我们假设,学生层面的结果变量(Achivement)是一个线性函数,其系数为β1,截距为β0,残差为ε。

那么公式如下:

$ \text{Achivement} = \beta_0 + \beta_1 \cdot \text{SES} + \epsilon_i $

我们用X表示自变量,Y表示因变量,以上公式可以形式化为:

$$ \begin{aligned} Y_i = \beta_0 + \beta_1 \cdot X_i + \epsilon_i \end{aligned} $$

用散点图表示:

通常我们会对自变量进行中心化,即自变量减去其均值$X_i-\bar X$, 这样中心化可以赋予截距β0一个特殊的含义。例如中心化后,我们可以看到下面的散点图:

最终截距β0的含义是因变量的均值,即当自变量X为0时,因变量取均值。

假如我们分析两个学校的数据, 分别绘制散点图,分别拟合回归线,得到下面的图像:

这时候我们可以比较两个截距β0,发现两个学校中,学校A的截距β01远远高于学校B的截距β02。注意截距的含义就是当自变量取0时,因变量取均值。所以可以看出学校A的平均学生成绩高于学校B的平均学生成绩。从斜率可以看出,当学生的社会经济地位(SES)提高时,学生成绩也会提高。但是比较两个学校发现,SES变化一个单位,学校A的学生成绩变化比较小,说明学校A的学生成绩受到SES的影响较小。

J个学校的情况

我们现在考虑J个学校的数据,每个学校的数据都包含N个学生的数据。我们仍然假设,学生层面的结果变量(Achivement)是一个线性函数,其系数为β1,截距为β0,残差为ε。对于学校j的模型,就是:

$$ \begin{aligned} Y_{ij} = \beta_{0j} + \beta_{1j} \cdot X_{ij} + \epsilon_{ij} \end{aligned} $$

我们观察到β1和β0都带有角标j,它意味着这些参数随着学校的变化而变化,所以他们实际上是变量。而变量都有期望和方差,我们增加了如下参数:

$$ E(\beta_{0j}) = \gamma_0 \\ Var(\beta_{0j}) = \tau_0 \\ E(\beta_{1j}) = \gamma_1 \\ Var(\beta_{1j}) = \tau_1 \\ Cov(\beta_{0j},\beta_{1j}) = \rho_{01} $$

我们需要了解这几个参数,因为在大部分多水平的建模软件里,可能都会出现他们的名字,
让很多小白用户感到困惑。

如果我们假设所有的学校共享同样的截距和斜率,那么这个模型就退回到前面的一元线性模型。
这时候截距的期望就是因变量的均值,而截距的方差就是0,那么这些参数也就是已知的了。

没有自变量X的随机截距模型

当模型中不包含自变量的时候,写作:

$$ \begin{aligned} Y_{ij} = \beta_{0j} + \epsilon_{ij} \end{aligned} $$

在这个模型中,我们使用β0j加上一个误差来预测因变量Y, 那么β0j怎么样参能对Y有最佳预测准确度,也就是误差最小呢?通过最小二乘法可以计算出,当β0j取学校的学生平均Y值的时候,对Y有最佳的预测,误差最小。所以当你估计出来截距β0j的时候,就可以认为这个截距就是j学校学生的均值。

现在这个模型就叫做随机截距模型。

引入学校层面变量

变量$W_j$指的是学校是否是私有的,我们按照常识推断,私人学校可能比公办学校平均成绩更高。在我们的模型里,哪个参数代表了学校的平均成绩?β0j。

我们可以假设:

$$ \beta_{0j} = \gamma_0 + \gamma_1 W_j $$

带入前面的模型,我们可以得到:

$$ Y_{ij} = \gamma_0 + \gamma_1 W_j + \epsilon_{ij} $$

这是一个不太靠谱的模型,因为我们对成绩Y的预测,仅仅依赖学校是否私有这一个变量,
学校是私有的,则相对的成绩会高一些, 但是一个学校里的所有学生都会预测为一个值,然后加上一个随机的误差$\epsilon_{ij}$.

现在这个模型就是一个随机截距模型,并且还引入了一个学校层面的变量对随机的截距进行预测。

随机斜率模型

前面的模型没有考虑随机截距,下面考虑自变量X对因变量Y的影响是随学校的不同而不同的, 那么有如下模型:

$$ Y_{ij} = \beta_{0j} + \beta_{1j} X_{ij} + \epsilon_{ij} $$

现在先不考虑变量W,我们有如下假定:

$$ \beta_{0j} = \gamma_{00} + \mu_{0j} \\ \beta_{1j} = \gamma_{10} + \mu_{1j} $$

$\gamma_{00} \gamma_{01}$ 是一个常数, 代表截距和斜率的平均值,$\mu_{0j}$$\mu_{1j}$ 是随机变量, 它们都有角标j,说明他们都是随着学校的不同而变化的,代表不同学校的截距和斜率偏离均值的大小。 如果你在一些统计软件里见到$\gamma$你就应该知道它是截距和斜率的平均值。但是你不会见到$\mu$这个参数,因为它是变量,它有均值和方差,以及他们之间的协方差,我们定义如下:

  • $tau_{00}$: 截距的方差
  • $tau_{11}$: 斜率的方差
  • $tau_{01}$: 截距的协方差

这些参数在很多多水平混合效应建模软件中都可能出现。 因为我们是多水平建模,我们期望方差都是显著的,
因为方差不显著就是0,方差为0就是常数,是在组间不变的,如果截距和斜率在组间不变,那么我们失去了做多水平建模的必要性。

引入学校层面的变量

我们假定变量W对截距和斜率有影响,如:

$$ \beta_{0j} = \gamma_{00} + \gamma_{01} W_j + \mu_{0j} \beta_{1j} = \gamma_{10} + \gamma_{11} W_j + \mu_{1j} $$

在模型中,替换掉截距和斜率可得下面的模型:

$$ Y_{ij} = (\gamma_{00} + \gamma_{01} W_j + \mu_{0j}) + (\gamma_{10} + \gamma_{11} W_j + \mu_{1j}) X_{ij} + \epsilon_{ij} $$

化简以后:

$$ Y_{ij} = \gamma_{00} + \gamma_{01} W_j + \mu_{0j} + \gamma_{10} X_{ij} + \gamma_{11} W_j X_{ij} + \epsilon_{ij} $$

变量中心化

我们知道,截距就是自变量取值为0时,因变量的值。 但是如果你的自变量取值范围不包括0,截距是毫无意义的。但是变量中心化以后,自变量取值为0时,就是中心化前的平均值,截距就是自变量取均值时因变量的值,实际上也是因变量的期望。所以中心化的好处就显而易见。

前面提了一嘴变量的中心化,不管是多层模型还是其他模型,变量的中心化主要目的就是提高参数的可解释性。
这篇文章不会深入的解释其中的原理,只是简单的介绍。

中心化主要有两种方式:变量减去全部样本均值(grandmean)和变量减去所在组均值(groupmean)。

grandmean

假如我们有多个学校的学生样本,X变量的所有样本均值是$\bar X$ , 那么grandmean就是$X-\bar X$ .

在grandmean的情况下, 截距有如下表达式:

$\mu_{Yj}$是第j个学校学生的因变量均值。 所以每个学校的截距就是每个学校的因变量均值,再减去斜率与总体均值与学校均值差的乘积。

groupmean

假如我们有多个学校的学生样本,X变量的各学校样本均值是$\bar X_j$ , 那么 groupmean 就是$X-\bar X_j$ .

这种情况下, 截距就是所在学校的因变量均值:

赞助

持续创造有价值的内容, 我需要你的帮助