多水平模型(二)

yishirl

2 基本的线性多水平模型及其估计

2.1 两水平模型和基本符号

这一章将介绍两水平模型和本书中使用的基本符号。我们将看到模型设置的方法，参数估计、假设检验以及建立可信区间的一般步骤。

为了更为具体，现引入下列资料。这是随后要经常用到的一套数据集，包含了伦敦48所初级学校中的728名小学生，它是“初级学校项目”(Junior School Project, JSP)的一部分。我们考虑了两次测量：第一次是在他们第4年学习时(此时他们满8岁)，第二次是在三年以后，即他们初级学校阶段的最后一年。这些数据实际上是Mertimore等人1988年详细描述的数据集的一个子样本。我们利用了这二次数学测验分数以及他们的社会背景和性别。在这一章，资料主要用于说明基本的两水平模型的建立。在第三章，将研究更复杂的模型，它将使我们更有效地处理这些资料。

图2.1是11岁数学分数与8岁数学分数的散点图。这张图中没有区分学校。可以看出，存在11岁分数随着8岁分数增加的趋势，还可看出，随着分数的增加，学生间变异变得狭窄。后面我们将回到这一问题。

在图2.2中，选择了两所学校学生的分数，学校用不同符号代表。有两个特征很明显，一是圆形代表的学校显示出比实心三角形代表的学校更陡的“斜率”；二是对于多数8岁分数而言，11岁分数趋向较低。可以通过模型拟合来表达这些特征。

图2.1 11岁与8岁数学考试成绩的散点图，某些点代表了几名儿童

图2.2 两所学校的11岁与8岁数学考试成绩散点图

首先，对一所学校考虑一个简单模型，联系到11岁对8岁分数的关系，我们记为：

yi=+xi+ei (2.1)

这里，截距()、斜率()和残差(ei)可给予标准的解释。我们将遵从惯例，采用希腊字母表示回归系数，采用置于系数(参数)上面的符号代表样本估计。这是前面章节中图1.1的正规模型，它描述了单水平的关系。为了同时描述几所学校的关系，对学校j，我们记为：

yij=j+jxij+eij (2.2)

这是图1.2的正规模型，j指水平2单位，i指水平1单位。

(2.2)基本上仍然是一个单水平模型，它分别描述了每所学校的关系。在某些情形下，例如，只有很少的学校，且兴趣就在样本中的这几所学校，我们可以通过拟合全部2n+1个参数来进行分析，即

(j+j) j=1,...n

假定一个普通的“学校内”残差方差，以及对每所学校分别拟合模型。

如果我们不仅只关注这几所学校，而是关注更广泛的学校总体，那么，就需要将选择的学校，当作为总体中全部学校的特征所提供给我们的信息。正如通过选择个体的随机样本提供总体均数的估计一样，学校的随机样本也能够提供关于学校总体特征的信息。尤其是这样的样本，能够提供斜率与截距在学校之间的变异与协变异信息，且能够比较不同特征的学校。

当我们希望拥有样本中关于每个学校的信息，而如果学校数量很大，这时，(2.2)将估计非常多的参数。此外，某些学校可能只有很少的学生，这时，(2.2)的应用将导致不精确的估计。在这种情形下，如果将学校当作总体的成员，作出均数和学校间变异的总体估计，就能够有效利用这些信息，获得对每个学校更精确的估计，这将在后面处理“残差”的部分进行讨论。

2.2 两水平模型

现在，我们建立一套一般的符号，它将在本章和后面的章节中使用。必要时则加以详细说明。然后再讨论模型参数与残差的估计，并用例子加以说明。

要将(2.2)做成一个真正的两水平模型，现让j和j成为随机变量。为使符号一致，用0j代替j，1j代替j，并假定：

0j=0+u0j, 1j=1+u1j

这里，u0j和u1j也为具有参数的随机变量，并有：

E(u0j)=E(u1j)=0 (2.3)

，，

现在，可将(2.2)写为：

yij=0+1xij+(u0j+u1jxij+e0ij) (2.4)

第三章所介绍的模型中，水平1的残差项尚需另外的下标。

可见，反应变量yij被表达为固定部分与括弧中随机部分之和。

一般地，将(2.4)的固定部分记为矩阵形式

E(Y)=X Y={yij}

E(Yij)=Xij=(X)ij X={xij}

这里，{}表示矩阵，X为解释变量的设计矩阵，Xij是X的第ij行。对于模型(2.4)，我们有X={1 xij}，即模型固定部分第i行的另一种表示。

“残差”为随机变量。水平1残差e0ij，在单水平模型情况下就是通常的线性模型残差项。为了使模型对称，以便每个系数都有一个相应的解释变量，可对截距0及其残差u0j定义一个解释变量X0ij，其取值为1，为了简化，这个变量常被省略。

(2.4)明显不同于标准的线性回归模型或方差分析模型，它具有不止一个残差项，这意味着需要特殊方法来获得满意的参数估计。值得指出，它是模型随机部分的结构，是模型的关键部分。模型固定部分的变量可在任何水平上测量，例如在JSP资料中，可以测量学校或教师的特征，也可以引入所谓“组合变量”，即对每所学校计算所有学生的平均8岁数学测验成绩。尽管需要仔细地解释结果，但这种变量的引入并不改变估计步骤。

2.3 方差成份模型的参数估计

模型(2.4)需要估计两个固定系数0和1，四个其它参数，，和，我们将这样的方差和协方差称为随机参数。开始时，仅考虑最简单的两水平模型，它只包括随机参数和，我们将其称为方差成份模型，因为模型固定的成份即固定的预测因子的反应变量方差为：

此即水平1和水平2方差之和。对于JSP资料，这一模型意味着每个学生的总方差是不变的，而且同一所学校中两个学生(用i1,i2表示)之间的协方差即

cov(u0j+e0i1j,u0j+e0i2j)=cov(u0j,u0j)= (2.5)

因为假定水平1残差是独立的，故这两个学生的相关为

它描述了水平2单位内的相关(intra-level 2-unit correlation)。在本例中即学校内相关，它测量了学校之间方差占总方差的比例。在三水平模型中，比如学校、班级和学生三个水平的模型，我们将有两个这样的相关，即反映学校之间方差比例的学校内相关，反映班级之间方差比例的班级内相关。

由于模型中不止一个残差项，故产生了非零的单位内相关(intra-unit-correlation)。这意味着，传统的估计方法诸如多元回归中常用的“普通最小二乘法”(OLS)是不适用的，后面部分将说明OLS技术的应用是怎样导致不正确推论的。现在，让我们更详细地看一看两水平资料的结构，即图2.3所给出的有代表性的协方差结构，图中的矩阵是前面所提到的一所学校内3名学生分数的(3? 3)协方差矩阵。

图2.3 方差成份模型中一所学校三名学生的协方差矩阵

如果有两所学校，一所有3名学生，另一所有2名学生，则总协方差矩阵可表达为图2.4。这种矩阵的“分块对角”结构反映了如下事实，即不同学校学生之间的协方差为0。显然，它可扩展到水平2单位的任何数目。表达这一矩阵更简略的方式即图2.5，后面还将用到这种表达方式。图中，I(n)是n维的单位矩阵，J(n)是n维的1矩阵。V的下标2表明两水平模型。在单水平模型OLS估计中，为0，则该协方差矩阵退化为标准形式，为残差方差。

图2.4 具有2个水平2单位的两水平方差成份模型中反应变量向量Y的分块对角协方差矩阵

V(2)=

图2.5 使用一般符号的分块对角协方差矩阵

2.4 包括随机系数的一般两水平模型

我们可以在标准方式下，将(2.4)扩展为包括更多固定部分解释变量的形式：

yij=0+1x1ij++(u0jz0ij+u1jz1ij+e0ijz0ij)

或进一步简化为：

yij=Xij++e0ijz0ij (2.6)

这里，对模型随机部分采用了新的解释变量。可将其更广义地记为：

Z={Z0 Z1}

Z0=={1}，Z1={x1ij}

正如这里所表示的那样，模型随机部分的解释变量常为其固定部分的一个子集，但这并非必需，后面将见到不是这样的情形。我们可以在任何水平上测量任何解释变量，例如，可以测量水平1的学生特征或水平2的学校特征。在后面部分，这些例子都将被用于资料分析中。

这一模型中，X1的系数在水平2随机变异，故出现了图2.6中典型的分块结构。矩阵是水平2的随机截距与斜率的协方差矩阵。值得指出，必须仔细区别图2.6中反应变量协方差矩阵和随机系数协方差矩阵。这里，我们将截距也当作随机系数。矩阵是水平1的随机系数协方差矩阵。在本例中，水平1只有一个单一的方差项。代表这些协方差矩阵集。

图2.6 具有水平2随机截距与斜率的两水平模型中，一个具有2个水平1单位的水平2单位反应变量协方差矩阵。

在这里，我们看到了建立反应变量协方差矩阵的一般模式，它既概括了将在第三章中看到的更高阶的模型，也概括了水平1的复杂变异。附录2给出细节并描述了基本多水平模型的参数估计、假设检验以及建立可信区间的步骤。

2.5 多水平模型的估计（略）

2.6 其它估计方法（略）

2.7 残差（略）

2.8 普通最小二乘法估计的充分性（略）

2.9 采用纵向教学成绩资料的一个两水平例子

利用JSP资料，将11岁数学测验分数作为反应变量，8岁数学分数作为单一解释变量，再加上定义截距的常数项，拟合简单的两水平方差成份模型(2.7)。表2.1给出了参数估计值，同时给出了OLS估计以便比较。

表2.1 应用JSP资料的方差成份模型

参数

估计(标准误)

OLS估计(标准误)

固定部分:

　　

　常数

13.9

13.8

　8岁分数

0.65(0.025)

0.65(0.026)

随机部分:

　　

　(学校间)

3.19(1.0)

　

　(学生间)

19.80(1.1)

23.30(1.2)

学校内相关

0.14

　

比较OLS与多水平估计，可以发现，固定系数是相似的，但学校内相关为0.14。学校间方差的标准误估计小于方差估计，表明与0具有高度显著性差异。但应审慎对待这一比较，因为方差估计并非正态分布，以及仅仅是估计的标准误，尽管这里的样本含量使得后一限制并不太重要。一般地，人们更偏向于利用当前模型与省略水平2方差的模型所估计的“偏差度”进行似然比检验(likelihood ratio test) (见McCullagh和Nelder，1989)。下一部分将更一般地讨论推论步骤。这里，偏差度分别为4294.2和4357.3，其差值为63.1，与自由度为1的?2分布相比具有高度显著性。值得指出，如果采用表2.1中标准误的估计来判断显著性，可以获得相应的值为(3.19/1.0)2=10.2，比似然比检验统计量小得多。

下面，通过引入性别与社会等级两个解释变量来进一步说明这一模型，其结果列于表2.2的第一列。

表2.2 应用带有性别与社会等级的JSP资料的方差成份模型

参数

估计(标准误)

OLS估计(标准误)

固定部分:

　　

　常数

14.9

32.9

　8岁分数

0.64(0.025)

　

　性别(男－女)

-0.36(0.34)

-0.39(0.47)

　社会等级(非体力－体力劳动)

0.72(0.39)

2.93(0.51)

随机部分:

　　

　(学校间)

3.21(1.0)

4.52(1.5)

　(学生间)

19.60(1.1)

37.20(2.0)

学校内相关

0.14

0.11

随机参数估计以及8岁数学分数的系数几乎没有改变。性别差异非常小，尽管女孩成绩较好，但远离5%的显著性水平。社会等级差异表明非体力劳动家庭的儿童作得较好。当判断固定效应时，对估计值与其标准误作一简单比较通常是适当的。因为模型调整了入学的数学成绩，则社会等级和性别差异的解释，即女孩相对于男孩或非体力劳动相对于体力劳动家庭的儿童具有相对进步。表2.2中第二列，显示了模型中去除8岁数学成绩的效应，现在的解释即是在11岁时所发现的实际差别。值得指出，此时水平1和水平2方差增加了，它反映了入学成绩作为一个预测因子的重要性。学校内相关只有轻度降低。社会等级差别非常大，这表明绝大部分差异为非体力劳动社会组的儿童在8-11岁之间取得了较大进步所至。性别差异仍然较小。

这里，8岁成绩被直接应用，没有任何形式的中心化。在本例中是可以接受的。截距的严格的解释是一个8岁时零分的预测分数，它超出了观察值的范围。如果将8岁成绩中心化，则截距将被解释为平均8岁成绩时的预测值。在第三章中，当引入随机系数时，我们将看到这将是一个重要的考虑。

2.9.1 模型假设的检验

现在通过残差来检验模型的某些假设。

图2.7 表2.2的标准化水平1残差与预测值

图2.7是以标准化水平1残差为纵轴的图；图2.8是以这些残差为纵轴，以其等价正态分数为横轴的图；图2.9为水平2残差的等价正态分数图。图2.7显示了与图2.1相同的模式，即随着8岁分数的增加，方差减小，因而水平1常数方差的假设显然是不存立的。第三章将涉及处理这一问题的方法。另一方面，正态分数图较直，表明水平1和水平2残差的正态分布假定是合理的。

图2.8 表2.2的标准化水平1残差与正态等价分数

2.9.2 影响单位的检查

检查图2.9，可以发现一所学校(第38号学校)具有最大的标化残差，其非标化值为3.5，次大的学校为2.9。分析中忽略一个或更多单位的效应，对于参数估计产生的影响常常是人们感性趣的。对于单水平模型而言，已经发展了有关技术(Cook和Weisberg，1982)，可了解省略某个单位对分析的影响，但对于多水平模型，目前尚无有效率的技术。但可以研究省略特定单位的效应，我们用第38号学校来说明这一点。表2.3给出了两种不同的参数估计。

图2.9 表2.2的标准化水平2残差与正态等价分数

分析A省略了第38号学校，它使得水平2方差下降了大约14%，但对其它参数影响很小。分析B保留了全部资料，但通过在模型固定部分拟合一个单独的常数，从而将第38号学校从水平2变异中去除。对于影响水平2方差的解释变量，我们拟合Z0*而不是Z0。这里：

固定部分所拟合的常数即1-Z0*。第38号学校中只有9名学生，这一相对较少的学生数目解释了这样一个事实，即它被收缩的残差均数3.5大大小于直接拟合的均数6.1。尽管在本例中，它对参数估计只产生很小的影响，但一般地，最好是对影响单位拟合单独的参数，并在分析中保留尽可能多的数据。

表2.3 省略第38号学校的分析A与拟合第38号学校为一个常数的分析B

参数

估计(标准误)

估计(标准误)

　　　A

　　B

固定部分:

　　

　常数

14.5

14.7

　8岁分数

0.65(0.026)

0.64(0.025)

　性别(男－女)

-0.40(0.34)

-0.37(0.34)

　社会等级(非体力－体力劳动)

0.74(0.39)

0.72(0.38)

　第38号学校

　 6.10(1.5)

随机部分:

　　

　(学校间)

2.74(0.9)

2.75(0.9)

　(学生间)

19.6(1.1)

19.6(1.1)

学校内相关

0.12

0.12

　

2.10 高水平解释变量与组合效应(compositional effects) （略）

2.11 假设检验与可信区间（略）

2.11.1 固定参数

2.11.2 随机参数

2.11.3 残差

附录2.1 一般结构及多水平模型的估计（略）

附录2.2 多水平残差估计（略）

附录2.3 EM算法（略）

附录2.4 吉布斯抽样（略）