多水平模型(一)

yishirl

1 引言

1.1 引言

许多类型的资料包括人类和生物科学中收集的观察性资料都具有层次或组群结构(hierarchical or clustered structure)。例如，动物和人类遗传研究就面临自然的等级，这里，子女或幼崽在家庭内成为一组。来自于同一双亲的子女，其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似。例如，来自于同一家庭的儿童，或许都趋向于较小，这或许是因为他们的双亲较小或共同的贫困环境。

许多试验设计也产生了层次数据。例如，在几个随机选择的中心或组进行的临床试验。到现在，我们仅考虑到这种层次的事实，而不是它们的成因。我们将主要讨论它们在社会科学中的应用，但这些技术具有更一般的用途。在后面的章节，通过用例子提出的理论与技术，我们将看到，对这种自然层次的正确识别，是怎样对重要问题寻求更为满意的答案的。

所谓层次是指若干单位聚集在不同的水平。例如，子女是一个两水平结构中的水平1单位，这里，水平2单位即家庭。学生是学校中的水平1单位，这里，学校即水平2单位。

这种数据层次的存在不是偶然的，也是不能忽视的。人与动物都存在个体差异，这种差异必然反映到各种社会活动中。在这里，后者常常是前者的直接结果。例如，选送具有相似动机或天资的学生到不同的学校或大学。在其它情形下，组群的建立或许较少与个体特征相联系，如分配儿童到小学或分配病人到不同门诊。但一旦建立了组群，即使其建立是随机的，它们也将趋向于变得不同，这种不同是组及其成员相互影响的结果。忽略这种关系就冒着忽视组效应(group effect)的危险，因而许多用于研究这种数据关系的传统统计分析技术是无效的。

我们将在后面的章节讨论统计有效性问题，但一个简单例子将显示其重要性。一项著名的实施于70年代的关于小学儿童的研究(Bennett, 1976)，采用传统多元回归技术进行分析，将个体儿童作为分析单位，忽略他们所在教师或班级的组。结果报道，暴露于所谓“正式”教学阅读风格的儿童较非暴露的儿童显示出更多的进步。Aitkin等人1981年指出，若分析方法中考虑到了班级组群效应，则具有统计学意义的差别将消失，所谓受到“正式”教学的儿童并未显示出与其它儿童不同。

这个资料的再分析，是多水平分析在社会科学中应用的第一个重要例子。基本原因是众多学生在一个班上由一个教师授课，他们的学习行为有相同的趋向。因此提供的学习成绩较之于各学生在不同班上受教于不同教师的情形，含有较少的信息。换言之，要比较的基本单位应该是教师，而不是学生。可以认为，学生的作用是提供了教师教学效果的估计。增加每个教师的学生数量将增加估计的精度，但以这种方式简单增加学生数量，超过某一点时几乎于事无补。另一方面，增加要比较的教师数目，而用相同的或稍少一点的学生数目将大大改善比较的精度。

研究者们已经很早就注意到这一问题。在教育学领域，对所谓教师是“分析的单位”问题存在许多争论(Burstein等人，1980)。虽然人们多少理解了忽略层次结构引起的问题，但在多水平模型作为一个研究工具得到很好发展以前，解决这一问题是困难的。很早就有了用于特定目的的软件，例如用于遗传学数据分析的软件，但它被限制在“方差成份”模型(第2章)，而且用它处理广义线性模型是不适宜的。抽样调查工作者在另一种情形下注意到这一问题，当实施调查时，抽样设计典型地反映了总体的层次结构，如地理区域或住户成员。当进行统计分析时，也有相关方法来处理这种结构，在后面部分我们将更详细地讨论这一问题。

在本章的其余部分，我们将看到本书所涉及到的主要领域。

1.2 学校效果

教育系统是这种层次结构的一个典型例子，学生嵌套进学校，学校自身或许又嵌套进教育当局或委员会。教育研究者的兴趣在于比较学校或教育机构的学生成绩。这种比较有许多目的(Goldstein，1992)，但学术上的兴趣主要在于研究那些解释学校间差异的因素。

考虑一个普通的例子，即对一批随机选择的学校，收集学生期末考试成绩。研究者想知道，将学生按能力分班施教的政策(streaming practice)是否在一些学校中与考试成绩的改善有关。研究者也有学生入学时的成绩，在分析中可控制这一因素。传统方法将进行回归分析，用考试分数作为反应变量，研究与分班政策的关系，同时调整入学成绩。这非常相似于前面提到的教学风格分析的例子。由于没有考虑到学生在学校水平的聚集性而同样缺乏有效性。

多水平分析具有如下几个优点：首先，它获得回归系数的有效估计；其次，通过利用聚集信息，提供正确的标准误、可信区间和假设检验。一般来说，它比传统方法更“保守”，后者的标准误是通过简单地忽略聚集的存在而获得¾ 正如象Bennett先前具有统计学意义的结果在再分析中变得不显著一样；第三，引入在任何水平上测量到的协变量，它使得研究者能够探讨诸如组织实践以及学生的其它特征，对于学校之间平均考试成绩的差异到底起到多大的作用。它也能够研究具有不同种类学生的学校考试成绩差异的程度，例如，入学成绩好的学生比入学成绩差的学生而言，学校之间的变异是否更大(Goldstein等人, 1993)，以及某些因素是否可更好地解释这种变异；最后，人们对于每个学校成绩的相对顺序常有很大的兴趣，即在调整了入学成绩之后，采用这些学校学生的考试成绩就可以进行排序，它采用多水平模型方法做起来更简单。

为了固定水平和单位的基本记法，我们考虑基于假定关系的图1.1和图1.2。

图1.1显示了一所学校中5名学生的期末考试成绩和入学成绩，用一简单回归线拟合数据点，围绕这条线的考试成绩的残差变异(residual variation)即水平1残差变异，因为它与一个水平2单位(学校)样本内的水平1单位(学生)有关。图1.2中的3条线即3所学校的简单回归线，其中去除了个体学生的数据点。它们的截距和斜率均有变异，这一变异即水平2变异。这是水平2复杂变异的一个例子，因为截距和斜率参数均有变异。

图1.1 一所学校中5名学生的期末考试成绩与入学成绩

另一个忽略层次结构分析的极端情况是，对每一所学校分别拟合不同的回归模型。在某些情况下，例如只有很少的学校，而每个学校中具有较多的学生，这种方法或许是有效的。如果研究者仅仅对这几所学校作出某种推断感兴趣，这种方法或许也是适宜的。然而，如果我们将这几所学校作为学校总体中的一个随机样本，而且研究者希望就学校之间的变异作出一般的推断，那么，就需要完全的多水平方法。同样地，如果一些学校中只有很少的学生，对每所学校分别拟合模型，将不会产生可靠的估计。通过将学校作为总体的一个随机样本以及利用整个样本数据可以得到的信息，则对任何一所学校作估计时，可以获得更高的精度。这种方法在重复测量资料中尤其重要，因为每个水平2单位通常只有很少的水平1单位。

在第2章，我们将介绍对层次结构数据拟合多水平模型的基本方法，第11章则讨论在每个水平上抽取单位数的设计问题。

图1.2 三所学校的平均期末考试成绩与入学成绩

1.3 抽样调查方法

我们已经提及抽样调查数据，它将作为本书的许多例子进行讨论。有关抽样调查研究的标准文献，识别了复杂抽样设计中聚集性的重要性。在住户调查中，第一阶段抽样单位通常是一个严格定义的地理单位，它们被随机抽取，然后，从它们之中再进一步随机抽样直到住户被抽取。对于诸如政治态度调查所显示出的地域聚集性，现已发展了特殊的方法以产生有效的统计推断，例如当比较平均值或拟合回归模型时(Skinner et al，1989)。

那样的统计方法通常是必需的，但未必有什么实质上的优点。换言之，这些方法将反映在抽样设计之中的总体结构处理成“讨厌的因素”(nuisance factor)。相反，多水平模型方法将总体结构自身当作是感兴趣的东西，反映这种结构的样本不仅节省成本，而且可以收集和分析有关总体中更高水平单位的数据。多水平模型能够直接将这些信息纳入模型之中，而不需进行特殊的分析。

尽管直接拟合聚集数据在统计上是有效的，但一般地说，在分析中组合进反映抽样设计的权重是重要的。这样，可获得稳健的总体估计以及避免模型的错误设置。第3章讨论了将单位权重引入多水平分析的方法。

1.4 重复测量资料

当同一个体或单位被测量多次时，就产生了另一个层次结构数据的例子。一个常见的情形即动物或人类生长研究，这里，测量点嵌套进作为水平2单位的个体，而测量点为水平1单位。这种数据结构具有典型的层次结构特征，因为一般说来，个体之间的变异较之个体内测量点之间的变异要大的多。例如，在儿童身高生长的情形下，一旦调整了年龄的总趋势后，同一个体不同测量值之间的变异一般不会高于儿童之间身高变异的5%。

对于这种重复测量资料的分析，过去有相当多的文献或多或少成功地探讨了统计方法问题(例如Goldstein，1979)。一般地说，这些方法需要数据是平衡的，即要求每一个体有相同次数的重复测量值。作这种设计还有可能，但在实践上，测量次数常是不规则的，有的个体有很多测量值，而有的可能只有一个。通过将这种数据当成为一般的两水平结构，我们可应用标准的多水平模型技术处理任何测量模式的数据，从而提供统计上有效的参数估计。同时，拟合两水平数据结构亦显示了对这种数据在概念上更简单的理解，并导致一系列有趣的扩展，这一问题将在第6章进行探讨。

拟合生长曲线的研究有一个重要扩展。在多水平分析框架中，在最简单的情形下，每一个体可以具有它们自身的生长曲线，而个体(水平2)之间的截距和斜率可以变异。当水平1的测量(被看成是从每一个体生长曲线的偏离)不独立而具有自相关或时间序列结构时，传统方法和基本的多水平方法都是不适宜的。这种情况可能发生于重复测量的时间间隔很短时，其结果是，一个测量点离曲线远，意味着下一个测量点也离曲线远。

1.5 事件历史模型(event history models)

在各种情形下拟合时间区间都是重要的。在工业上，元件的“失效时间”是质量控制的关键因素；在医学上，“生存时间”是研究某种疾病的一种基本测量；在经济学上，人们常对“就业期间”感兴趣；在教育学上，研究者常研究学生花费在不同任务或活动上的时间。

在研究就业期间时，每一个体一般都将渡过就业和失业的几个时期，他们的特征诸如资格水平等同时也发生改变。从建模的观点看，我们需要拟合每种就业类型的时间长度，并将其联系到常数因子如个体的出身或性别，同时也要联系到变化的或时间依赖的因子如资格和年龄。多水平结构相似于重复测量数据的结构，而且可有一个更高水平的层次，因为作为水平2单位的个体自身典型地嵌套进工作地点，故工作地点形成水平3单位(我们可将这一研究目的中的失业当作为一个特定的工作地点)。事实上，这一结构更加复杂，因为这些工作地点随时间改变，如果我们希望将这一水平包括在模型中，则需要对这些单位作交叉分类，紧接着我们将讨论交叉分类的问题。

在研究事件期间数据(event duration data)时，存在一个特殊的问题，即某些信息截尾(censored)而不能观察其实际的期间，我们只知道它长于某一特定值，或在某些情形下短于某一特定值。第9章多水平事件历史模型将讨论处理这一问题的方法。

1.6 离散型反应变量资料

以上只是假定反应变量是连续分布的，如考试分数或身高。但许多统计模型要处理分类变量，最简单的情形即相对数。我们常对死亡率或考试通过率以及它们在地区之间或学校之间的变异感兴趣。

在研究一个总体的死亡率时，人们常试图了解与死亡有关的因素在地区间或社区间的变异，这就产生了一个基本的两水平结构，个体为水平1，地区为水平2。典型的研究可能拥有某期间的死亡记录和死者的个人特征，对照个体的情况以及地区的特征如人口或人群组成。分析的兴趣之一常是了解这些解释变量是否能够解释死亡率在地区之间的变异，另一个兴趣就是了解死亡率的差别(比如男性和女性之间)是否在地区之间不同。

这种模型即广义线性模型的一部分，对于单水平资料而言，已经发展了相关理论与技术(McCullagh和Nelder, 1989)，也有相应的软件。本书第7章将描述如何用多水平方法拟合多项分类反应变量、以及离散和连续变量的混合模型。

1.7 多元回归模型

两水平模型一个有趣的特殊情况即多元线性或广义线性模型。假定对某一个体作了几种测量，如收缩压、舒张压和心率。如果希望将它们作为反应变量一起分析，就可以设置多元回归模型，分析解释变量如年龄、性别、社会背景和吸烟等与这三个反应变量的关系。我们可以将其作为两水平模型，每一个体作为一个水平2单位，3种测量组成了水平1单位，这如同重复测量模型中的测量点一样。本书第4章将显示用此设计所定义的多元多水平模型所产生的效率。例如，通过考虑更高的水平如门诊，我们则可简单地设置多元多水平模型。此外，如果某些个体没有所有的测量值，如随机地缺失一个血压值，则它被自动考虑进分析之中，而不需要特定的步骤去处理这种缺失值。

当缺失值是因为设计而不是随机产生的时候，多元多水平模型可用于解决这个问题。如某些调查类型中的旋转设计、某些教育评估类型中的矩阵抽样设计，每一个体仅测量一组反应变量中的某几个。例如，在大规模考题研究中，每个学生做全套试题的代价可能太大，故此，每个学生可以只做其中的一种组合试题。这种设计被视为多元反应即含有全部试题的反应向量，而每个学生都有某几种题的缺失。这种设计可能变得相当复杂，尤其是学生又聚集到学校时。若将这种数据视为单一的层次，即多元变量为水平1单位，我们就获得了有效和可解释的分析方案。

此外，多元多水平模型也是处理多水平模型中缺失值的基础，这在第11章中讨论。

1.8 非线性模型

某些类型的资料可用非线性而不是线性模型来更好地拟合，如离散型反应变量的建模，正规地说，应该是非线性数据的建模。这种方式可以更方便地拟合许多类型的生长资料，尤其是快速和复杂的生长期间如婴儿早期生长以及接近成年期的生长，其生长曲线接近上极限(Goldstein,1979)。此外，当反应变量具有某种固定的约束，如患者的生化活性模式显示出渐进或周期模式时，采用纯粹的线性模型是难以拟合的。本书第5章将介绍这类模型，以及显示如何将线性多水平模型推广到这种情形的方法。此外，还讨论了将方差和协方差拟合成解释变量非线性函数的问题。

1.9 测量误差

许多科学测量都包含了某些误差成份，这或许是由于观察者误差如动物体重测量，或者是因为只能测量行为的一个小样本如教育测试。众所周知，当统计模型中变量的误差较大时，除非进行仔细的调整，否则，统计推论可产生很大的误导(Fuller，1987)。在简单回归模型中，当解释变量有测量误差时，较之没有测量误差的情形，回归斜率通常被低估。这在学校效果研究中特别重要，因入学成绩常有较大的测量误差。

一个重要的情形是，水平2变量是一个“组合变量”(compositional variable)，即水平2单位中水平1单位特征的聚集测量。例如，一所学校中所有学生入学成绩的平均值或标准差即组合变量，它有时确实影响到每个学生的最后考试成绩。同样，在住户调查中，我们可能考虑到，每个社会群体中平均社会地位或者具有该社会地位的住户所占的比例是重要的解释变量，故将其纳入模型。问题出现在，若只能收集到某几个水平1单位的数据时，我们就只有一个组合变量的估计值，故含有测量误差。这在住户调查中是很典型的情形，这种误差常很大。在许多教育研究中，当在班级或学校中抽取小比例的学生时，亦常产生这一问题。

第10章讨论了水平1和水平2变量的测量误差问题。

1.10 随机交叉分类

虽然本书名曰多水平的模型，但我们已将其用于交叉分类同时又有聚集结构的例子了。在地理学研究中，个体所属的地理区域取决于所考虑的环境或背景，如以休闲为目的的地理位置单位可能不同于工作或学校的环境单位。我们可以将个体同时归属于两种不同的环境，而每种环境可能都给这个人的生活带来影响。

在多数学校系统中，学生从小学到中学或高中，我们会指望所上过的小学和中学都对该学生的成绩、行为和态度具有影响。这时水平2单位有两种：小学和中学。将小学和中学交叉分类，其分类“格子”中可能有的有几个学生，有的没有学生。这个例子还可能有第三种分类如学生居住的地区或邻里。

这里又产生出一个特例。对单一水平2分类而言，水平1单位可同时属于多个水平2单位，例如社会学中儿童与父母关系模式的研究(一个儿童可同时与亲生父母及养父母有关系)。各组成员的特征都会影响该个体，依其暴露于各组的关系而定。这种多单位关系可视为多向分类。因而，当个体属于两组时，我们将这两组作交叉分类，将该个体归于分类的一个格子。

在本书第8章，将描述如何将这些随机交叉分类结构处理成广义多水平模型的特例。这不仅能有效地对这些结构数据建模，而且可采用同样的软件和同样常规的方法处理层次结构与随机交叉分类结构混合时的复杂数据。例如，在流行病学研究中，使用经培训的调查员进行调查，同一现场的个体可能接受不同调查员的调查。这就导致了水平1上的复杂结构，即同一水平2单位中的个体又可按调查员作交叉分类。这就是层次结构与交叉分类结构的混合型数据。

1.11 结构方程模型

在许多社会科学领域，精确测量是困难的。研究者或许可假定存在某种潜在的结构，它虽然不能直接测量，但可通过测量与之相关的一些指示变量而间接加以评价。结构方程模型作为因子分析的特例被发展用于这个目的，尤其是用于个体行为、态度和心理活动的分析。如果个体嵌套进一个层次，如前面所讨论的相同理由，在多水平框架中进行分析是重要的。例如，我们或许对与一些指示变量有关的个体态度感兴趣。若可得到不同时间测量的这些指示变量数据，则可假定如下模型，潜在的态度可在个体之间变异(水平2)，也可在个体内不同时间之间变异(水平1)。此模型还可进一步扩展到研究态度在不同时间是否存在系统改变，以及这种改变有无个体之间的变异。第11章将讨论这类模型。

1.12 聚集水平与生态学谬误

前面已提及，当研究变量之间关系时，常发生围绕着什么是适宜的“分析单位”的争论，多水平模型可用于解决这一问题。

关于生态学或聚集性谬误的最著名的早期研究之一，是Robinson 1950年在美国所作的关于读写能力与种族背景关系的研究。他发现，在9个调查区域，平均读写率与美国黑人比例的相关关系为0.95，但当忽略区域，即在个体水平上分析，相关关系为0.20。他指出，聚集水平关系不能够作为个体水平关系的估计，这一观点现在已得到很好的理解。第3章将讨论仅在聚集水平建模时的某些统计后果。

但有时候，聚集水平是感兴趣的主要水平。尽管如此，多水平方法仍然是有用的。现考虑Derbyshire 1987的例子，其目的是想预测每个地方行政区域处于危险状态儿童的比例，以便分配中央政府经费。个体儿童的资料是可得的，因而，可以应用基于地区和基于儿童以及住户的变量作出预测。一个儿童处于危险状态的概率可通过以下单水平模型估计：

logit(P)=-6.3+5.9X1+2.2X2+1.5X3

这里，X1是地区中单亲家庭儿童的比例，X2是每个地区中每房间超过1.5人的住户比例，X3是户主为新英联邦巴基斯坦人住户的比例，所有这些解释变量都是在地区水平(聚集水平)上测量的。P为每个地区处于危险状态儿童的比例。尽管这种分析在地区水平上进行(对每个地区儿童数作适当加权)，但将其作为两水平模型仍具有许多优点。儿童为水平1单位，地区为水平2单位，反应变量为儿童处于或不处于危险状态的二分类变量。

首先，这使我们可能纳入在儿童水平上测量的重要变量，例如，每个儿童的居住条件是否过分拥挤。纳入这样的水平1变量，或许可以大大改善模型的预测能力。利用这一模型的结果，我们可以通过聚集已知的生活在拥挤家庭儿童的数目，对每个地区作出预测。

其次，纳入儿童或其家庭特征到模型中，可形成经费分配方程。这一方程考虑了与每个地区实际组成(即这些儿童特征)有关的成本与利益。

1.13 因果关系

自然科学进行因果推论时，实验具有最重要的地位。因为实验研究可以随机化分配实验对象，可以严格控制其它干扰因素；此外，实验结果超越时间与空间具有普遍性，因而得到广泛认可。本书中描述的多水平模型可以应用于实验和非实验研究数据的分析，但因果推论是不同的。本书中的多数例子来自人类科学的非实验研究，故有关因果推论的几句进言或许有用。

如果我们希望回答有关班级大小与考试成绩之间可能的因果联系问题，则需要设计一个实验研究，即随机分配不同数量的水平1单位(学生)到水平2单位(班级教师)，观察几年后分析结果，这将花费成本并可能引起伦理上的问题。除这个实践上的问题外，任何单一的研究结果都受到时间和地点的限制，因而在得到可靠结果之前需要昂贵的重复研究。任何研究的特定背景是重要的，例如教育系统状况以及研究时可以得到的资源等，从实验的观点看，困难在于随机分配所有这些可能的混杂因子在实践上不可行的。

这并不是说不应该进行随机化实验研究，相反，在作出一般的因果推论上，实验具有潜在的优势。在因果联系研究中，实验无论成功还是失败，它对于需要再进行研究的结果几乎总是具有进一步的解释，即使一项实验看上去是否定可能的联系，例如表明班级大小与成绩之间有微不足道的联系，但在说明这一联系在总体中的特定亚群中是否存在时，这一实验结果仍然是有效的。

在因果联系的解释工作中，我们需要基于某些原则和理论的指南，这些指南将告诉我们，应该测量哪种类型的事物及其结果的重要性。例如，在孕妇死亡率与孕妇吸烟之间关系的研究中(Goldstein，1976)，我们可以试图调整诸如贫穷的混杂因子，它或许既与吸烟行为有关，也与死亡率有关。我们可以研究这种关系在不同组之间怎样改变，也可以寻求能够解释这种变异的某些因素。在某些情形下，我们或许也可以进行随机化实验，例如，对随机选择的组进行健康教育干预，并与“对照”组比较死亡率的高低。

这里，多水平方法在以下两方面是有用的。首先，孕妇可能嵌套进不同的医疗机构和地区，地区间和医疗机构间的变异或许影响死亡率以及死亡率与吸烟之间的联系；其次，我们常常能够获得有关吸烟的一系列测量，于是可以使用前面讨论的重复测量两水平模型，研究吸烟的改变怎样联系到死亡率的改变，以及更详细地探讨它们之间可能的因果机制。

多水平模型常用于识别具有极端值的单位。例如，在学校教学效果研究中，对学校水平残差估计的考察(第3章)，可以发现在调整了诸如学生入学特征这些“背景变量”(contextual variables)之后的那些高度不典型的学校。这些学校可选出来作进一步的考查，例如通过深入的个案调查，从而形成定量的多水平分析和定性的调查相结合的研究，这将有助于了解更详细的因果过程。

在Holland(1986)和Cochran(1983)的研究中，可看到观察性研究有关因果推论必要条件的讨论。

最后，多水平模型常用于预测而不是因果推论，例如本书第6章中用两水平儿童生长模型预测他们的成年身高。在学校效果研究中，我们或许不仅对造成学校差异的原因感兴趣，而且更为关心的是，对于给定的特征和入学成绩的学生而言，哪所学校最可能产生最好的平均考试结果。

1.14 限制

本书的目的是，集中介绍用于分析高度结构化的包括分层和交叉分类数据的统计技术。这些技术的应用已经对许多重要问题产生了新的和重要的洞察与理解。当可广泛地获得分析软件时，其应用将变得相对简单甚至是常规性的。

尽管多水平模型是很有用的，但它并非解决一切问题的灵丹妙药。在某些情形，如数据具有很少的结构性，则几乎不需要多水平方法，用传统的单水平模型分析和交流就足够了。另一方面，多水平分析可以更精确地了解因果关系，如有效利用学生成绩了解学校间的差别，但这并不足以用来代替实际的专业理论，也不能取代任何统计建模的仔细考虑。进一步说，通过更加复杂的建模，它们可扩展而未必简化专业解释。

总之，多水平模型是工具，需要细心地使用和理解。