第一章 统计模型、目标和优劣评判
第一节 数据、模型、参数和统计量
第一讲 数据和模型
大多数的研究和实验,不论科学上还是工业上,规模大还是小,都产生数据。而对于这些数据的分析则是整个努力的最终目标。
数据常以下列4种形式出现:
(1)矢量。其元可为标量、测量值、或性质组别。例如一列测量值的时间序列。
(2)矩阵。其元可为标量或性质组别。例如数码图像。例如基于n个个体的协变量和应变量的常规测量(见例1.1.4,2.2.1讲和6.1节)
(3)高维数组。其元可为标量或性质,比如列联表(见第六章),更一般如基于许多个体的多因素多应变量数据。
(4)以上的综合及其它。特别例如信号处理中的函数,种系进化学中的树等等。
科学乃至社会(统计学家也是其中的一员)的目标是用我们所有的知识技能,到数据中提炼有用的信息。而数理统计的独特角度是把任何数据都看作来自于某随机试验的结果,并且对该随机试验建立数学模型。
对于我们将在具体情况下讨论的具体模型,我们不细究它们的合理性,这也超出本书范围。在第二卷第一章,我们将介绍一般模型诊断的工具。此外,我们将适当地讨论那些隐藏在在数据中能让表面上合理的模型变得具有误导性的数据缺陷。一大类问题的共因,常被称为粗误差,将会在坚定性(robustness)章节(3.5.3)中深入讨论. 本书中我们讨论的模型总是处于基础地位的模型,而读者必须谨记一句老话“魔鬼常匿于细节”。在我们这里讨论的原则和展开的计算只能对实际工作(如科学研究及政策制定)中所应用的统计分析的作一个有用参考。实际应用中对模型建立起到最主要作用的因素常常是该领域的专家意见。根据乔治.博科思,一个先验于任何模型观点是:“模型当然从来不会是真理,但幸运的是我们仅需要它们能帮忙。”
本书中我们从现成的某个候选模型开始,研究如何
(1) 将数据结构和我们的目标准确地概念化。为此条我们将从紧接着下面的一个简单模型起步,在1.2-1.5节和全书各处展开讨论。
(2) 找到从数据提炼有用信息的办法。特别地,要给出办法来衡量试验结果普遍性。举一个例子,如果我们在手上一组数据中看到某个效应,那我们在多大程度上可以认为这是一个对于任何数据的普遍效应呢?估计、检验、置信域、和更一般流程将在第二至四章讨论。
(3) 衡量所提出方法的有用性。我们将在1.3节从决策论开始讨论这个问题,并在第三、四章讨论最优化原则讨论时继续。
(4) 判断我们所设立的模型能够既定目的下比较好地近似真正的数据生成机制。拟合度检验、坚定性和诊断将在第二卷第一章作讨论。
(5) 引导我们开发更一般化、更准确问题描述从而使我们能尝试搭设更好的模型。对于模型层次的讨论将贯穿本书始末。
下面是一些例子。
(a) 我们面前有个<bblatex>N</bblatex>元总体,比如一箱经加工的零件。其中有未知的<bblatex>N\theta</bblatex>个是次品。对全部零件逐个检验因过于昂贵而不可行。 所采集到的数据为一个样本中的次品数。
(b) 欲研究一个身理或经济变量,比如身高或收入在一个庞大的人口中如何分布。进行全面逐个普查是不可能的。于是这个研究将基于测量和一个从总人口随机地抽取的基于<bblatex>n</bblatex>个个人的样本。而当人口充分大时,我们采用放回抽样(这在一定程度上简化了建模)来近似事实上应该采用的不放回抽样过程。
(3) 某实验对一个物理常数<bblatex>\mu</bblatex>进行测量得到<bblatex>n</bblatex>个独立测量值。因为误差的关系,这些测量值会在一定程度上随机地波动;于是这些数据们可被看作为<bblatex>\mu</bblatex>加上一个随机误差。
(未完)