shoeda
第一章 女士品茶
那是20世纪20年代后期,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学家精英们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。然而在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。
他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中,坚持茶有不同味道的那位女士将被奉上一连串的已经调制好的茶,其中,有的是先加茶后加奶制成的,有的则是先加奶后加茶制成的。
写到这里,我可以想象,部分读者对这种实验不以为然,认为它不过是一帮精英们与夏日午后的一个小消遣。他们会说:“这位夫人能不能区分两种不同的注茶方式,又有什么大不了的呢?这个问题并没有什么科学价值,这些大人物更应该把他们的天才用在对人类有所裨益的事情上去。”
不幸的是,不管外行对科学及其重要性怎样想象,从我个人的经验来看,大多科学家之所以从事科研活动,只是因为他们对结果感兴趣,或者能够在工作中得到理性的刺激。好的科学家很少想到他们工作的最终重要性,剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来,但这无关紧要,因为,实验的真正乐趣,在于找到一种判断该女士是对还是错的方法来。于是,在蓄着胡须先生的指导下,大家开始讨论应该如何进行实验判断。
接下来,在场的许多人都热心地加如到实验中来。几分钟内,他们在那位女士看不见的地方调制出不同类型的茶来。最后,在决战来临的气氛中,蓄短胡须的先生为那位女士奉上了第一杯茶,女士品了一小会儿,然后断言这一杯是先倒的茶后加的奶。这位先生不加评论地记下了女士的说法,然后,又奉上了第二杯……
科学的合作性质
这个故事是我在20世纪60年代后期,从一个当时在场的先生那里听到的。这位先生就是休·史密斯(Hugh Smith),但他都是以H·费尔菲尔德·史密斯(H·Fairfield Smith)的名义发表科研论文。我认识他的时候,他在位于斯托尔斯(Storrs)的康涅狄格大学(the University of Connecticut)任统计学教授,而我则是两年以前在这个大学拿到了统计学博士学位。在宾州大学(the University of Pennsylvania)教了一阵子书后,我加入到了辉瑞公司(Pfizer Inc.)的临床研究部门。这是一家大型制药公司,它的研究园区坐落在格罗顿(Groton),离斯托尔斯大约一个小时的车程。当时,我是那里唯一的统计学家。在辉瑞期间,我要处理许多疑难的数学问题,还要负责给他们讲解这些问题,并告诉他们,对这些问题,我个人的结论是什么。
在辉瑞工作期间,我发现,科研工作几乎不能独立完成,通常需要不同智慧的结合。因为,这些研究太容易犯错误了。当我提出一个数学公式作为解决问题的工具时,这个模型有时可能并不适合;或者我就所处理情况而引入的假设并不真实;或者我发现的“解”是由公式中的失误部门推导出来的;甚至我可能在演算中出了错。
无论何时,我去斯托尔斯的大学拜访,与史密斯教授探讨问题,或者,与辉瑞的化学家、药理学专家坐在一起讨论,我提出的问题都会受到欢迎,他们对这种讨论充满兴趣和热情。对大多数科学家来说,工作中令他们最感兴趣的,就是解决问题时那种兴奋感。因此,在检验并试图理解问题时,他们期盼着与他人交流。
实验的设计
剑桥那个夏日午后的情形正是如此,那个留着短胡须的先生就是罗纳德·艾尔默·费歇尔(Ronald Aylmer Fisher),当时他只有三四十岁。后来,他被授予爵士头衔。1935年,他写了一本叫《实验设计》(The Design of Experiments)的书,书的第2章就描述了他的“女士品茶”实验。在书中,他把女士的断言视为假设问题,他考虑了各种可能的实验方法,以确定那位女士是否能做出区分。设计实验时的问题是,如果只给那位女士一杯茶,那么即便她没有区分能力,她也有50%的机会猜对。如果给两杯茶,她仍有可能猜对。事实上,如果她知道两杯茶分别以不同的方式调制,她可能一下子全部猜对(或全部猜错)。
同样,即便这位女士能做出区分,她仍然有猜错的可能。或者是其中的一杯与奶没有充分地混合,或者是泡制时茶水不够热。即便这位女士能做出区分,也很有可能是奉上了10杯茶,她却只是猜对了其中的9杯。
在这本书中,费歇尔讨论了这个实验的各种可能结果,他叙述了如何确定这样一些问题:应该为那位女士各奉多少杯茶?这些茶应该按什么样的顺序奉上?对所奉各杯茶的顺序应该告诉那位女士多少信息?依据那位女士判断的对错与否,费歇尔搞出了各种不同结果的概率。但在讨论中,他并没有指明这种实验是否真的发生过,也没有叙述这次实验的结果。
费歇尔书中有关实验设计的著述是科学革命的要素之一,这场革命在20世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前,科学实验已经进行了几百年。在16世纪后期,英国的威廉·哈维(William Harvey)用动物做实验,他将不同动物静脉和动脉里的血液堵住,试图追踪血液从心脏到肺,回流到心脏,流向全身,再回到心脏的循环路线。
费歇尔没有发现实验是增长知识的方法。费歇尔之前,实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验,而二流的科学家常常从事的是积累数据的实验,但对知识增长没有什么用处。为说明这点,可以举发生在19世纪后期的一个例子。那时的科学家就测量光速做了许多无关要旨的努力,而直接到美国物理学家艾伯特·米切尔森(Albert Michelson)用光线和镜子建造了一个特别精巧的系列实验,才第一次得到好的估计。
在19世纪,科学家很少发表实验结果。他们所做的是论述自己的结论,并发表能证明结论真实的数据。格雷戈尔·门德尔(Gregor Mendel)没有展示出他全部豌豆培育实验的结果,他叙述了他的系列实验,然后写道:“两组系列实验的前10个数据可以用来说明……”在20世纪40年代,费歇尔检验了门德尔用来说明结论的数据,发现这些数据过分完美,以至于失真,它们并没有表现出应该具有的随机程度。
尽管科学从审慎思考、观察和实验发展而来,但从来不清楚应该怎样从事实验,实验的全部结果通常也没有展现给读者。
19世纪末和20世纪初的农业研究中,上述情况尤为明显。20世纪早期费歇尔在农业实验站工作,在费歇尔去那儿工作之前,这个实验站已经进行了约90年的肥料构成(称之为人工肥料)实验。在一个典型的实验中,工人将磷肥和氮肥的混合物撒在整块田中,然后种植作物,测度收成和整个夏季的雨量。这里有精巧的公式用来“调整”某年或某块地的产量,以便与另一块地、或同一块地的另一年产量相比,这被称为“肥力指数”。每一个农业实验站都有自己的肥力指数,而且都认为自己的指数是最精确的。
90年代的实验结果不过是一堆未经发表、了无用处的混乱数据。看来某些品种的小麦对某种肥料反应优于其它品种,但只是在降雨过量的年份如此。其它实验似乎显示:第一年用钾硫化物,第二年用碳酸硫化物,会使某些品种的马铃薯增产,而对其它品种并非如此。因此,就这些人工肥料,充其量可以说,其中有些在有的时候,可能或大概有效。
作为一个卓越的数学家,费歇尔审视了农业科学家用来修正实验结果的肥力指数,这些指数是用来解释不同年份气象变化所造成的差异的,他还检查了其它农业实验站所用的同类指数。当简化为基本的代数式时,这些指数不过是同一公式的不同表现形式,换句话说,看似激烈争斗的两个指数,其实起着同样的修正作用。1921年,费歇尔在农业科学领域的领军期刊《应用生物学年报》(the Annals of Applied Biology)上发表了一篇论文,文中他指出了采用哪种指数并没有什么差异,并且,所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续20多年的科学论战。
费歇尔接着检查了过去90年来的雨量和收成数据,指出年度间不同气候的影响远远大于不同肥力的影响。用费歇尔后来在他的实验设计理论里发明的一个词来说,“混合”(confounded)的,这意味着用已有的实验数据是不能将二者分开的。90年代的实验和20年的科学论战几乎是无谓的浪费。
这使得费歇尔专注于实验和实验设计的思考。他的结论是:科学家需要从潜在实验结果的数据模型开始工作,这是一系列数据公式,其中一些符号代表实验中将被搜集的数据,其它则代表实验的全部结果。科学家从实验数据开始,并计算与所考虑科学问题的相应的结果。
让我们考虑一个关于一个老师和某个学生的简单例子。这个老师非常想找出一些关于这个孩子学习情况的测试数据,为了达到这个目的,老师对孩子进行了一组考试,每一个考试都在0到100之间评分,任何一个单一的考试都不可能对孩子知识的掌握提供可靠的评估;这个孩子可能是没有学习多少考试所涉及的内容,但是知道不少考试以外的事情;可能是这个孩子与父母发生了争执。由于种种原因,单一考试不能对知识量提供好的估计,所以老师进行了一组考试,然后计算出所有考试的平均分来评价孩子的知识量。这样的估计结果会更好,多少分是孩子知道的实验结果,而每一个单独考试的分数则是数据。
那么老师应该如何组织考试?是搞那种只包括几天前所教授内容的系列考试,还是每次考试都从考试前所教授的全部内容中提取一部分?考试是一个星期搞一次,还是每天搞一次?或者在每个教学单元结束时搞?所有这些都是实验设计涉及到的问题。
如果农业科学家想知道某种人工肥料对小麦生长的效用,就要构建一个实验以取得效用估计时所需要的数据。费歇尔表明,实验设计的第一步是建立一组数学公式,用以描述待搜集数据与欲估计结果之前的关系,因此,任何有用的实验必须是能够提供估计结果的。实验必须是有效的,能够让科学家测定出气候的差异和不同肥料的使用对产量差别的影响。特别是,有必要包括同一实验中打算加以比较的实验处理(treatments),即那些后来被称为“控制组件”(controls)的东西。
在他那本关于实验设计的书中,费歇尔提供了几个实验设计的范例,并导出优秀设计的一般原则。然而费氏方法中涉及到的数学非常复杂,多数科学家设计不了自己的实验,除非他们遵循费歇尔书中提出的实验设计中的某个模式。
农业科学家认识到费歇尔工作的伟大价值,在大多数说英语的国家中,费氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发,用来论述不同实验设计的完整科学文献发展起来。这些设计被应用到农业以外的领域,包括医学、化学和工业质量管理。在许多案例中,所涉及的数学高深且复杂,但此时此刻,我们不妨停下来想想,科学家不可能不假思索地动手实验,这通常需要长时间的审慎思考,而且,其中通常会有大量的、高难的数学。
至于前面所说的女士品茶——那个在剑桥晴朗的夏日午后所做的实验中,那位女士怎样了呢?费歇尔没有描述这项实验的结果,但史密斯教授告诉我,那位女士竟然正确地分辨出了每一杯茶!
yihui
辛苦shoeda了!!
P.S. 繁体的书别人已经还我了,不过eshanzi在西南交通大学就没办法了……
shoeda
能不能找到原版的???
yihui
估计很难很难
蟋蟀
hehe 记着了
eshanzi
呵呵,都不忍心麻烦益辉了哟,
wngbaq
我们图书馆有
粗略的看了一遍
不错
shoeda
哭啊!!我找不到图书证去学校图书馆看书了!!
在网上订购这本书,居然又脱销了!!
hao-jt
真希望能有电子E书版
beebo
有英文电子版的,谁找找
sin
统计,改变了世界
有简体中文版的吗
sin
[quote]引用第19楼谢益辉于2006-05-30 01:18发表的“”:
辛苦辛苦!杨哥真是好人呐![/quote]
辛苦
录完需要一定的时间哦
到时候那位高手做成e书 提供给大家下载就更值得期待了
加油
yangbo636
[quote]引用第1楼谢益辉于2006-05-24 01:02发表的“”:
呵呵,这本书应该挺有意思的,我曾经读到一本叫《统计,改变了世界》的书(繁体竖排),第一章就提到《女士品茶》的故事。
也多谢杨兄的支持哈! [/quote]
有幸两本都看过 学统计的人都应该看看
shoeda
第2章 偏斜分布
像人类思想史上的许多革命一样,要想找到统计模型成为科学组成部分的确切时刻,也是很难的。人们可以在19世纪初德国和法国数学家的工作中找到可能存在的特例,甚至在17世纪伟大的天文学家约翰尼斯·开普勒(Johannes Kepler)的论文中,也能找到某种启示。正像本书前言中所提到的那样,拉普拉斯(Laplace)发明了误差函数来说明天文学中的统计问题,但我仍然倾向于把统计革命的发生定位于19世纪90年代K·皮尔逊(Karl Pearson)的工作。查尔斯·达尔文(Charles Darwin)把生物变异认作生命的基本面,并将之作为其适者生存理论的基础。然而是他的英国伙伴K·皮尔逊首先认识到统计模型的根本性质,以及这种模型对19世纪科学中的决定论观点提供了哪些不同的东西。
当我在20世纪60年代开始学习数理统计时,K·皮尔逊的名字在课上很少被提到。当我与这一领域的大人物共同探讨一些问题时,也听不到对K·皮尔逊及其著作的参考。他或是被忽略了,或是被视为行为早已出局的次要人物。例如,美国国家标准局(the U.S National Bureau of Standards)的邱吉尔·艾森哈特(Churchill Eisenhart)当时正在伦敦大学学院(Unversity College,London)学习,那是K·皮尔逊人生的最后几年,艾森哈特记忆中的K·皮尔逊不过是一个精神不足的老头儿。统计研究的步伐已经将他推出局外,他和他的工作被埋没进故纸堆中,青年学生神采飞扬,集聚在新的大人物周围学步,其中之一,便是K·皮尔逊自己的儿子,但是没有人去拜见老皮尔逊,他的办公室孤零零地坐落在那里,远离着活跃的、振奋人心的新研究。
当然并不总是如此,在19世纪70年代,年轻的K·皮尔逊离开英国,到德国去从事政治科学的研究生学习。在那里,他倾心于卡尔·马克思(Karl Marx)的著作,为了表达崇拜之情,他把自己名字的拼法从Carl改成Karl。带着政治学博士的学位,他回到了伦敦,并在这个领域写过两本值得重视的著作。在维多利亚时代的英国,伦敦的拘谨之风最甚,K·皮尔逊却大胆地效仿德国和法国上流社会的沙龙,组织了一个青年男女谈话俱乐部(Young Mens and Momens Discussion Club)。俱乐部中青年那女平等地聚集在一起(未婚少女并没有人陪伴),讨论世界上重大的政治和哲学问题。K·皮尔逊正是在那种环境下与夫人项遇而结缘的,这个事实使人感到发起这类俱乐部可能另有动机。这个小小的社会冒险对我们进入K·皮尔逊的内心世界提供了帮助,可以见证他对已经建立起来的传统是那样地不以为然。
尽管拿的是政治学博士学位,K·皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。19世纪80年代,他发表了《科学法则》(The Grammar of Science),这本书后来再版了多次。在第一次世界大战之前的一段时间里,它被视为关于科学和数学性质最伟大的著作之一,其中充满了闪光的、原创性的、具有洞察力的见解,这使该书成为科学哲学的一本重要著作。同时,它又是以流畅、简单的风格写成、任何人都可以接受,你不必懂得数学就可以理解《科学的法则》。尽管从写作之日算起,这本书已经有100多年的历史了,但其中充满洞察力的见解和思想,对21世纪的数学研究,仍然是适用的。而它所提供的对科学性质的理解,至今也是真实的。
高尔顿的生物统计实验室
在人生的这个时段,K·皮尔逊感受到了英国科学家费朗西斯·高尔顿(Francis Galton)爵士的影响。大多数人知道高尔顿这个名字,缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对每一个人都是独特的,此外,还有通常用于识别和分类指纹的方法。指纹的唯一性存在于手指类型中出现的不规则标识和切面,这被称为“高尔顿标识”(Galton Marks)。高尔顿做的远比这多,作为一个只是将生物学算作其业余爱好的科学家,通过数字模型的研究,他寻求将数学的严密引入生物学,这同样是富有价值的。他所初创的各种调查当中的一项,是对天才遗传的研究。在这项研究中,他搜集了有关父子的信息,这些人因智商高而闻名。但由于当时对智力的测量没有什么好的办法,他发现研究这个问题特别困难,于是他决定转向诸如身高之类的遗传特性的研究,因为这更容易测量些。
高尔顿在伦敦成立了生物统计实验室(biometrical laboratory),并打广告动员不同的家庭来做测量。在这个实验室,他搜集身高、体重数据,测量特殊的骨骼和家庭成员的其它特性。他和他的助手将这些数据列成表格,并一再检验,他是在寻找利用父母测度数据来推断子女的某些办法。比如说,很明显,高个字父母容易有高个子的小孩,但是不是存在某些数学公式,只用父母的身高就可以预测孩子将来有多高呢?
相关与回归
高尔顿用这种方法,发现了他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回归。在第5章到第7章,我们将看到,费歇尔如何能够将高尔顿向平均值回归的思想纳入统计模型,而这种模型现在支配这经济学、医学研究和工程学的很多内容。
高尔顿仔细思考了他的惊人发现,而后认识到这必定是真实的,在进行所有观察之前这就是可以预言的。他说,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样高,在这种情况下,一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者这一代人的儿子也将如此,那么会有一些儿子身材更高。这个过程将一代一代传下去。同样地,将会有一部分儿子身材比他们的父亲矮小,而且有一部分孙子将更加矮小,如此下去,不用多少代,人类种族就将有特别高和特别矮的两极构成。
上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。只有非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子平均身材变高,才能出现这种稳定。向平均值回归是一种保持稳定性的现象,它使得某给定物种代际之间大致相同。
高尔顿发现了这种关系的一种数学测度,他称之为“相关系数”(coefficient of correlation)。高尔顿给出了明确的公式,以计算这个系数,所用的资料则是在生物测量实验室搜集的。这是一个非常详细而明确的公式,它只计算了向平均值回归的一个方面,但没有告诉我们任何有关这种现象原因的信息。正是在这个意义上,高尔顿最先使用了“相关”这个字眼,这之后它演变进入了大众词汇。与高尔顿特定的相关系数相比,“相关”经常被用来表示更为模糊的东西,尽管“相关”本身有严格的科学含义。科学圈外的人经常说到这个词,似乎它描述了两种事物的数学测量,否则,当你使用高尔顿用于特别目的的“相关”这个词时,就不必那么精确。
分布与参数
有了这个计算相关的公式,高尔顿实际上已经非常接近新的革命性观念了,这个观念革命在20世纪几乎修正了所有的科学。但却是他的弟子K·皮尔逊,在非常完整的意义上第一个饿规范地阐明了这个观念。
为了理解这个革命性的观念,你必须将已有的关于科学的成见抛开。通常我们被教导,科学就是测量,我们进行精心的测量,并用它来寻找描述自然的数学公式。在高中物理课中我们学过,当时间给定时,一个自由落体的运行将遵循一个含有符号“g”的公式,这里的“g”是关于重力加速度的常量。我们学过可以用来确定“g”值的实验。然而,当高中生们进行一系列确定值的实验时,顺着斜板滚动的小球,并测量小球需要多少时间到达不同的位置时,发生了什么呢?这就是很少得出确切的结果。学生进行实验的时间越长,困惑就越多,因为不同的实验得出了不同的“g”值。老师仅凭自己优越的知识来审视学生的实验,并认定学生之所以得不到正确的结果,要么是因为工作草率,要么是因为不够细致,要么是抄错了数据。
老师没有告诉学生的是:所有实验都是草率的,并且,即便是最精心的科学家,也很少得到确切的数值。不可预见和不可观察的小扰动在每一个实验中都有:室内的空气可能太潮湿,或者落体在滚动前卡住了一个微秒,旁边飞过的蝴蝶可能会有其影响:造成气流的轻微扰动。人们从一个实验中真正得到的是散乱的数据,其中没有一个单个数据是确切的,但所有这些数据可以用来对确切的值进行近似的估计。
武装了K·皮尔逊的革命性观念,我们就不再将实验结果看作是精心测量得出的数据,它们也不是本来就确切的,用更容易接受的术语来替代:它们是一组散布数据,或一个数据分布中的样本。数据的分布可以写成数学公式,它告诉我们一个观测值的概率将是一个给定值。特定实验中实际得到的数值是不可预测的,我们只能谈论概率值而不是确定值,单个实验的结果是随机的,在这个意义上看它们是不可预测的,然而,分布的统计模型却使我们描述这种随机的数学性质。
科学家花了一些时间才认识到观测值所固有的随机性质。在18和19世纪,天文学家和物理学家创造出描述他们观察值的数学公式,达到了可能接受的精确程度,因为测量工具不够精确,所以观察值与预测值之间的离差是预料之中的,可以忽略不计。星体和其它天体的运动被假定遵循运动基本公式所确定的精确路径,其不确定性是由于简陋的测量工具造成的,并不是固有的性质。
随着物理学中更为精确的测量工具的发展,随着将这种测量科学扩展到生物学和社会学的尝试,大自然所固有的随机性越来越明显了。怎么处理它?一种办法是坚持数学公式的精确性,将观测值与预测值之间的离差视为小的、无关紧要的误差。事实上,早在1820年,拉普拉斯的数学论文描述了第一个概率分布,即误差分布,那是一个与这些小的、无关紧要的误差项联系的概率的数学公式。这个误差分布以钟形曲线(bell-shaped curve)或正态分布(the normal distribution)的说发进入了大众的词汇。
这使K·皮尔逊比正态分布或误差分布更进了一步,审视生物学中积累的数据。K·皮尔逊认为,测量值本身,而不是测量的误差,就是一种正态分布。我们所测量的,实际上是随机散布的一部分,它们的概率通过数学函数——分布函数被描述出来。K·皮尔逊发现了被他称为“偏斜分布”(skew distribution)的一组分布函数,他宣称,这组函数可以描述科学家在数据中可能遇到的任何散布类型,这组函数中的每一个分布由四个数字所确定。
用来确定分布函数的这些数字与测量中的数字不属于同一类型,这些数字是决不会被观察到的,但可以从观测值散布的方式中推导出来。这些数字后来被称为参数(parameters)——源自希腊语,意思是“几乎测量”(almost measurements)。能够完整地描述K·皮尔逊体系中数字的四个参数分别被成为:
1、平均数(the mean)——测量值散布状态的中间值;
2、标准差(the standard deviation)——测量值的散布与平均值偏离有多远;
3、对称性(symmetry)——测量值在平均值一侧堆积的程度;
4、峰度(kutosis)——个别的观测值偏离平均值有多远。
用K·皮尔逊偏斜分布体系去考虑问题,思路会有一种微妙的转移。在K·皮尔逊之前,科学所处理的事情都是真实的。开普勒试图发现行星如何在空间运行的数学规律;威廉·哈维的实验打算确定血液如何在某一特定动物的静脉和动脉中流动;化学则处理元素和由元素组成的化合物。然而开普勒所试图追踪的“行星”实际上是一组数据,用来给地球上的观察者所看到的天空中微弱的光点定位。单匹马身上血液通过静脉流动的实际情形,也许与在另一匹马或者一个人身上所可能看到的不同。没有人能够生产出纯铁的样本,尽管谁都知道铁是一种元素。
K·皮尔逊提出,这些观测到的现象只是一种随机的映像,是不真实的,所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的,它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的,是分布的四个参数。从某种意义上说,我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它们。
K·皮尔逊并没有意识到这关键的一点,他认为,如果我们能够搜集到足够的数据去估计参数,就会得到参数的真实数值。而他的年轻的对手费歇尔指出,K·皮尔逊的许多估计方法并不是最优的,在20世纪30年代末期,当K·皮尔逊临近他漫长生命的终点之际,一位杰出的波兰年轻数学家耶日·奈曼(Jerzy Neyman)表明,K·皮尔逊的偏斜分布体系并没有包含所有可能存在的分布,许多重要问题不能用K·皮尔逊的体系解决。
还是让我们离开1934年那个被离弃的老皮尔逊吧。回到他三四十岁、精力充沛的时期,那时的他对自己所发现的偏斜分布充满了热情。1897年,他接管了高尔顿在伦敦的生物统计实验室,带领一支年轻的娘子军(被称为“计算员”),计算高尔顿所积累的人种测量数据的分布参数。在20世纪之交,高尔顿、K·皮尔逊和R·韦尔登(Rerhael Weldon)共同努力,创办了一个新的科学期刊,这将使K·皮尔逊的观点应用到生物数据上。高尔顿用他的个人财富建立了一个信托基金支持这个新期刊。在第一期,编辑们提出了一个雄心勃勃的计划。
生物统计计划
当时,英国科学家有一位杰出的人物,他就是达尔文,同期的科学家们致力于探索达尔文富有洞察力的见解,高尔顿、K·皮尔逊和韦尔登便是其中相当热心的骨干。达尔文的进化理论认为,生命形式随着环境压力而变化,他提出,变化的环境会给更适应新环境的随机变化提供些许的优势,渐渐地,伴随着环境改变和生命形式继续发生随机转变,新物种将会出现并且更适于在新的环境中生存和繁殖。这一思想被简称为“适者生存”(survival of the fittest)。当恣意妄行的政治学家将其用于社会生活,宣称那些在经济竞争中取得胜利的富人比身陷贫困的穷人更为适于生存时,这一理论对社会就有不好的影响——适者生存理论成了猖狂的资本主义的辩护者,在那里,富人被授予了道义上的特权去鄙视穷人。
在生物科学中,达尔文的思想似乎很有道理。达尔文可以指出相关物种的相似形,作为现代物种从先前物种演化而来的佐证。达尔文表明,物种上些许不同的小型鸟类,即便是生活在孤岛上,也有许多解剖学上的共性。他指出,不同物种胚胎之间的相似形,这包括人类的胚胎,在开始是有尾巴的。
有一件事是达尔文做不到的,那就是他不能给出人类历史的时间框架中,新物种实际出现的例子。达尔文设定新物种由于适者生存而出现,但没有证据,他不得不做的只是展示现代物种很好地适应了它们所处的环境。达尔文的说法似乎只是表明了已知的事情,而且理论本身有一个很吸引人的逻辑结构,但是如果套用犹太人的一句老话就是“举例并不是证明”(For instance is no proof)。
K·皮尔逊、高尔顿和韦尔登打算在他们的新期刊中将这事搞清楚。在K·皮尔逊看来,只有概率分布是真实的,达尔文的雀鸟(他在书中用到的一个重要例子)并不是科学调查的对象,而某一种雀鸟的总体随机分布才是这个对象。对某一给定雀鸟种类而言,如果能够测量其全体的 长,这些 长的分布函数将有四个参数,这四个参数将是这一种雀鸟的 长。
K·皮尔逊说,假如存在着某种环境力量,通过提供优越的生存能力,使得某一物种特定的随机变化,我们也许不能生存得那么久,以看到新物种的出现,但我们能够够看到分布的四个参数的变化。在他们期刊的创刊号上,三位编辑宣布:他们的新期刊将从全世界搜集数据,以确定这些分布的参数。最终期望表明。样本参数的变化与环境变化相关。
他们将新期刊定名为《生物统计》(Biometrika),高尔顿创建的生物统计基金会给予它慷慨资助。由于资金是这样地充裕,以至于该期刊成为世界上第一本印有全彩照片的期刊,甚至还带有画着复杂图画的玻璃纸折页。期刊以高品质的优质纸印刷,连最复杂的数学公式也展示了出来,尽管那意味着极端复杂和昂贵的排版工艺。
接下来的25年里,《生物统计》发表了通讯员们从各地发来的数据:有的深入非洲的丛林,测量原住民的胫骨和腓骨;有的从中美洲的雨林抓到奇特的热带鸟类,测量其 长;还有的甚至偷盗古墓,揭开死人头盖骨灌铅,以测量其脑的容量。在1910年,该期刊发表了几幅全彩照片,画面是俾格米男人裸躺在地上,松弛的生殖器旁还摆着量尺。
在1921年,一个年轻的女通讯员朱莉亚·贝尔(Julia Bell)描述了她在试图对阿尔巴尼亚新宾进行人类形体测量时所遇到的困难。她离开维也纳去阿尔巴尼亚一个边远的基地,本以为可以得到讲德语军官的帮忙,当她抵达时才发现,那里只有一个士官能说三句德语。她无所谓惧地拿出了测量所用的铜标尺,通过形体动作让那些年轻人理解她要干什么,直到他们安要求抬起手臂和脚。
对每一组这样的数据,K·皮尔逊和他的计算员们都计算出分布的四个参数,论文将展示最佳分布的图示,并评论该分布与其它相关数据的分布有何不同。回顾过去,很难看出所有这些行动怎么样帮助证明了达尔文的理论。浏览《生物统计》的这些作品,我得到这样一种印象:这些工作不久就会成为自身原因而进行的距离,除了给特定数据组估计参数外,没有实际目的。
在期刊中还夹杂着其它类型的论文。其中一些涉及理论数学,以处理发展概率分布时遇到的问题。比如在1908年,一个不知名的作者,以“学生”(“student”)为笔名发表了论文,提出了后来几乎在所有现代科学工作中都有作用的研究成果——“学生”的“t检验”。接下来的几章我们还会遇到这位匿名的作者,并将讨论他在K·皮尔逊与费歇尔之间作协调时的不幸角色。
高尔顿死于1911年而韦尔登则于这之前死于阿尔卑斯山的一次滑雪事故。只剩下了K·皮尔逊这唯一的编辑和信托基金的支配者。在接下来的20年中,期刊成了K·皮尔逊个人的了,期刊发表什么完全以K·皮尔逊的判断为准,由他确定重要与否。K·皮尔逊为期刊写了很多社论,他让自己丰富的想象力驰骋在各个领域。比如,在对一个古老的爱尔兰教堂翻修时,墙壁中发现了一副骨骼,K·皮尔逊通过对这个些骨骼的测量和所涉及的数学推理,来确定它们事实上是不是某个中世纪圣徒的遗骨。再比如,一个据称是奥利弗·克伦威尔(Oliver Cromwell)的头骨被发现了,K·皮尔逊以一篇精彩的文章对其进行了研究。该文描述了所知的克伦威尔尸体的下落,并且还将对克伦威尔画像所做的测量结果和该头骨所做的测量结果进行了比较。在另一些论文中,K·皮尔逊检验了古罗马各君主的统治期和贵族阶级的没落,还涉猎了社会学、政治学和植物学。所有这些,都带有复杂的数学解释。
就在去世之前,K·皮尔逊还发表了一篇题为“论犹太人与非犹太人关系”(On Jewish-Genlile Relationships)的短文。文中他分析了从世界各地收集到的犹太人与非犹太人的人体测量数据,最后得到的结论是:德国国家社会主义(the National Socialists)(正式的名称是纳粹(Nazis))的种族理论纯粹是胡说八道,根本就没有犹太种族(Jewish race)或亚利安种族(Aryan race)那回事。这最后一篇论文与他以前的工作一样,组织清晰,有逻辑性,推理谨慎。
K·皮尔逊运用数学研究了人类思想的许多领域,而很少有人将这些领域视为科学的正宗地盘。浏览生物统计上他所写的社论,你仿佛看到了一个兴趣十分广泛的人,他具有直切问题核心的惊人能力,并能用数学模型去加以处理。还有,浏览这些社论,你就像遇到一个意志坚定、主见鲜明的人。说实话,如果不需要与他争辩的话,我想我是很乐意与K·皮尔逊共处一天的。
K·皮尔逊他们是否证明了达尔文适者生存的进化论理论呢?也许是吧。通过将古墓中头骨的容量分布与现代男女的比较,他们设法证明:经历了几千年演化的人类种群保持了相当的稳定。他们表明:对澳洲原住民的人类学测量与欧洲人的测量结果有着同样的分布,据此,他们推翻了某些澳洲人关于原住民不是人类的断言。K·皮尔逊从这些工作中发展了一种被称为“拟合优度检验”(goodness of fit test)的基本统计工具,这是现代科学所不可缺少的。它使科学家能够确定一组给定的观测值是否适合于某一特定的数学分布函数。在第10章我们会看到,K·皮尔逊的儿子E·皮尔逊(Eqon Pearson),是如何用这种拟合度检验去否定他父亲所完成的许多项工作的。
随着20世纪的来临,《生物统计》中讨论数理统计理论问题的文章越来越多,少量的文章仍停留在处理特定数据的分布。当K·皮尔逊的儿子E·皮尔逊接班成为编辑时,期刊的性质就完全转型为理论数学了。时至今天,《生物统计》仍是这个领域中卓越的刊物。
但他们到底有没有证明适者生存这个说法呢?20世纪初曾经有一个最接近的研究。韦尔登构想了一项宏大的实验:18世纪英格兰南部瓷器工厂的发展,导致了一些河道被粘土淤塞,普利茅斯(Plymouth)港和达特茅斯(Dartmouth)港也都受到影响,近陆地区比近海地区淤得更严重。韦尔登从这些港口抓了几百只螃蟹,分别放入广口瓶中,其中一半用内港的淤泥水,另一半用外港的较干净的水。一段时间过后仍有螃蟹存活,韦尔登测量它们的壳,以确定两组螃蟹的分布参数。
正像达尔文所预言的那样,淤泥水中存活的螃蟹在分布参数上有了变化!这是不是证明了进化论呢?不幸的是,韦尔登在写出实验结果前就死了,K·皮尔逊对数据进行了粗略的分析,他描述了这个实验及其结果,但最后的分析却始终没有搞出来。为这项实验提供资助的英国政府要求提供最终报告,但报告了无踪影,韦尔登死了,实验也夭折了。
就生命周期很短的生物,如细菌和果蝇而言,达尔文的理论最终被证明是真实的。用这些物种,科学家可以在较短的时间段里完成几千代的实验。现代的DNA研究,作为遗传学的基石,已经为物种之间的关系提供了更为有力的证据。如果我们假定突变率在过去千万年或更厂的时间里保持不变,那么DNA的研究可以用来估计灵长类和其它 扑乳动物出现的时间框架,至少它经历了几百万年。大多数科学家现在都把达尔文的进化论作为正确的东西接受下来。没有其它理论于所知数据吻合得如此之好,于是科学界满足了,原来人们认为需要通过确定分布参数转变来表明较短时间里的进化过程,现在这种观念已经被放弃。
K·皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。今天,医学研究运用精巧的分布数学模型来确定治疗方法对长期存活的可能效果;社会学家和经济学家用数学分布来描述人类社会的行为;物理学家用数学分布来描述次原子粒子。科学里没有哪一个方面从这场革命中逃脱。有的科学家宣称,概率分布的使用只是一时的权宜之计,最终我们会找到一种途径回到19世纪科学的决定论。爱因斯坦有句名言,他不相信上帝在和宇宙玩 子,就是这种观点的例子。其他人则相信,大自然基本上是随机的,真实性只存在于分布函数之中。不管一个人的基本哲学是什么,事实仍然是:K·皮尔逊关于分布函数和参数的思想统治了20世纪的科学,并在21世纪初仍保持着优势。
shoeda
找了个师弟的图书证,又溜去图书馆晃了晃,继续帖哈!
yihui
辛苦辛苦!
zwh统计1001
这本书还是没有电子版的吗?
quaik
给个英文的介绍
The Lady Tasting Tea is a book by David Salsburg about the history of modern statistics and the role it played in the development of science and industry.
Quoted from the publisher [1]:
At a summer tea party in Cambridge, England, a lady states that tea poured into milk tastes differently than that of milk poured into tea. Her notion is shouted down by the scientific minds of the group. But one guest, by the name Ronald Aylmer Fisher, proposes to scientifically test the lady's hypothesis. There was no better person to conduct such a test, for Fisher had brought to the field of statistics an emphasis on controlling the methods for obtaining data and the importance of interpretation. He knew that how the data was gathered and applied was as important as the data themselves.
In The Lady Tasting Tea, readers will encounter not only R.A. Fisher's theories (and their repercussions), but the ideas of dozens of men and women whose revolutionary work affects our everyday lives. Salsburg traces the rise and fall of Karl Pearson's theories, explores W. Edwards Deming's statistical methods of quality control (which rebuilt postwar Japan's economy), and relates the story of Stella Cunliffe's early work on the capacity of small beer casks at the Guinness brewing factory. The Lady Tasting Tea is not a book of dry facts and figures, but the history of great individuals who dared to look at the world in a new way.
quaik
quaik
shoeda的奉献太伟大了,建议如果没有扫描仪的话用数码相机照下来,也非常清晰。