yihui
呃……表情……这个……暂时顾不上加了……
eshanzi
我去年在各大书店都找过,没得到,郁闷
yihui
哦,我这里的那本繁体版也被人借走了……
cafe1945f
上学期看完的,推荐统计高年级的同志们去看,因为对统计有一定了解才能体会其中趣味,没有任何公式推演,只是将统计的思想结合统计发展的历史娓娓道来,文字轻松有趣(心领神会时常不免莞尔笑之),但又不讳言统计的哲学性问题(有些问题比较绕,特别是最后一章看两遍还觉得少),的确是好书啊,只可惜接触的太晚。
其中统计推断部分推荐参考看看《对关于统计推断十四个难以理解和有待澄清的问题的思考》(统计信息论坛.2004.9) 也是统计哲学问题
shoeda
今天开始,录入了一点点哈!希望以后每天都有点时间做录入哈!先发上来以嗜读者!
女士品茶
20世界统计怎样变革了科学
David Salsburg萨尔斯伯格(美)著
邱东等译
中国统计出版社
作者序
进入19世界时,科学界奉行着一种固化的哲学观,即机械式宇宙观(clockwork universe)。这种哲学观认为,为数不多的几个数学公式,像牛顿的运动定律(Newton's laws of motion)和波意耳的气体定律(Boyle's Laws of gases),可以用来描述显示世界的一切,并能预测未来即将发生的事件。而对这种预测,所需要的不过是一套完整的公式,以及一组具有足够精确度的相关数据。然而,对于一般大众来说,整整花了40年时间,他们的思想才跟上这种科学观念。
这种思想上的落差,典型地体现在19世纪早年拿破仑皇帝(Emperor Napoleon)与皮埃尔·西蒙·拉普拉斯(Pierre Simon Laplace)的一次对话中,拉普拉斯写了一本历史性的权威著作,论述如何根据地球上少数观察数据来计算行星和彗星的未来位置。据说拿破仑问道:“拉普拉斯先生,我发现你的论述中没有提到上帝啊!”拉普拉斯的回答则是:“我不需要这个假设条件。”
机械式宇宙观认为,宇宙如同一个庞大的时钟机器,所有的物体都按照一定的规律运动,宇宙永续运转而不需要神的介入;所有将来发生的事件都决定于过去的事件。许多人对这种无神论的思想感到恐慌,从某种意义上说,19世纪浪漫主义运动的兴起,正是对这种精确应用推理的冷冰冰的哲学观的回应。然而,19世纪40年代出现了对新科学的证明,这叫一般人难以想象:牛顿的数学定律被用来预测另一颗行星的存在,而海王星(the planet Neptune)正是在这些定律所预测的位置被发现的。于是,几乎所有对机械宇宙观的反抗都被粉碎了,这一哲学立场很快成为大众文化的基本部分。
不过,就算拉普拉斯在他的公式中不需要上帝,他还是需要一种被他成为误差函数(error function)的东西。从地球上对行星和彗星的观察,与用公式所预测的位置并不绝对吻合,拉普拉斯和他的科学家同伴将这归结于观察中的误差,有时是由于地球大气层中的扰动,有时则是认为的。拉普拉斯把所有这些误差都放在一个附加项(误差函数)里,从而将之纳入他的数学描述。这个误差函数吸收了所有的误差,剩下的只是用来预测宇宙星体实际位置的绝对运动定律。当时科学家相信,随着越来越精确的测度,对误差函数的需求将逐渐消失。由于有误差函数来表示预测值与观测值之间的微小差异,19世纪早期的科学可以说是受到了哲学上决定论(determinism)的掌控,即相信所发生的任何事情都预先地决定于两点:(1)宇宙的初始条件;(2)描绘其运动的数学公式。
到了19世纪末,误差并没有硝石,反倒是增加了。当测度越来越精确,误差也越来越多。机械宇宙观处于动摇之中,试图发现生物学定律和社会学定律的努力也失败了。在物理和化学等传统科学中,牛顿和拉普拉斯所用的那些定律,逐渐被证明只是粗略的逼近。这样,科学便渐渐开始在新的范式(paradigm)下运作,这新范式就是现实世界的统计模型。到20世纪末期,几乎所有科学都转而运用统计模型了。
大众文化还是没有跟上这场科学革命,尽管一些含混的观念和表述,像相关(correlation)、胜率(odds)和风险(risk)等等,已经渗入了大众的词汇,并且多数人意识到了不确定性的问题,这是与诸如医学和经济学等学科领域相联系的。但就已经发生的哲学观的深层转变而言,学界之外没有人能够对此有什么理解。这些统计模型是什么?它们是怎么来的?在现实生活中它们意味着什么?它们是现实的真实描述吗?本书正是试图来回答这些问题,其中我们也想介绍一些先生和女士的生平故事,这些人曾涉身于这场革命之中。
在处理这些问题时,必须把三个数学概念区分开:随机(randomness)、规律(probability)和统计(statistics)。对大多数人而言,随机只是不可预测性(unpredictability)的另一个说法。犹太教法典(Talmud)中的一则格言,传达了这种通常的看法:“不应该去探询宝藏,因为宝藏的发现是随机的;按照定义,没有人能够寻找只会被随机发现的东西。”但是,对现代科学家来说,随机性有许多不同的类型。概率分布(probability disribution,这将在第2章中讨论)的概念允许我们对随机事件加以限制,并赋予我们有限的能力去预测未来的随机事件。因此,对现代科学家而言,随机事件并不是杂乱的、不可预期的和不可预测的,它们有一个可以用数学来描述的结构。
概率是一个非常古老概念的现代用语,它曾出现在亚里士多德(Aristotle)的著作中,这位先哲声称:“不可能事件将会发生,这正是概率的特征。”起初,概率只是涉及到个人对什么事件行将发生的预期,在17和18世纪,一批数学家,其中包括贝努里(Bernoullis)父子、费尔马(Fermat)、埭莫弗(de Moivre)、帕斯卡(Pascal)都在有机会博弈(games of chance)为起点去研究概率的数学理论。他们发明一些非常高级的方法,用来计算等可能事件,埭莫弗设法在这些技术中加进微积分的方法,贝努里则可以领悟非常基础的定理,叫做大数定律(Laws of large numbers)。到了19世纪末期,数理概率主要由一些非常高级的技巧构成,但还缺少坚实的理论基础。
尽管不够完善,还是可以证明概率理论对发展统计分布(statistical distribution)观念的作用。当我们考虑一个特殊的科学问题时,就会产生一个统计分布。例如,在1971年,哈佛公共卫生学院所做的一项研究发表在英国的医学期刊《柳叶刀》(lancet)上,这项研究旨在检验喝咖啡是否与下泌尿道癌有关。研究的报告以一组病人为对象,其中一些人患有下泌尿道癌,另一些人则患有其他疾病。报告的作者还搜集了这组病人的其他资料,如年龄、性别和家族的癌症病史等。结果证明,并不是每个喝咖啡的人都会得泌尿道癌,也不是每个得泌尿道癌的人都喝咖啡,所以存在着与他们的假设相矛盾的事件。然而25%的次类癌症患者习惯每天喝4杯以上咖啡,只有10%的非癌症患者是这种咖啡嗜好者,因而似乎有一些证据支持这种假设。
这种资料的搜集给研究者提供了一个统计分布,运用数理概率的工具,他们为这个分布建造了一个理论公式,称之为概率分布函数(probability distribution function),或简称分布函数(distibution function),以次来检验所研究的问题。它与拉普拉斯的误差函数相似,但却复杂得多。运用概率论来建造理论分布函数,而这个函数用来描述从未来数据中所能得到的预期结果,这些数据是以前随机方式从同一总体的人群中提取的。
我不想使本书成为一本关于概率和概率论的书,那是抽象的数据概念。本书涉及一些概率定理在科学问题上的应用,涉及统计分布和分布函数的世界。概率论本身不足以说明统计方法,有时甚至会出现这样的情形:科学中所用的统计方法违背了概率的定理。读者会发现本书中概率时隐时现,许呀哦时被用到,不需要时被忽略。
由于现实世界的统计模型都是数学化的,充分理解它们只能用数学公式或符号的方式。本书是一种野心不那么大的尝试,我打算描述发生在20世纪科学界的统计革命,而手法是通过介绍一些参加过这场革命的人物(其中不少人至今还健在)。我只是涉猎他们创造性的工作,试图让读者从中体会他们的个别发现是如何适应整个统计革命的。
仅就本书而言,读者并不会学到对科学数据进行统计分析所需要的足够知识,那需要几年的循序渐进的学习。但我希望读者看过本书后,能够对科学的统计观所代表的基本哲学的重大变革有所理解。那么,不懂数学的人要理解这场科学革命,应该从那里开始呢?我认为,一个不错的选择是与女士一道品茶。
shoeda
第一章 女士品茶
那是20世纪20年代后期,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学家精英们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。然而在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。
他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中,坚持茶有不同味道的那位女士将被奉上一连串的已经调制好的茶,其中,有的是先加茶后加奶制成的,有的则是先加奶后加茶制成的。
写到这里,我可以想象,部分读者对这种实验不以为然,认为它不过是一帮精英们与夏日午后的一个小消遣。他们会说:“这位夫人能不能区分两种不同的注茶方式,又有什么大不了的呢?这个问题并没有什么科学价值,这些大人物更应该把他们的天才用在对人类有所裨益的事情上去。”
不幸的是,不管外行对科学及其重要性怎样想象,从我个人的经验来看,大多科学家之所以从事科研活动,只是因为他们对结果感兴趣,或者能够在工作中得到理性的刺激。好的科学家很少想到他们工作的最终重要性,剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来,但这无关紧要,因为,实验的真正乐趣,在于找到一种判断该女士是对还是错的方法来。于是,在蓄着胡须先生的指导下,大家开始讨论应该如何进行实验判断。
接下来,在场的许多人都热心地加如到实验中来。几分钟内,他们在那位女士看不见的地方调制出不同类型的茶来。最后,在决战来临的气氛中,蓄短胡须的先生为那位女士奉上了第一杯茶,女士品了一小会儿,然后断言这一杯是先倒的茶后加的奶。这位先生不加评论地记下了女士的说法,然后,又奉上了第二杯……
shoeda
时间限制,今天晚上下班回来,到图书馆,就录入了这么一点!
待续!!!!
liutyy
有空看一下,多谢推荐……
yihui
辛苦辛苦!杨哥真是好人呐!
eshanzi
谢谢,感动中
ypchen
国图第一社科阅览室有
jojoe
大一刚进校就感受学长的热忱了,其人之好在学姐们那里也早有耳闻,感动ing
shoeda
今天加班,现在才完成工作,所以没有继续做录入!抱歉哦!!
eshanzi
能否帮我复印一本繁体的哈,谢谢啦
yihui
先等人还我吧……
shoeda
第一章 女士品茶
那是20世纪20年代后期,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学家精英们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。然而在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。
他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中,坚持茶有不同味道的那位女士将被奉上一连串的已经调制好的茶,其中,有的是先加茶后加奶制成的,有的则是先加奶后加茶制成的。
写到这里,我可以想象,部分读者对这种实验不以为然,认为它不过是一帮精英们与夏日午后的一个小消遣。他们会说:“这位夫人能不能区分两种不同的注茶方式,又有什么大不了的呢?这个问题并没有什么科学价值,这些大人物更应该把他们的天才用在对人类有所裨益的事情上去。”
不幸的是,不管外行对科学及其重要性怎样想象,从我个人的经验来看,大多科学家之所以从事科研活动,只是因为他们对结果感兴趣,或者能够在工作中得到理性的刺激。好的科学家很少想到他们工作的最终重要性,剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来,但这无关紧要,因为,实验的真正乐趣,在于找到一种判断该女士是对还是错的方法来。于是,在蓄着胡须先生的指导下,大家开始讨论应该如何进行实验判断。
接下来,在场的许多人都热心地加如到实验中来。几分钟内,他们在那位女士看不见的地方调制出不同类型的茶来。最后,在决战来临的气氛中,蓄短胡须的先生为那位女士奉上了第一杯茶,女士品了一小会儿,然后断言这一杯是先倒的茶后加的奶。这位先生不加评论地记下了女士的说法,然后,又奉上了第二杯……
科学的合作性质
这个故事是我在20世纪60年代后期,从一个当时在场的先生那里听到的。这位先生就是休·史密斯(Hugh Smith),但他都是以H·费尔菲尔德·史密斯(H·Fairfield Smith)的名义发表科研论文。我认识他的时候,他在位于斯托尔斯(Storrs)的康涅狄格大学(the University of Connecticut)任统计学教授,而我则是两年以前在这个大学拿到了统计学博士学位。在宾州大学(the University of Pennsylvania)教了一阵子书后,我加入到了辉瑞公司(Pfizer Inc.)的临床研究部门。这是一家大型制药公司,它的研究园区坐落在格罗顿(Groton),离斯托尔斯大约一个小时的车程。当时,我是那里唯一的统计学家。在辉瑞期间,我要处理许多疑难的数学问题,还要负责给他们讲解这些问题,并告诉他们,对这些问题,我个人的结论是什么。
在辉瑞工作期间,我发现,科研工作几乎不能独立完成,通常需要不同智慧的结合。因为,这些研究太容易犯错误了。当我提出一个数学公式作为解决问题的工具时,这个模型有时可能并不适合;或者我就所处理情况而引入的假设并不真实;或者我发现的“解”是由公式中的失误部门推导出来的;甚至我可能在演算中出了错。
无论何时,我去斯托尔斯的大学拜访,与史密斯教授探讨问题,或者,与辉瑞的化学家、药理学专家坐在一起讨论,我提出的问题都会受到欢迎,他们对这种讨论充满兴趣和热情。对大多数科学家来说,工作中令他们最感兴趣的,就是解决问题时那种兴奋感。因此,在检验并试图理解问题时,他们期盼着与他人交流。
实验的设计
剑桥那个夏日午后的情形正是如此,那个留着短胡须的先生就是罗纳德·艾尔默·费歇尔(Ronald Aylmer Fisher),当时他只有三四十岁。后来,他被授予爵士头衔。1935年,他写了一本叫《实验设计》(The Design of Experiments)的书,书的第2章就描述了他的“女士品茶”实验。在书中,他把女士的断言视为假设问题,他考虑了各种可能的实验方法,以确定那位女士是否能做出区分。设计实验时的问题是,如果只给那位女士一杯茶,那么即便她没有区分能力,她也有50%的机会猜对。如果给两杯茶,她仍有可能猜对。事实上,如果她知道两杯茶分别以不同的方式调制,她可能一下子全部猜对(或全部猜错)。
同样,即便这位女士能做出区分,她仍然有猜错的可能。或者是其中的一杯与奶没有充分地混合,或者是泡制时茶水不够热。即便这位女士能做出区分,也很有可能是奉上了10杯茶,她却只是猜对了其中的9杯。
在这本书中,费歇尔讨论了这个实验的各种可能结果,他叙述了如何确定这样一些问题:应该为那位女士各奉多少杯茶?这些茶应该按什么样的顺序奉上?对所奉各杯茶的顺序应该告诉那位女士多少信息?依据那位女士判断的对错与否,费歇尔搞出了各种不同结果的概率。但在讨论中,他并没有指明这种实验是否真的发生过,也没有叙述这次实验的结果。
费歇尔书中有关实验设计的著述是科学革命的要素之一,这场革命在20世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前,科学实验已经进行了几百年。在16世纪后期,英国的威廉·哈维(William Harvey)用动物做实验,他将不同动物静脉和动脉里的血液堵住,试图追踪血液从心脏到肺,回流到心脏,流向全身,再回到心脏的循环路线。
费歇尔没有发现实验是增长知识的方法。费歇尔之前,实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验,而二流的科学家常常从事的是积累数据的实验,但对知识增长没有什么用处。为说明这点,可以举发生在19世纪后期的一个例子。那时的科学家就测量光速做了许多无关要旨的努力,而直接到美国物理学家艾伯特·米切尔森(Albert Michelson)用光线和镜子建造了一个特别精巧的系列实验,才第一次得到好的估计。
在19世纪,科学家很少发表实验结果。他们所做的是论述自己的结论,并发表能证明结论真实的数据。格雷戈尔·门德尔(Gregor Mendel)没有展示出他全部豌豆培育实验的结果,他叙述了他的系列实验,然后写道:“两组系列实验的前10个数据可以用来说明……”在20世纪40年代,费歇尔检验了门德尔用来说明结论的数据,发现这些数据过分完美,以至于失真,它们并没有表现出应该具有的随机程度。
尽管科学从审慎思考、观察和实验发展而来,但从来不清楚应该怎样从事实验,实验的全部结果通常也没有展现给读者。
19世纪末和20世纪初的农业研究中,上述情况尤为明显。20世纪早期费歇尔在农业实验站工作,在费歇尔去那儿工作之前,这个实验站已经进行了约90年的肥料构成(称之为人工肥料)实验。在一个典型的实验中,工人将磷肥和氮肥的混合物撒在整块田中,然后种植作物,测度收成和整个夏季的雨量。这里有精巧的公式用来“调整”某年或某块地的产量,以便与另一块地、或同一块地的另一年产量相比,这被称为“肥力指数”。每一个农业实验站都有自己的肥力指数,而且都认为自己的指数是最精确的。
90年代的实验结果不过是一堆未经发表、了无用处的混乱数据。看来某些品种的小麦对某种肥料反应优于其它品种,但只是在降雨过量的年份如此。其它实验似乎显示:第一年用钾硫化物,第二年用碳酸硫化物,会使某些品种的马铃薯增产,而对其它品种并非如此。因此,就这些人工肥料,充其量可以说,其中有些在有的时候,可能或大概有效。
作为一个卓越的数学家,费歇尔审视了农业科学家用来修正实验结果的肥力指数,这些指数是用来解释不同年份气象变化所造成的差异的,他还检查了其它农业实验站所用的同类指数。当简化为基本的代数式时,这些指数不过是同一公式的不同表现形式,换句话说,看似激烈争斗的两个指数,其实起着同样的修正作用。1921年,费歇尔在农业科学领域的领军期刊《应用生物学年报》(the Annals of Applied Biology)上发表了一篇论文,文中他指出了采用哪种指数并没有什么差异,并且,所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续20多年的科学论战。
费歇尔接着检查了过去90年来的雨量和收成数据,指出年度间不同气候的影响远远大于不同肥力的影响。用费歇尔后来在他的实验设计理论里发明的一个词来说,“混合”(confounded)的,这意味着用已有的实验数据是不能将二者分开的。90年代的实验和20年的科学论战几乎是无谓的浪费。
这使得费歇尔专注于实验和实验设计的思考。他的结论是:科学家需要从潜在实验结果的数据模型开始工作,这是一系列数据公式,其中一些符号代表实验中将被搜集的数据,其它则代表实验的全部结果。科学家从实验数据开始,并计算与所考虑科学问题的相应的结果。
让我们考虑一个关于一个老师和某个学生的简单例子。这个老师非常想找出一些关于这个孩子学习情况的测试数据,为了达到这个目的,老师对孩子进行了一组考试,每一个考试都在0到100之间评分,任何一个单一的考试都不可能对孩子知识的掌握提供可靠的评估;这个孩子可能是没有学习多少考试所涉及的内容,但是知道不少考试以外的事情;可能是这个孩子与父母发生了争执。由于种种原因,单一考试不能对知识量提供好的估计,所以老师进行了一组考试,然后计算出所有考试的平均分来评价孩子的知识量。这样的估计结果会更好,多少分是孩子知道的实验结果,而每一个单独考试的分数则是数据。
那么老师应该如何组织考试?是搞那种只包括几天前所教授内容的系列考试,还是每次考试都从考试前所教授的全部内容中提取一部分?考试是一个星期搞一次,还是每天搞一次?或者在每个教学单元结束时搞?所有这些都是实验设计涉及到的问题。
如果农业科学家想知道某种人工肥料对小麦生长的效用,就要构建一个实验以取得效用估计时所需要的数据。费歇尔表明,实验设计的第一步是建立一组数学公式,用以描述待搜集数据与欲估计结果之前的关系,因此,任何有用的实验必须是能够提供估计结果的。实验必须是有效的,能够让科学家测定出气候的差异和不同肥料的使用对产量差别的影响。特别是,有必要包括同一实验中打算加以比较的实验处理(treatments),即那些后来被称为“控制组件”(controls)的东西。
在他那本关于实验设计的书中,费歇尔提供了几个实验设计的范例,并导出优秀设计的一般原则。然而费氏方法中涉及到的数学非常复杂,多数科学家设计不了自己的实验,除非他们遵循费歇尔书中提出的实验设计中的某个模式。
农业科学家认识到费歇尔工作的伟大价值,在大多数说英语的国家中,费氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发,用来论述不同实验设计的完整科学文献发展起来。这些设计被应用到农业以外的领域,包括医学、化学和工业质量管理。在许多案例中,所涉及的数学高深且复杂,但此时此刻,我们不妨停下来想想,科学家不可能不假思索地动手实验,这通常需要长时间的审慎思考,而且,其中通常会有大量的、高难的数学。
至于前面所说的女士品茶——那个在剑桥晴朗的夏日午后所做的实验中,那位女士怎样了呢?费歇尔没有描述这项实验的结果,但史密斯教授告诉我,那位女士竟然正确地分辨出了每一杯茶!
yihui
辛苦shoeda了!!
P.S. 繁体的书别人已经还我了,不过eshanzi在西南交通大学就没办法了……
shoeda
能不能找到原版的???
yihui
估计很难很难
蟋蟀
hehe 记着了