tianbo_lee
我认识很多喜欢喝健力士啤酒(Guinness)的经济学家,但他们当中,却没有多少人知道这种啤酒对于其职业来说是多么重要。奠定了健力士啤酒全球成功基础的那个人,也发明了一种最重要的的经济学工具——这种工具如今正被广泛地错误使用。
面对任何数据中一种明显的模式,一个关键问题始终是:“这种模式具有某种真实的意义,还是仅仅是偶然?”举个最简单的例子:如果我测量五男五女的身高,结果发现男人通常比女人高一些,那么我可能是发现了某种规律,也可能只是我的样本中选取了一些高个男性和矮个女性。基于这种比较小的样本,我是否应该确信男性一般都长得比女性高呢?
统计学上的测试工具是一种“学生T测试(Student's t-test)”。“学生”是威廉·西利·戈塞特(William Sealy Gosset)的化名。他是一位和蔼可亲、穿一身旧帆布衣裳的化学家。从1899年开始,戈塞特终生都在为健力士啤酒工作,并最终晋升为该公司的首席酿造师。该公司对待其商业机密非常谨慎,戈塞特只能用假名发表自己的研究成果。
从一开始,戈塞特的研究重点就很务实,正如经济学家、历史学家史蒂夫·策里克(Steve Ziliak)研究健力士啤酒的档案时所发现的那样。要想大规模生产高质量的啤酒,戈塞特需要对啤酒花、麦芽和大麦进行抽样测试。但是,实验费用昂贵,因此戈塞特设计了小样本测试法,因为他想了解,要进行多少次实验才能确信其试验结果。这是一个明显的权衡问题:什么程度的信心才“足够”?这取决于在进一步研究的成本和精确度更高的益处之间进行取舍。
在最近出版的《统计重要性之崇拜》(The Cult of Statistical Significance)一书中,策里克和共同作者迪尔德·麦克劳斯基(Deirdre McCloskey)认为,大部分学科都已忘记了这种权衡。相反,他们采用了由著名统计学家、数学遗传学家罗纳德·费雪(Ronald Fisher)推广的人为标准。费雪采用了戈塞特的计算方法,并在此基础上总结出自己的方法。他建议,不要理睬那些未达到95%可信度的研究结论。换言之,除非某种偶然模式应验与失真的概率达到19比1,否则就根本不要去理睬它。
这似乎是一种合理的预防措施——当然也是现今的标准做法——但在统计学上,明确的界限毫无意义,而且是有代价的。在最近的一次采访中,策里克和我谈起上世纪80年代初经济低迷时美国伊利诺伊州一个促进就业的方案。研究人员估计,按照该方案,每花1美元就可节省4.30美元,并且结果真实的可信度达到了87%。但是,这个比例低于费雪95%的标准,所以该方案被视为无效。费雪如果知道也会同意的。
这很奇怪——如果我给你这样的机会:你花1美元就有87%的机会收回4.30美元,那么你把它视为不错的押注,应该没有错。如果戈塞特知道,他也会支持你的观点。
在任何情况下,看上去像是预防措施的东西,都有可能是草率的。如果止痛药似乎可能引发心脏病, 那么按费雪的标准,除非在统计学上百分之九十五地肯定,否则这种风险就可以忽略不计。一个更为合理的标准不是要问“我们是否肯定会有某种效应?”,而是既要考虑我们估计的精确度,也要考虑可能出现的模式的重要性。这就是戈塞特的所为:他对健力士啤酒所做的实验都没有达到统计学意义上95%的可信度。但经济学意义呢?我们可以肯定的说——他达到了。
bjt
还是那个老问题,95%(或5%)不是固定的。
而是决策者根据损失或收益能否接受,而做出的。即每个人能接受的区间不可能一样。
既然单一决策容易出问题,所以也就出现了 bagging boosting 这些方法。
se761
很有道理,受益匪浅!
rigid
不错的文章,值得看看。
风雨统计
值得一看,但好像每个初学者都不会死守95%的......