因果推断简介之一:从 Yule-Simpson's Paradox 讲起
我在我的硕士论文中也给了一个类似的例子(P.13 图5) http://yihui.name/cn/publication/ 少数几个自变量的回归值得警惕,单变量的回归就更得小心解释了。
虽然这篇因果推断不属于我的研究范围,但是其中牵扯一些很深刻的思想在整个统计学中应该都是适用的。
所谓统计模型,表示的是一种推广(extrapolation)能力。即根据已观测到的点推断未观测到的点的能力。假设我们用MSE(=偏差平方+方差)来衡量推广能力,那么MSE大到某种程度时我们就认为此时的模型是无效的。于是一个自然的问题是怎样选择模型使得有效的区域达到最大。
统计学家中流行的观点是:简单的模型更可能有效。如果对要研究的对象一无所知,这个法则适用的可能性非常高。同时统计学习理论也为这种观点提供了理论基础。
奇异淫巧的数学理论一向是统计学家清高的资本。然而,几乎在所有的问题中,我们都对要研究的对象的特征有所了解。事实上合理的利用这样的特征,对统计分析的帮助是明显的。考虑一个人脸识别的问题,如果仅把人脸图像看成矩阵,无论使用多么高深的统计方法,其效果都不如先把眼睛鼻子搜索出来再分别比对的方法。
如果我们相信世界的构成(在某种意义下)是确定性的,那么你要研究的对象实际上可被一个高度精确的物理模型刻画。当然我们永远不能得到这个物理模型的精确形式。但是幸运的是,在大多数情况下,我们知道某种程度上的近似形式。
应用统计学家的矛盾,就是一方面统计理论表明只有足够简单的模型才有进行统计推断的可能,而另一方面实际系统的复杂结构决定了只有足够复杂的模型才能和物理模型取得相对的一致。
统计学大师可以在这个问题上找到巧妙的平衡点。毋庸置疑,Judea Pearl与Donald Rubin的理论都是成功案例的典范。
扯得这么远望大家见谅。感谢楼主辛苦码字,也非常希望看到本系列后续的文章。
这里有一个荒谬之处,即将总体倍乘与将各个部分倍乘再相加虽然结果上相等,然而,两者并不等价。具体来说,male的treatment组倍乘为300,Survive的数不会同比例倍乘,也即不会必然等于180,die也不会必然等于120。否则,就丧失了随机性,因为倍乘过程中你将Survive Rate固定为18/12了。这是个小陷阱。正常情况下Survive/die的比,也就是Survive Rate的比例会发生变化,即会增加。与此对应,control组会减少。所以,提升样本量本质上可以克服这个悖论。
比如,三元正态分布,两两相关系数相同,相关系数可以取什么范围?