• 综合主站
  • 因果推断简介之一:从 Yule-Simpson's Paradox 讲起

simpson这个例子能说明统计无法做因果推断么?只能说明做推断需要控制必要的混杂吧?
[未知用户] Simpson 悖论说明:观测性研究做因果推断,非常困难。如果你相信能够控制所有的混杂,那么就能做因果推断。但是,实际问题中,我们很难断定,所有的混杂都被很好的控制住了 。因为,永远都有这样的可能性:还存在一个未观测的变量,它扭曲了现在得到的所有结果。
[未知用户] 抱歉刚才说错了,是13页的图5。
是不是说Sex和Treatment这两个Factor是相关的呢?加一个交互作用就可以了?
[未知用户] 很好的例子!可以算是Simpson悖论在线性模型下的版本。

虽然这篇因果推断不属于我的研究范围,但是其中牵扯一些很深刻的思想在整个统计学中应该都是适用的。
所谓统计模型,表示的是一种推广(extrapolation)能力。即根据已观测到的点推断未观测到的点的能力。假设我们用MSE(=偏差平方+方差)来衡量推广能力,那么MSE大到某种程度时我们就认为此时的模型是无效的。于是一个自然的问题是怎样选择模型使得有效的区域达到最大。
统计学家中流行的观点是:简单的模型更可能有效。如果对要研究的对象一无所知,这个法则适用的可能性非常高。同时统计学习理论也为这种观点提供了理论基础。
奇异淫巧的数学理论一向是统计学家清高的资本。然而,几乎在所有的问题中,我们都对要研究的对象的特征有所了解。事实上合理的利用这样的特征,对统计分析的帮助是明显的。考虑一个人脸识别的问题,如果仅把人脸图像看成矩阵,无论使用多么高深的统计方法,其效果都不如先把眼睛鼻子搜索出来再分别比对的方法。
如果我们相信世界的构成(在某种意义下)是确定性的,那么你要研究的对象实际上可被一个高度精确的物理模型刻画。当然我们永远不能得到这个物理模型的精确形式。但是幸运的是,在大多数情况下,我们知道某种程度上的近似形式。
应用统计学家的矛盾,就是一方面统计理论表明只有足够简单的模型才有进行统计推断的可能,而另一方面实际系统的复杂结构决定了只有足够复杂的模型才能和物理模型取得相对的一致。
统计学大师可以在这个问题上找到巧妙的平衡点。毋庸置疑,Judea Pearl与Donald Rubin的理论都是成功案例的典范。
扯得这么远望大家见谅。感谢楼主辛苦码字,也非常希望看到本系列后续的文章。

[未知用户] 准确说,是sex同时和treatment&结果都相关,这样的变量被流行病学家称为“混杂因素”。这里和交互作用没有本质的关联,因为这个现象在没有交互作用时,也会出现。比如,前面谢益辉论文中的例子,模型是线性的,没有交互项,这样悖论依然存在。
[未知用户] 这么多年来和你讨论统计不下一百次,不过这是第一次写下来交流的。
统计还能研究因果? 休谟问题
[未知用户] 好问题。请听下回分解,我大概在第二回也提及了休谟。不过,我避免谈论形而上学。
[未知用户] 那么因果推断这个方向更关注的是如何用更好的研究设计推断因果,还是用更优的方法解读有局限性的研究方式呢?
期待下文!中文书:吴喜之等译《统计学基本概念与方法》pp198对于统计研究变量间关系是否是因果模型浅谈了一下;吴晓刚等译《因果关系模型》。我不是研究因果模型的,但十分干兴趣!统计能研究因果关系,一定要控制“混杂”因素,但是这往往很难做到。在每个统计模型,几乎都有一定假设,我根绝这是一种逃避。如果能逃癖少一些,那便是一种success。
[未知用户] 设计是最重要的。下回讲随机化的作用,就是强调设计。好的设计,用简单的分析手法就能得到有用的信息;坏的设计,无论用什么办法,都不能得到可靠的结论。
[未知用户] 任何科学理论,都建立在假定之上。假定只要不违背基本的逻辑,它具体是什么,地位倒是次之。重要的是,这些假定下得到的科学推论是否合符经验。
"有人可能会认为这种现象是由于随机性或者小样本的误差导致的。但是这个现象与样本量无关,与统计的误差也无关。比如,将上面的每个格子数乘以一个巨大的正数,上面的悖论依然存在。"

这里有一个荒谬之处,即将总体倍乘与将各个部分倍乘再相加虽然结果上相等,然而,两者并不等价。具体来说,male的treatment组倍乘为300,Survive的数不会同比例倍乘,也即不会必然等于180,die也不会必然等于120。否则,就丧失了随机性,因为倍乘过程中你将Survive Rate固定为18/12了。这是个小陷阱。正常情况下Survive/die的比,也就是Survive Rate的比例会发生变化,即会增加。与此对应,control组会减少。所以,提升样本量本质上可以克服这个悖论。
[未知用户] 你可以将频率全部换成概率。在总体上讨论这个问题。和样本量没有任何关系。这里只是举一个例子。

比如,三元正态分布,两两相关系数相同,相关系数可以取什么范围?
[未知用户] 难道你的意思是说这个paradox中假定的是总体中male组的survive Rate为18/12?那这个悖论就好玩多了。