LearningSheep

  • 2019年5月16日
  • 注册于 2019年5月14日
  • Liechi 我觉得你第二段之后的论证非常的精彩,学习了很多。虽然我不是学医的,但是我也觉得癌症导致吸烟这一猜想不合理。在这里回复一下你第一段对我的反驳,我在说“一般人很难想到这一层因果关系的时候”,这里的一般人也包括我自己,因为确实在这个问题上,我没有想到可以去问“癌症是否是导致吸烟的原因”,所以我想当然的猜想大部分人和我一样没想过这个问题,确实不严谨。第二个观点“这个研究没有什么实际价值”,我指的是就算我们证明了癌症是导致吸烟的原因,我们能用这个结论来干什么呢?我确实想不到任何有用的地方,一般来说,确定因果关系的意义在于:我们可以通过控制自变量来达到控制因变量的目的。具体到这个问题上,如果我们证明了“吸烟是导致癌症的原因”,那么我们可以通过减少吸烟来达到减少癌症的目的。但是如果我们证明了“癌症是导致吸烟的原因”,我们难道希望通过控制得癌症与否来控制是否吸烟吗?这一点我觉得是没什么意义的,所以我才得出了那样的结论。你反驳我第二点的理由是“因为从事比这个猜想更没有意义的研究的也大有人在”,这不是一个有效的反驳,因为你一点只能说明这些研究都没有意义。为了避免误解,我希望将我的表述改为“我认为相比于研究吸烟是否导致癌症,研究癌症是否导致吸烟显得没有什么意义”。

    我原始的回复想解决的问题是@肚腹 所问的“如果我研究时遇到上述问题何解?”,我的回答是:跑一个纯随机试验,因为这是研究因果推断的黄金法则。其实还有一个比较常用的方法我没有提及,这个方法就是比较Timing,这一点你提到了,那就是“是否吸烟一般是青年时代就开始养成的习惯,所以如果有人患癌后开始吸烟,比如五十岁后突然变成了烟民,那这个现象在现实生活中是很容易被发现的。” 这一个方法其实是因果关系的“时间性”的体现。我们在设计实验的时候一般也会给X与Y在不同的timestamp打上标签,以此来检测一些其他可能存在的问题,比如上文提到的Reverse Causality,或者说是Difference in Difference问题。

    • 肚腹 虽然你的回复已经是四年前了,但是还是忍不住想回答一下,因为这是一个非常经典的问题。你提出的这个问题是包含在因果推断教材里面的,具体而言,属于Simultaneity/Reverse causality问题。这个问题非常普遍,在我们看到一组数据,变量X与Y显示了‘相关关系’的时候,我们一般会认为是X→Y,但是实际上,也有可能是Y→X,甚至有可能是X与Y互为因果。哪种是对的,取决于数据生成流程(Data Generating Process)。具体到本文这个问题上,我们认为是吸烟(X)导致癌症(Y),其具体的DGP是:吸烟→增加癌症的发病率→癌症,但是为什么不能反过来是癌症(Y)导致吸烟(X)?我们完全可以说真实的DGP是:得了癌症→轻生从而自暴自弃→吸烟。这也完全说的通不是吗?因为从数据集的角度来看,从这两个DGP得到的数据结果可以是完全一致的。因果性的黄金准则就是纯随机实验,哪种是对的?做一个实验。我本人不是学医的,但是为什么癌症导致吸烟这个因果关系没人去研究呢,我猜想可能有两个原因,第一,一般人很难想到这一层因果关系,且这个研究没有什么实际价值,第二,把癌症与否作为treatment是不道德的,你可以控制人抽烟不抽烟,但是控制人得不得癌症,这个想法很危险,有人可能会问可行性问题,我大概想了想,这是可行的,将实验组的人放到具有高辐射的环境下一段时间,使得他们得癌症。但是实际中,又有谁愿意来作为这个小白鼠呢,对吧?虽然过了这么久不知道你是否还在意这个问题,但仍然希望这个回答解决一个你当年的困惑吧:)