• 综合主站
  • 因果推断简介之八:吸烟是否导致肺癌?Fisher versus Cornfield

[未知用户] 一激动笑得码字错了,是楼上,不敢染指楼主。肺癌的危险因素这么多,不吸烟还有别的因素可以引起,不吸烟的人也会患肺癌,证明吸烟不是肺癌的直接诱因,这算什么逻辑推理?(笑)。请楼上多此一举的考虑下。

    GemOfRoe 你说的这些我不是没想过,不也不想跟你吵,我只想心平气和的把我的观点表达一下,你可以不同意我的观点,但你要尊重我发表看法的权利。
    1,统计学是门严谨的科学,到现在我也这么认为。
    2可我因为我总觉得统计这个东西只是算个大概,而且有很枯燥,大学时也只是把老师上课讲的重点看了看,考试过了就行了,所以一直没有把统计学好好学过一遍,。
    3,当然关于概率、不确定性的讨论由来已久,比如上帝掷色子吗?所以不确定性就引发了文章中的讨论,以及咱们之间的讨论。
    4,现实中有些东西完全就可以用“是或非”的逻辑解决,比如说太阳升起天就会亮,天下雨就会掉雨滴。但有些东西不能用“是或非”来判断,比如说筛子问题,6个面出现概率理论上是相等的,12345各出现2500次,6出现2499次,但下一次掷筛子,谁也不能确定出现的是6。这大家都知道的道理。
    5,那么为了说明我的看法,我举个例子。药物在临床实验阶段必须要有双盲实验,这是为了排除患者心理暗示的影响。在结果出来后,我们会发现,服用药物组中总会出现药物不起作用的患者(在实验对象选取上实验人员会最大限度的将同样状况的人为实验对象),而在对照组中总有患者的病情得到了缓解。为了确定药物是否起作用,研究人员会用统计学的方法来确定(当然还会有其他辅助的判断)。这是很科学严谨的,我同意。一旦药品通过临床试验阶段上市后,为了药品的安全性,研究人员还是要对药品进行跟踪,一是看看药品是否真的起作用,二是防止临床试验中没有发现的问题。 由于这些新药并不是对所有患者都是有效的,药物的有效性判断是基于统计学上的判断,所以当患者服用这种新药之前还是不能确定药物是否会起作用,这就导致这种统计学上的判断大打折扣了。
    6,这就回到文章关于吸烟是否导致肺癌这上面。在这我先声明,前人的研究是经典的我不否认,但是我却认为像这类问题应该从生理学上讨论而不能用数学算式来证明,如果人类把癌症的秘密解开,揭示出癌症发病的生理过程,以及癌症是如何产生如何引发的,那么吸烟是否会导致肺癌的讨论就会迎刃而解。如果100个人吸烟99个患肺癌,不管你在统计学上怎么的近似怎么的正确,也不能肯定吸烟导致肺癌,就好比新药的上市不管临床上有多少人的病情得到好转,也不能确定下一位用药的患者病情一定会好转。
    7,由于实验人员为了消除其他因素,比如说年龄、性别、地域环境等等,对于实验对象选取上尽量做到一致,可是我们想到的所有因素比如说遗传因素、香烟质量、饮食习惯这些就真的能完全把误差消除掉吗?我们还有很多未知。
    8,当然我们的科学就是建立在这些统计学上的,正如你所说“推翻了整个现代流行病学以及几乎所有科学的基础”,当然我的这个确实有些说的不严谨,我只是对文章这一特定的事件做出我的理解。在这件事上,我信奉奥卡姆剃刀定律,关于吸烟导致肺癌这件事上用算式证明确实有些“多此一举”了。
    9,我只想发表我的看法,也许略显幼稚,但是科学不就是这么发展起来的嘛~ 望回复~

    [未知用户] 其实你没回复到点子上,我说的是你的逻辑(我说逻辑学才是现代科学的基础,而不是指统计学),你说的是统计学 ╮( ̄  ̄")╭。不吸烟的人也会患肺癌,这跟吸烟会不会导致肺癌有什么关系?人家证明的是吸烟会导致肺癌,而不是去证明肺癌是由吸烟导致的,这两句话是不一样的,不懂?再何况这篇文章讨论的是,吸烟和肺癌的强RR之间是不是存在混杂因素。不同学科关注的层面不一样,搞生物的关注分子层面,搞流病的关注群体水平而不是个体,注定讨论的东西是不一样的。现代医学对病因的定义就是,能引起疾病发生概率升高的因素,流行病学里也称为危险因素,大概没有什么疾病的危险因素是有且只有唯一(充分必要条件)的吧,这也就是说你的推理必定错误的原因。就好像这个世界除了男人就是女人么,当然不是。你的说法不如改为“吸烟的人也有不得肺癌的”,这样还稍微像正常逻辑,但这又是另外一个问题了。人和人之间有个体差异,个体的敏感阈值不一样(不一定是正态分布什么什么),造成有的个体需要很大剂量的刺激才会引起所关注的变化,而有的个体只需要低于平均水平的刺激就会引起,所以毒理学实验会有诸如LD50、MTD、LD100这样的剂量水平。吃饭还会撑死,你能说饭也是不安全的么?不像分子生物学,流行病学关注的是群体水平,而不是说,能观察到吸烟的人不得肺癌就证明吸烟不能引起肺癌。所以,统计推断的作用之一,便是基于一定的理论推断样本能不能代表总体,这些样本间的差异是不是随机误差造成的等等,也就是吸烟和肺癌之间的关联不是随机事件,至于是不是因果,两者之间是否有混杂因素那就是这篇(一系列)文章讨论的了。诚然,混杂因素可能不会百分之百的消除,但是不正是有了更多的手段和方法来消除混杂、辅助证明呢?
    [未知用户] 事后才想起,忘了很重要的说明,之前的回复没有任何不尊重的意思,只是确实让我笑了(难道我笑点低)。以及,“太阳升起天就会亮,天下雨就会掉雨滴”这其实不是逻辑(或者说只是在陈述事实或者就不构成有意义的句子),因为你看到天亮了才知道出太阳,因为你看到掉雨滴了才知道下雨了,事实上呢,太阳天天升起亮不亮是因为有没有云,下雨天之所以叫下雨天因为它下雨(唔,所以这句子没有意义,当然所谓的“下雨天”会不会下雨在气象上也是概率事件叫“降雨概率”)。
    24 天 后
    [未知用户] 个体角度是无法探讨因果关系的。所以只能借助统计学。Over.
    4 个月 后
    求问:尽管这个问题在这里很明显,但是在其他研究上就不一定了。
    文章一直追问:吸烟是否是肺癌的原因;而不是追问:肺癌是否是吸烟的原因
    如果我研究时遇到上述问题何解?
    [未知用户] 我不知道为什么有人要追问“肺癌是否是吸烟的原因”?
    [未知用户] 我只好把我之前说的第一句再重复一遍:
    “尽管这个问题在这里很明显,但是在其他研究上就不一定了。”
    [未知用户] 你可以举个例子,便于我回答。脱离实际背景,很难讨论。
    [未知用户] 我其实就是想问能够“脱离实际背景”的方法,而且我之前不认为存在这种方法。你这么说更加印证了我的想法,所以就算了吧。
      [未知用户] 脱离问题的方法叫machine learning. 他们有办法。
      1 年 后
      佩服楼主啊。
      我最近研究基因与疾病的关系,发现了两个基因。一个OR 是19,一个是16,怎么判断哪个才是真因啊?
      [未知用户] 请问这个RR能不能患者OR?
      OR(EU)≥OR(ED)
      取OR最大的能不能确定就是原因?
      再重复独立样本验证一次,仍然OR最大的哪个基因型,能确定是原因吗?
      1 年 后
      如果楼主初中在新都读书,我就认识楼主你,早就听说过你的传奇,我现在大一也学statistics,与你看齐。以后回家有机会向你请教请教
      3 年 后

      肚腹 虽然你的回复已经是四年前了,但是还是忍不住想回答一下,因为这是一个非常经典的问题。你提出的这个问题是包含在因果推断教材里面的,具体而言,属于Simultaneity/Reverse causality问题。这个问题非常普遍,在我们看到一组数据,变量X与Y显示了‘相关关系’的时候,我们一般会认为是X→Y,但是实际上,也有可能是Y→X,甚至有可能是X与Y互为因果。哪种是对的,取决于数据生成流程(Data Generating Process)。具体到本文这个问题上,我们认为是吸烟(X)导致癌症(Y),其具体的DGP是:吸烟→增加癌症的发病率→癌症,但是为什么不能反过来是癌症(Y)导致吸烟(X)?我们完全可以说真实的DGP是:得了癌症→轻生从而自暴自弃→吸烟。这也完全说的通不是吗?因为从数据集的角度来看,从这两个DGP得到的数据结果可以是完全一致的。因果性的黄金准则就是纯随机实验,哪种是对的?做一个实验。我本人不是学医的,但是为什么癌症导致吸烟这个因果关系没人去研究呢,我猜想可能有两个原因,第一,一般人很难想到这一层因果关系,且这个研究没有什么实际价值,第二,把癌症与否作为treatment是不道德的,你可以控制人抽烟不抽烟,但是控制人得不得癌症,这个想法很危险,有人可能会问可行性问题,我大概想了想,这是可行的,将实验组的人放到具有高辐射的环境下一段时间,使得他们得癌症。但是实际中,又有谁愿意来作为这个小白鼠呢,对吧?虽然过了这么久不知道你是否还在意这个问题,但仍然希望这个回答解决一个你当年的困惑吧:)

        论坛上很久很久没有这样有趣的讨论和争辩了。

        LearningSheep 为什么没有人追问“肺癌是否是吸烟的原因”,我想并不是因为“一般人很难想到这一层因果关系”(这个可能性并不难想),更不用说受过专门训练的研究人员;说“这个研究没有什么实际价值”也不是很具有解释力,因为从事比这个猜想更没有意义的研究的也大有人在。

        这个研究的难处在于“吸烟”不是一个单纯的变量,而是很多因素的集合。我们可以追问“得了肺癌的人是否对烟卷里的某种化学物质有偏好,比如尼古丁。”这个猜想可以被很好的验证,而且不用拿人来做实验:制备肺癌的小鼠模型,就可以用此测试得了肺癌的耗子对烟里的某种物质是否有偏好。如果觉得耗子里做的研究不一定能解释发生在人身上的事情(这个怀疑是极为合理的),那可以在人群里做 “case control study”, 这样也能收集到可供统计检验的信息。

        如果这些研究成立,比如支持“得了肺癌的人更偏好化学物质 X”,那么问题就来了:一个没有吸烟经验的人,如何知道他/她并未尝试过的香烟里含有这种物质,从而发生从不吸烟到吸烟的转变?我想这是这个猜想在逻辑上的难处;说获知患癌后心情郁闷,于是开始抽烟也是一个大而化之的说法,因为很多人心情郁闷的时候并不抽烟,而是用别的方式排遣。一般患癌的人年纪都偏大,而是否吸烟一般是青年时代就开始养成的习惯,所以如果有人患癌后开始吸烟,比如五十岁后突然变成了烟民,那这个现象在现实生活中是很容易被发现的。

        是否患癌是个很复杂的过程,一般最终会落实到一些关键基因的突变上,这些突变可能导致细胞的增殖失控和细胞接触抑制失效。人体本身的生化过程,比如代谢产生的过氧化物,会诱发基因突变;外界环境,比如高辐射环境,也会诱发基因突变;一些外界和人的交互作用,比如心情,也会对基因表达产生影响,从而间接影响到基因;还有就是遗传因素,很多人天生就有一些基因缺陷,使得他们更容易患癌(千小心,万小心都中招),同时也有人具备增强的基因,从而不容易患癌(抽烟又喝酒,活到九十九)。和这些负面因素抗衡的是人体本身的基因组修复和监控系统,它们试图防止癌细胞产生,如果产生了,也及时将其消灭。但是,如果一个人活得够长,患癌几乎是不可避免的必然。吸烟会产生基因突变,喝酒会抑制基因修复,烫头是否有影响就不知道了:)所以抽烟 + 喝酒会极大增加患癌的可能,这些研究有很高理论和实践价值。相反,问患(肺)癌是否是吸烟的原因,这在逻辑上似乎是合理的一问,但是基于现有观察,这一猜想在实际上并不算合理。

          一点读后感:讨论因果性的时候有一个前提,就是原因和结果都具有原子性,即清晰可辨、不可再分。这种情况下,从观察到甲乙之间的相关性,到推断出甲导致乙、乙导致甲或者丙导致了甲和乙,都能说得清楚没有歧义。

          可是在吸烟和肺癌的例子里,这两个事件的原子性都不可细究。对于烟,卷烟、土烟、 雪茄、电子烟、不含尼古丁的香烟(如果有的话)以及我没想到的香烟品类是否都考虑?对于吸,一手烟、二手烟一块考虑还是分开考虑?对于肺癌,癌细胞是只有一种还是千千万万种?如果是后者,每一种肺癌是不是要分开处理从而发现吸烟容易引起这种肺癌而不是那种肺癌?肺癌和非肺癌之间是有着清晰明确的界限呢,还只是中心定义清晰、边缘界限模糊的连续谱?

          所以“吸烟导致肺癌”以及我们在科研中打交道的种种因果推断,很有可能不是点到点的因果关系,而是集合到集合的因果关系,甚至是模糊集到模糊集的因果关系(:sigh:)。这个是对科学的重大挑战,也是科研工作的魅力之源吧。