• 综合主站
  • 因果推断简介之八:吸烟是否导致肺癌?Fisher versus Cornfield

[未知用户] 我不知道为什么有人要追问“肺癌是否是吸烟的原因”?
[未知用户] 我只好把我之前说的第一句再重复一遍:
“尽管这个问题在这里很明显,但是在其他研究上就不一定了。”
[未知用户] 你可以举个例子,便于我回答。脱离实际背景,很难讨论。
[未知用户] 我其实就是想问能够“脱离实际背景”的方法,而且我之前不认为存在这种方法。你这么说更加印证了我的想法,所以就算了吧。
    [未知用户] 脱离问题的方法叫machine learning. 他们有办法。
    1 年 后
    佩服楼主啊。
    我最近研究基因与疾病的关系,发现了两个基因。一个OR 是19,一个是16,怎么判断哪个才是真因啊?
    [未知用户] 请问这个RR能不能患者OR?
    OR(EU)≥OR(ED)
    取OR最大的能不能确定就是原因?
    再重复独立样本验证一次,仍然OR最大的哪个基因型,能确定是原因吗?
    1 年 后
    如果楼主初中在新都读书,我就认识楼主你,早就听说过你的传奇,我现在大一也学statistics,与你看齐。以后回家有机会向你请教请教
    3 年 后

    肚腹 虽然你的回复已经是四年前了,但是还是忍不住想回答一下,因为这是一个非常经典的问题。你提出的这个问题是包含在因果推断教材里面的,具体而言,属于Simultaneity/Reverse causality问题。这个问题非常普遍,在我们看到一组数据,变量X与Y显示了‘相关关系’的时候,我们一般会认为是X→Y,但是实际上,也有可能是Y→X,甚至有可能是X与Y互为因果。哪种是对的,取决于数据生成流程(Data Generating Process)。具体到本文这个问题上,我们认为是吸烟(X)导致癌症(Y),其具体的DGP是:吸烟→增加癌症的发病率→癌症,但是为什么不能反过来是癌症(Y)导致吸烟(X)?我们完全可以说真实的DGP是:得了癌症→轻生从而自暴自弃→吸烟。这也完全说的通不是吗?因为从数据集的角度来看,从这两个DGP得到的数据结果可以是完全一致的。因果性的黄金准则就是纯随机实验,哪种是对的?做一个实验。我本人不是学医的,但是为什么癌症导致吸烟这个因果关系没人去研究呢,我猜想可能有两个原因,第一,一般人很难想到这一层因果关系,且这个研究没有什么实际价值,第二,把癌症与否作为treatment是不道德的,你可以控制人抽烟不抽烟,但是控制人得不得癌症,这个想法很危险,有人可能会问可行性问题,我大概想了想,这是可行的,将实验组的人放到具有高辐射的环境下一段时间,使得他们得癌症。但是实际中,又有谁愿意来作为这个小白鼠呢,对吧?虽然过了这么久不知道你是否还在意这个问题,但仍然希望这个回答解决一个你当年的困惑吧:)

      论坛上很久很久没有这样有趣的讨论和争辩了。

      LearningSheep 为什么没有人追问“肺癌是否是吸烟的原因”,我想并不是因为“一般人很难想到这一层因果关系”(这个可能性并不难想),更不用说受过专门训练的研究人员;说“这个研究没有什么实际价值”也不是很具有解释力,因为从事比这个猜想更没有意义的研究的也大有人在。

      这个研究的难处在于“吸烟”不是一个单纯的变量,而是很多因素的集合。我们可以追问“得了肺癌的人是否对烟卷里的某种化学物质有偏好,比如尼古丁。”这个猜想可以被很好的验证,而且不用拿人来做实验:制备肺癌的小鼠模型,就可以用此测试得了肺癌的耗子对烟里的某种物质是否有偏好。如果觉得耗子里做的研究不一定能解释发生在人身上的事情(这个怀疑是极为合理的),那可以在人群里做 “case control study”, 这样也能收集到可供统计检验的信息。

      如果这些研究成立,比如支持“得了肺癌的人更偏好化学物质 X”,那么问题就来了:一个没有吸烟经验的人,如何知道他/她并未尝试过的香烟里含有这种物质,从而发生从不吸烟到吸烟的转变?我想这是这个猜想在逻辑上的难处;说获知患癌后心情郁闷,于是开始抽烟也是一个大而化之的说法,因为很多人心情郁闷的时候并不抽烟,而是用别的方式排遣。一般患癌的人年纪都偏大,而是否吸烟一般是青年时代就开始养成的习惯,所以如果有人患癌后开始吸烟,比如五十岁后突然变成了烟民,那这个现象在现实生活中是很容易被发现的。

      是否患癌是个很复杂的过程,一般最终会落实到一些关键基因的突变上,这些突变可能导致细胞的增殖失控和细胞接触抑制失效。人体本身的生化过程,比如代谢产生的过氧化物,会诱发基因突变;外界环境,比如高辐射环境,也会诱发基因突变;一些外界和人的交互作用,比如心情,也会对基因表达产生影响,从而间接影响到基因;还有就是遗传因素,很多人天生就有一些基因缺陷,使得他们更容易患癌(千小心,万小心都中招),同时也有人具备增强的基因,从而不容易患癌(抽烟又喝酒,活到九十九)。和这些负面因素抗衡的是人体本身的基因组修复和监控系统,它们试图防止癌细胞产生,如果产生了,也及时将其消灭。但是,如果一个人活得够长,患癌几乎是不可避免的必然。吸烟会产生基因突变,喝酒会抑制基因修复,烫头是否有影响就不知道了:)所以抽烟 + 喝酒会极大增加患癌的可能,这些研究有很高理论和实践价值。相反,问患(肺)癌是否是吸烟的原因,这在逻辑上似乎是合理的一问,但是基于现有观察,这一猜想在实际上并不算合理。

        一点读后感:讨论因果性的时候有一个前提,就是原因和结果都具有原子性,即清晰可辨、不可再分。这种情况下,从观察到甲乙之间的相关性,到推断出甲导致乙、乙导致甲或者丙导致了甲和乙,都能说得清楚没有歧义。

        可是在吸烟和肺癌的例子里,这两个事件的原子性都不可细究。对于烟,卷烟、土烟、 雪茄、电子烟、不含尼古丁的香烟(如果有的话)以及我没想到的香烟品类是否都考虑?对于吸,一手烟、二手烟一块考虑还是分开考虑?对于肺癌,癌细胞是只有一种还是千千万万种?如果是后者,每一种肺癌是不是要分开处理从而发现吸烟容易引起这种肺癌而不是那种肺癌?肺癌和非肺癌之间是有着清晰明确的界限呢,还只是中心定义清晰、边缘界限模糊的连续谱?

        所以“吸烟导致肺癌”以及我们在科研中打交道的种种因果推断,很有可能不是点到点的因果关系,而是集合到集合的因果关系,甚至是模糊集到模糊集的因果关系(:sigh:)。这个是对科学的重大挑战,也是科研工作的魅力之源吧。

          Heterogeneity

          你这有点不可知论了,肺癌研究里的原子性还是可以细究的。

          吸烟导致癌症已经从分子机制层面都研究清楚了,尼古丁等60种烟里的小分子会和细胞dna形成加合物,提高突变率从而提高癌变发生几率。

          目前科学界积累起来的证据,可以说已经把“吸烟提高肺癌几率“完全实锤成铁板一块,想要翻案几乎不可能。

            Liechi 我觉得你第二段之后的论证非常的精彩,学习了很多。虽然我不是学医的,但是我也觉得癌症导致吸烟这一猜想不合理。在这里回复一下你第一段对我的反驳,我在说“一般人很难想到这一层因果关系的时候”,这里的一般人也包括我自己,因为确实在这个问题上,我没有想到可以去问“癌症是否是导致吸烟的原因”,所以我想当然的猜想大部分人和我一样没想过这个问题,确实不严谨。第二个观点“这个研究没有什么实际价值”,我指的是就算我们证明了癌症是导致吸烟的原因,我们能用这个结论来干什么呢?我确实想不到任何有用的地方,一般来说,确定因果关系的意义在于:我们可以通过控制自变量来达到控制因变量的目的。具体到这个问题上,如果我们证明了“吸烟是导致癌症的原因”,那么我们可以通过减少吸烟来达到减少癌症的目的。但是如果我们证明了“癌症是导致吸烟的原因”,我们难道希望通过控制得癌症与否来控制是否吸烟吗?这一点我觉得是没什么意义的,所以我才得出了那样的结论。你反驳我第二点的理由是“因为从事比这个猜想更没有意义的研究的也大有人在”,这不是一个有效的反驳,因为你一点只能说明这些研究都没有意义。为了避免误解,我希望将我的表述改为“我认为相比于研究吸烟是否导致癌症,研究癌症是否导致吸烟显得没有什么意义”。

            我原始的回复想解决的问题是@肚腹 所问的“如果我研究时遇到上述问题何解?”,我的回答是:跑一个纯随机试验,因为这是研究因果推断的黄金法则。其实还有一个比较常用的方法我没有提及,这个方法就是比较Timing,这一点你提到了,那就是“是否吸烟一般是青年时代就开始养成的习惯,所以如果有人患癌后开始吸烟,比如五十岁后突然变成了烟民,那这个现象在现实生活中是很容易被发现的。” 这一个方法其实是因果关系的“时间性”的体现。我们在设计实验的时候一般也会给X与Y在不同的timestamp打上标签,以此来检测一些其他可能存在的问题,比如上文提到的Reverse Causality,或者说是Difference in Difference问题。

              LearningSheep 我在回复中主要是讨论这个猜想的不合理性,没有讨论研究意义的问题。

              说“这个研究没有什么实际价值”也不是很具有解释力,因为从事比这个猜想更没有意义的研究的也大有人在。

              这句话是在引述你的观点,我认为这个观点不具备解释力,顺便吐槽了一下科研灌水现象。我并不认为“患癌会引起吸烟”这个猜想无意义,相反,我认为这类研究是极具理论和实践价值的。之前没有就意义问题展开,是因为我认为这猜想不大合理,所以就没有必要展开讨论意义问题了。如果你感兴趣的话,我可以抛开合理性问题,说一下这类研究可能的意义。

              从理论上说,有一种观点把癌细胞看做寄生在我们身体里的寄生体,而人体的免疫系统通常会消灭异己,包括自身“叛变”的癌细胞。癌细胞会抑制人本身的免疫能力,从而避免被清除,这是刚拿炸药奖的癌症免疫疗法的理论基础。寄生生物会想办法控制寄主,改变寄主的行为来满足自己的需求,如寄生在僵尸蚂蚁身体里的真菌和入侵了动物身体的狂犬病毒。如果癌细胞导致了人们偏好吸烟,那是因为人的这个行为会带给癌细胞什么好处吗?难道香烟里的某种物质会增加癌细胞在我们身体里的生存力?另外,癌细胞是通过什么机制来控制我们的偏好的---“我”以为的难道不是“我”以为的,而是“我”的癌细胞以为的?这些问题在肿瘤生物学和神经生物学上,都是极为有意思的理论问题。

              从实际应用上说,如果我们理解了癌细胞为何让我们偏好某种物质,那么我们就可能通过阻断相关过程来让癌细胞“不舒服”,这或许会成为癌症治疗的新突破口。当然,也有可能癌细胞只是碰巧让我们喜欢上了吸烟,这对癌细胞本身没有特别的好处,但即使这样,毕竟吸烟有害健康,最好避免。如果我们找出癌细胞到底让我们喜欢上了香烟里的什么物质,那我们可以专门生产这类物质,让患者在满足自己的同时避开香烟里其他物质带来的危害(如果该物质本身无什么大害),或生产和其结构类似的替代物来满足患者需求(如果该物质对人体有很大的危害)。如果这个研究是合理的,我们可以展望一下这些巨大的应用市场。

              不过,如我之前回复所说,根据现实观察,“癌症会引起人们吸烟”这个猜想本身不具备合理性,所以我上边说的现在看来也并无实际意义。写出来只是消磨了大约十分钟的时间而已。

              tctcab 谢谢你的评论啊。
              首先我没有要翻案的意思,无论吸烟与肺癌的关系为何,我都保持倾听的态度,毕竟自己是外行。我愿意大方地承认自己的无知。

              第二我所感兴趣的点是事件的原子性,而这一点在丁鹏的文章中并没有得到任何讨论,可是这对于因果性的讨论又是重要的前提。在吸烟和肺癌之间的因果性讨论上,这两个事件的原子性可能相对比较清楚。但是在很多其它的研究中,这一点并没有说清楚,甚至没有考虑到。这是我感慨的出发点。

              第三你提到了不可知论。我觉得这是非常有意思的一个问题。在你眼里我应该算是不可知论的支持者?我梳理了一下我关于不可知论的想法,有这么一些观点:
              (1)一个人在某个时点,其所掌握的知识是有限的。
              (2)一个人穷极一生,其所掌握的知识是有限的。
              (3)人类在某个时点,其所掌握的知识是有限的。
              (4)穷尽整个人类的历史,由于我无法预知未来,所以这就像一个上限可变的积分函数一样,是否收敛结果未定。
              但是如果人类的历史是有限的,那么对一个定积分作讨论太无趣了,不如考虑一下如果做到子子孙孙无穷匮也的话,这个表达知识总量的不定积分是否收敛。
              (4.1)这个不定积分是收敛的,人类的认知能力受到了自身生理和社会因素的死锁。
              (4.2)这个不定积分是发散的,人类的认知能力不断跨越一个又一个障碍。
              这两个情况都有进一步细分的空间:
              (4.1.1)人类的“后代”可以突破死锁,于是广义地看可以转到(4.2)。
              (4.2.1)人类及后代知识总量与宇宙“知识”总量的比值小于1。
              (4.2.2)人类及后代知识总量与宇宙“知识”总量的比值等于1,但是差值发散。如同了解了所有正整数中的合数,但是对所有素数一无所知。
              (4.2.3)人类及后代知识总量等于宇宙“知识”总量。

              我认为只有(4.2.3)成立的时候,才算推翻了不可知论。而且这个推翻是最低版本的。

              (4.2.3.1)在某个时点,人类及后代的知识量等于该时点宇宙“知识”总量。
              (4.2.3.2)从某个时点起,人类及后代的知识量等于该时点宇宙“知识”总量。

              这已经近乎科幻了。以上的讨论中“后代”和宇宙角度的“知识”都没有给出严谨的定义。
              我觉得我的讨论已经偏离了本论坛的主旨了,若是打扰到各位的话请包涵~

                Heterogeneity

                有意思的讨论,不过事先说好,观点交流意见不合很正常啦,我所有的讨论都只是对事不对人,并没有人身攻击你“无知”的意思,如有冒犯还请包涵。

                我不同意你的论点主要是这一句:“讨论因果性的时候有一个前提,就是原因和结果都具有原子性”。

                第二段又主要论述吸烟和肺癌两者都没有原子性,不满足“讨论因果性的前提”,按此逻辑,吸烟和肺癌的因果性没法讨论。按照相同的逻辑,一切研究因果性的课题,都可以按相同的方法将原因和结果细分到原子性不可细究,从而推断所有研究因果性的课题都不满足“讨论因果性的前提”。这种观点我个人认为跟不可知论 “认为除感觉和现象外,什么也不能认识,事物的本质是不可知的” 很接近。

                至于后面对于人类掌握的知识和“宇宙知识总量”的讨论,这和不可知论是完全不同的两个问题:“人类知识总量有限”跟“事物的本质是不可知”不是一个意思吧。

                  tctcab 在统计之都这样的论坛,我觉得承认无知没有什么好丢脸的啦:)

                  (1)关于原子性,我觉得你的帖子加深了我对原子性的理解。

                  Heterogeneity 讨论因果性的时候有一个前提,就是原因和结果都具有原子性,即清晰可辨、不可再分。

                  这句话说得过于理想化,而且带来了原子性应该是有或无两者必居其一的误导。

                  我是从以下两句话体会出来的:
                  我说的是

                  Heterogeneity 可是在吸烟和肺癌的例子里,这两个事件的原子性都不可细究。

                  而你说的是

                  tctcab 第二段又主要论述吸烟和肺癌两者都没有原子性,不满足“讨论因果性的前提”

                  所以在你看来(或者说,从我原先的论点出发),原子性是一个二值变量,一件事要么有要么没有;但是我觉得这是一个连续变量,所以会“不可细究”。在事件的原子性越清晰,越可能得到确凿的因果性关系。或者说,决定了这个研究所能取得结果的漂亮程度的上限。

                  举几个例子:
                  (1)吸烟有害健康。
                  (2)吸烟导致肺癌。
                  (3)每周吸卷烟20根以上,60岁以后患肺癌的概率比没有吸烟史的人高出8倍。
                  (4)每周吸中华20根以上的东亚地区男性,吸烟史每延长1年,60岁以后患肺癌的概率与没有吸烟史的东亚地区男性相比,平均上升25%。
                  (以上例子中的数据是我杜撰的。)

                  我不会说(1)中的事件没有原子性而(4)中的事件具有原子性,但我会说从(1)到(4),事件的原子性是不断上升的,从而得到的因果性关系也越来越确凿,判断每句话的真伪也越来越容易,可以浑水摸鱼的空间越来越小。

                    tctcab
                    (2)关于不可知论,很明显我对这个词的理解和你不同。不过我处于想搞清楚到底哪里不同的阶段。
                    我的理解是,不可知论就是说永远存在一些事实是不可被理解的。
                    你的理解是,事物的本质在可以理解和不可理解之间,不可知论选择了后者,是这样吗?

                    你如何评价不可知论呢?

                    你说

                    tctcab “人类知识总量有限”跟“事物的本质是不可知”不是一个意思吧。

                    你觉得这两者的关系能用韦恩图描述吗?