诸位好,关于多重比较,我有些理解不能的地方,希望大家帮我解惑。

问题描述

结合这篇文章的例子,

文章说这里应该使用多重比较,使用校正后的p值判断结果显著性。我的问题是,

  • 如果实验者的目的不变(探索25个饮食变量和乳腺密度的关联),分25次实验,每次都单独对一个变量进行假设检验,这样是否也应该使用多重比较?如果每次实验都对结果进行显著性(p<0.05)判断,是否同样不能以这25次实验的结果(是否显著关联)下结论?
  • 如果是25个团队分别对这个25个变量先后进行试验,团队1的结果是total calories和乳腺密度有显著关联(p<0.05),团队2的结果是olive oil和乳腺密度有显著关联(p<0.05),团队2参考团队1的结果,能下total calories和olive oil和乳腺密度都有显著关联的结论吗?如果不能,团队2合适的结论应该如何?

    补充

    我不是生物或者统计背景的,是在学习的过程中遇到了这个概念,觉得有些困惑。描述可能不够准确,举例也可能不够恰当,望见谅。在论坛上也搜索到了多重比较的一些帖子,但是好像是些更深入的问题。总之,希望大家能帮我疏通一下思路,谢谢!

如果实验者的目的不变(探索25个饮食变量和乳腺密度的关联),分25次实验,每次都单独对一个变量进行假设检验,这样是否也应该使用多重比较?如果每次实验都对结果进行显著性(p<0.05)判断,是否同样不能以这25次实验的结果(是否显著关联)下结论?

是的,这就是标准的多重比较的定义: 对“同一个实验目的进行了条件不同的多次检验”

如果是25个团队分别对这个25个变量先后进行试验,团队1的结果是total calories和乳腺密度有显著关联(p<0.05),团队2的结果是,团队2参考团队1的结果,能下total calories和olive oil和乳腺密度都有显著关联的结论吗?如果不能,团队2合适的结论应该如何?

如果25个独立团队测了25个变量,我们可以预计的是有1~2个团队会获得显著性的结果,比如olive oil。 这在学术界发表的论文中是正常而且广泛存在的, 所以理论上科学论文的结论要做到客观严谨,都要加限制条件:“在XXX的统计检验下olive oil和乳腺密度有显著关联(p<0.05)”。

学术论文的结论并不是真理,而是在当前条件下我们对实验中提炼出来的知识的正确或不正确的总结。这还是理论上运转良好的学术体系的理想状态,实际上人性是复杂的,因愚蠢而错用统计方法,为毕业而不择手段地p-hacking, 追逐热点灌水等等问题都普遍存在,多重检验只是诸多常见错误中较轻的一个。

补充

多重检验校正的核心思想就是将低估的P值调高,从而降低把随机结果当成“显著结果”的错误率。 具体的校正方法也有很多, 截图里提到的Bonferroni correction比较常用,但算最保守的校准方法。 其他方法可以参考R自带的p.adjust()函数的帮助。

    我补充下,这种场景下最好先从学科背景考虑下25个变量间是不是存在共相关。

    多重比较的一个前提是每次假设检验的变量间都是独立的。绝大多数多重比较的矫正方法都是建立在随机p值均匀分布的假设上,但真实数据并不随机,如果两个变量本来就相关,进行两次检验纯粹就是降低统计功效。

    我们考虑一个极端情况,25个变量都来自一个变量,互相相关,那么你进行25次假设检验跟进行一次假设检验本质上没区别,这时候去调节p值只会降低你的统计功效。如果本来真实的效应因为你降低阈值反而发现不了也不好吧,这也是很多人批评p值滥用的原因,p值是决策工具而科学发现里更关注真假而不是对错,只是需要对错来阶段性判断真假。

    同理另一个极端是25个变量互相正交,此时其实也不符合完全随机,但调节p值多少还有点道理。

    这样你就清楚了,多重比较的设计原理是对数据有一定假设的,最好先从学科背景去对数据进行去冗余,否则作出的结论可能并没有实际意义。

      tctcab 😃 谢谢答复。我之前对第二个问题的困惑在于,在多重比较的标准下,一方面,每多考虑一个变量就要把p值调整到更严格的水平,另一方面,如果不能在前人工作的基础上继续做(比如团队2想要知道olive oil和calories是否和乳腺密度关联,就要重新组织起相关的所有试验),后续的研究工作难度难以想象。而这个跟我接触到的情况很不一样,所以刚接触到这概念的时候感觉“房子”要塌了 🤣。应该就如您所说的——“多重检验只是诸多常见错误中较轻的一个” ——我才没有看到我们领域有人提醒注意这点吧。

      yufree 感谢 😁 。 如果对25个变量进行相关性的显著性检验,是不是也涉及到多重比较啊?

        Ringo 会的,而且你还需要检验变量是不是符合正态分布来确定是不是要用非参方法。

        但这都是没办法的办法,如果你的学科知识能帮你合并相关维度那最好不过了。举例来说,抽烟喝酒经常作为控制项,但如果他们背后实际是收入水平来决定的,那你就应该直接用收入水平而不是放两个共相关的变量到你的模型里,这种降维是可以依赖前人研究的。不过,如果前人也没检查就扔模型里去了,那只能说学科的同行评议没起作用。

        另外,我感觉你掉到p值的误区里去了,确实检验相关性涉及多重比较,但更常见的一个思路是直接主成分分析,重新组合出几个正交变量来建模,此时基本没人管p值的事,都正交了你比较多少次也跟另外的没啥关系。p值更多是统计学家提出的一个决策工具,跟你发现或验证的规律是否为真没关系,如果测量条件允许,你总是能通过增加样本量来使差异变得显著。假设你测量本来就存在很大误差,那么本来真实的规律可能也无法发现,好比你去验证牛顿第二定律,但因为测量误差很大,你发现其成立的p值是0.052,那么此时你会直接推翻牛顿第二定律还是说进行精度更高的实验呢?此处的p值有多少意义你可以考虑一下。此时需要优先做的是变量选择,不过那也是构建在统计推断上的,你可以考虑一下我给你 ABC三个变量让你做变量选择,后来发现漏了DEF这三个,然后你再去变量选择,此时是不是需要考虑多重比较?

        另外对相关性做假设检验其实非常依赖你对数据产生过程的了解,我就遇到过两个变量相关性非常高,后来发现其中一个是根据另一个的数值用经验公式算出来的情况,这种情况p值怎么调节都处理不了,因为统计学家在设计多重比较矫正方法时根本就不会考虑这种情况。

        我理解观察研究有时候根本搞不清机理而只能依赖统计推断,但也不能直接就躺平放弃治疗。很多统计量构建依赖的假设条件是与现实完全对不上的,现在确实很多人闭着眼做推断,甚至很多小学科内部用的统计方法完全就是经典方法加壳然后赋予其他含义,美其名曰专业术语就当黑箱来用了,做出的结果基本也就是小圈子内自娱自乐,别人一质疑就说他们不专业。你既然能提这样问题,说明还是打算从原理上搞清楚这些的,对此统计学能提供的信息是有限的,但你们学科积累的知识也许会帮到你。不管用什么统计量或统计方法,其实也仅仅是你论文的证据,至于读者认不认,那就是另一回事了,毕竟论文重要的在于论证的逻辑,结论大家都知道早晚都会被新证据给更新了(这里需不需要对研究同一个科学问题的多篇研究进行多重比较你可以思考一下)。没有科研人员会把单篇论文结论直接当成规律,想达成业内共识最快也得等业内大佬写综述,只不过新闻报道经常直接定性而已。

        如果上面的问题你觉得没有答案,恭喜你进入真正的科研世界,前面的坑更多。

          yuanfan

          拉低门槛并不是坏事。 科研不应当是一小群自以为聪明的人圈地自萌的游戏,而是应当成为普及的探索世界的工具。

          就像前几天上微博热艘的那个【英国研究证明新冠病毒是美国莫德纳公司人造的】的新闻, 其实看论文的核心就是一个概率估计问题。我希望科研可以普及到一般人也有能力独立搜集证据和进行推演,对新闻进行基本的事实判断,而不是猪一样单方面被喂

            tctcab
            由于我现实中没接触过任何搞科研的人,自己也没这份心,所以和“科研”有壁,但是我很好奇你说的科研的定义是什么?
            照我的理解,科研二字是“科学研究”四个字的缩写,等于是一种持之以恒的行为或者职业。我不看微博,所以没见过你说的这个新闻,不过我理解你想表达的意思是,当科研作为工具的时候,垄断了“知识创造”,如果搞科研的人昧良心创造了偏离事实的知识,普通人也无法判断真假。
            唔,我的三观倾向于认为世界上的人们理应各司其职,如果“知识创造”这件事有问题,那么“知识传播”这个环节应该要起到监督审核的作用,而不是每个人都要拿到工具去做“知识创造”这件事。

            抱歉,楼主,歪了你的楼。

              yuanfan
              字面上就是科学研究,我想表述的意思是科学研究的素养应该普及,或者【人们应该学会用用一套科学的方法论来认识世界】,而不单纯指【发现新知识】。

              并不是只有搞科研才需要有科学素养。 举个例子,咱们最近挖掘的scihub大数据,就是疑问驱动探索,形成假设,从数据推理形成观点和“新知识”的小型科研项目。 整个过程都在实践假设驱动型的研究范式。

              还说自己没有这份心哈哈哈

                tctcab
                多年前刚读研的时候怀着一腔热血见识了一些略微黑暗的事,也不知道为什么当时的导师对我一直很不满总说我不是这块料,我就绝了这份心。也一直以为是因为有作为网站编辑的湘云的督促,我才有了往主站投稿的心。而且认真写文章准备投稿的时候确实感到脑袋生锈了,下笔也生涩,就好像在啃那种一点也没熟的青色的李子。万万没想到,原来我想斗破的,还是这苍穹啊喂。完犊子了,哈哈哈,好像有个什么无形的墙壁轰然倒塌了,又有个什么有形的墙壁立了起来。

                唔,总而言之,我认同你的观点了。

                末,学益辉鼓捣几句打油诗。试问此楼歪几尺,二尺理想一尺心。好矫情,哈哈哈。试问此楼歪几尺,苍穹斗破任不止。好中二。再来,试问此楼歪几尺,别再歪了雅蠛蝶……试问此楼歪几尺,得空摸鱼再来歪。

                  yuanfan 没想到我能有这么大的帮助,合作愉快,欢迎继续投稿哈,期待表格制作与R语言的文章 😀😀😀