• 统计学
  • 多因素分析发现吸烟是高血压的保护性因素,如何处理?求助

吸烟是高血压的危险因素(此时的多因素分析没有纳入性别),但把性别加入二分类的logistics回归分析中,吸烟变成高血压的保护因素。这种情况应该如何解决呢?或者从哪些方面来考虑呢?(事先说明,变量的赋值没有问题。除了不纳入性别之外有别的解决办法吗?)

    数据具体是什么样的呀方便看看吗,总结性的就好,男女+抽烟/不抽烟+高血压/正常血压 八种组合分别多少入组样本呀

      啥是危险因素,啥是保护因素?不会就是看看logistic的系数符号吧?
      总感觉你已经在把相关性当成因果,然后在想如何”解决“这个不符合直觉的”因素“了。

        8 天 后

        fenguoerbian 那如果说多因素logistic回归中吸烟相对于高血压来说系数是负的,想请教这在讨论中一般会如何解释呢?(吸烟是包括既往吸烟和现在吸烟),辛普森悖论嘛?

          tctcab 男性中吸烟人群高血压患病率高于不吸烟人群高血压患病率,但女性中吸烟人群高血压患病率低于不吸烟人群高血压患病率(女性吸烟样本量很少)。卡方检验显示:无论男性还是女性中,吸烟与高血压之间的p值均大于0.05,但在总体中,吸烟与高血压之间的p值小于0.0001

            LYH-lyh
            系数是负的只是模型拟合数据所显示出来的一个负相关性,并不指示因果。比较容易能够想到的:1. 数据本身的特异性;2. 系数相对于0是否有统计显著的差异、是否有临床意义显著的差异;3. 是否有未被包含、未被观测到的潜在的混杂因子;4. 模型建立是否有问题,要不要考虑交互项,要不要考虑其它模型结构?

              fenguoerbian“”2. 系数相对于0是否有统计显著的差异、是否有临床意义显著的差异”,这个不是很理解,可以稍微解释一下嘛?

                LYH-lyh

                这个例子

                n <- 100
                y <- rnorm(n)
                x <- rnorm(n)
                summary(lm(y ~ x))

                拟合出来的截距项和x的系数都必然不会是0,但是作为上帝视角我们知道这个非零的结果毫无意义。当然这个例子对非零系数的检验一般是不会通过的,也就是统计意义上这个非零没有显著性。

                而即便是统计意义上有显著性,也不代表有实际的临床意义。比方说只要样本量足够大,可以说必然可以检验出1年的中位生存时间和1年多1天的中位生存时间之间有统计显著的差异,但是在这样多出来的1天的获益,在临床上有实际意义吗。

                LYH-lyh

                我想 tctcab 提到的是各个小类别的人数,而不是比例。

                另外卡方检验本身并不具有合并后仍保持显著性的性质,不要因为亚组的p值或者显著性,就觉得合并后总体的p值或显著性就该怎样怎样。就好象从数学计算的角度而言,调和平均的计算过程只能保证结果在两个单独比例的范围之间,但并不能保序。那么把这样一个过程就想跟语言上简单的“好”、“高”联系起来,自然会带来看似的悖论。这是辛普森悖论从数学计算的角度的一个解释,我想道理也适用于你这里的统计检验结果。当然辛普森悖论还有很多不同角度的解释,比如贝叶斯的解释、因果分析角度的解释等等。