吸烟是高血压的危险因素(此时的多因素分析没有纳入性别),但把性别加入二分类的logistics回归分析中,吸烟变成高血压的保护因素。这种情况应该如何解决呢?或者从哪些方面来考虑呢?(事先说明,变量的赋值没有问题。除了不纳入性别之外有别的解决办法吗?)
多因素分析发现吸烟是高血压的保护性因素,如何处理?求助
数据具体是什么样的呀方便看看吗,总结性的就好,男女+抽烟/不抽烟+高血压/正常血压 八种组合分别多少入组样本呀
啥是危险因素,啥是保护因素?不会就是看看logistic的系数符号吧?
总感觉你已经在把相关性当成因果,然后在想如何”解决“这个不符合直觉的”因素“了。
8 天 后
fenguoerbian 那如果说多因素logistic回归中吸烟相对于高血压来说系数是负的,想请教这在讨论中一般会如何解释呢?(吸烟是包括既往吸烟和现在吸烟),辛普森悖论嘛?
LYH-lyh
系数是负的只是模型拟合数据所显示出来的一个负相关性,并不指示因果。比较容易能够想到的:1. 数据本身的特异性;2. 系数相对于0是否有统计显著的差异、是否有临床意义显著的差异;3. 是否有未被包含、未被观测到的潜在的混杂因子;4. 模型建立是否有问题,要不要考虑交互项,要不要考虑其它模型结构?
fenguoerbian“”2. 系数相对于0是否有统计显著的差异、是否有临床意义显著的差异”,这个不是很理解,可以稍微解释一下嘛?
这个例子
n <- 100
y <- rnorm(n)
x <- rnorm(n)
summary(lm(y ~ x))
拟合出来的截距项和x的系数都必然不会是0,但是作为上帝视角我们知道这个非零的结果毫无意义。当然这个例子对非零系数的检验一般是不会通过的,也就是统计意义上这个非零没有显著性。
而即便是统计意义上有显著性,也不代表有实际的临床意义。比方说只要样本量足够大,可以说必然可以检验出1年的中位生存时间和1年多1天的中位生存时间之间有统计显著的差异,但是在这样多出来的1天的获益,在临床上有实际意义吗。