• 统计学
  • 线性回归模型中,如果交互作用不显著,是否应该去掉交互项?

假设一个例子,因变量是身高(Height),第一个自变量是年龄(Age),第二个自变量是性别(Sex)。通常我们会感兴趣年龄和性别的交互作用,即年龄和身高的关系是否在不同性别中是不同的。如果交互不显著,我们通常会关心年龄和性别的主效应。我的问题是,如果交互作用不显著,是否应该去掉交互项,重新拟合模型。我也搜索过一些资料,我看不同的观点都有,由于我对统计原理知之甚少,所以希望大佬解答一下,最好是有一些可靠的参考来源(比如论文),这样如果以后有人质疑我,我可以进行引用。

我个人认为, 一方面,虽然交互作用不显著(一般就认为没有交互作用了),但是交互项的存在会使得主效应的估计受到影响,也就是本来主效应是显著的,加了交互项就不显著了。另一方面,我又觉得交互作用虽然不显著,但不代表没有意义,可能只是样本量太少,如果去掉交互项,好像模型设置就不太对了。

下面是我常用的代码:

library(car)
mymod <- lm(Height ~ Age + Sex + Age:Sex, contrasts = list(Sex="contr.sum"), data=mydat)
Anova(mymod, type='III')

如果加进去不显著不加显著,我的第一反应就是主效应不强,统计推断的实际意义有限。此时你可以把交互作用当成噪音项,如果噪音大一点主效应就没了或者才会出现主效应,作为实验人员我建议加大样本量,作为数据分析人员我会拒绝分析,因为此时得到的结论注定重现性不好。如果你恰好处在样品量就这么多,没法补实验的场景,那我只能祝你好运,不要遇到类似我这样的审稿人,碰上也是让你补实验或换模型。如果你想更深入了解这种尴尬场景,可以看下 type S 跟 type M 型错误 的介绍。这种存在不同观点的命题本质上无法单纯从统计角度解决,需要看实际问题及背后的科学原理。

1 个月 后

可以这样,
之前混合线性模型的书,如果多个模型比较,是推荐取消不显著的次要项。

因为有个默认原则就是:简单
即simple is better, but not more simpler!