假设一个例子,因变量是身高(Height),第一个自变量是年龄(Age),第二个自变量是性别(Sex)。通常我们会感兴趣年龄和性别的交互作用,即年龄和身高的关系是否在不同性别中是不同的。如果交互不显著,我们通常会关心年龄和性别的主效应。我的问题是,如果交互作用不显著,是否应该去掉交互项,重新拟合模型。我也搜索过一些资料,我看不同的观点都有,由于我对统计原理知之甚少,所以希望大佬解答一下,最好是有一些可靠的参考来源(比如论文),这样如果以后有人质疑我,我可以进行引用。
我个人认为, 一方面,虽然交互作用不显著(一般就认为没有交互作用了),但是交互项的存在会使得主效应的估计受到影响,也就是本来主效应是显著的,加了交互项就不显著了。另一方面,我又觉得交互作用虽然不显著,但不代表没有意义,可能只是样本量太少,如果去掉交互项,好像模型设置就不太对了。
下面是我常用的代码:
library(car)
mymod <- lm(Height ~ Age + Sex + Age:Sex, contrasts = list(Sex="contr.sum"), data=mydat)
Anova(mymod, type='III')