我最近在复盘之前做的一个多元线性回归分析,因变量是销售额,自变量是在不同平台上做的广告的活动数据,在进行建模之前,不是要确保自变量和因变量之间是线性关系吗,其中有个自变量和销售额的关系从散点图上看有那么些线性关系,虽然不是很强(用scatter.smooth画出来的,近乎一条直线,但是斜率很低,有点平),然后算出它的pearson相关系数为0.2多,但是用cor.test对这个系数进行检验,发现是不显著的,但是这个自变量是公司花钱投的广告产生的数据,肯定是对销售额有影响的,不能去掉这个自变量,这时候应该怎么处理呀?
多元线性回归分析如果发现自变量和因变量线性关系不是很强但是又不能去掉这个自变量,该怎么处理?
因为是多元回归,所以如果只考虑单一变量的话,不就把其他变量解释为噪音了吗?这样的单一变量的解释效果肯定不太好吧,所以不显著也是正常的。我通常的做法是先看所有变量的相关性矩阵和散点图,顺便求一下两两的R square,只是做一个初步的参考,但建模的话肯定还是主要按照其他专业背景知识作为依据的吧,你要是打算扔掉一个变量的话应该去做模型比较呀,即把一个包含此变量的full model和不包含此变量的reduced model进行比较,进而完成取舍。
我的看法
对于现实世界建模纳入协变量\相关变量与否从来都是两条线。
1,依据先验信息直接纳入,
此先验信息可以是机制性信息,也可以是最终用户认为非常重要的信息。
直接可在接下来的分析前直接进入模型。
2,依据收集到的样本信息,进行统计分析选择纳入,
此纳入就是你正在做的事情,根据你自认为\认可的统计指标,依据所获得的样本数据分析,选择纳入。
3,一般先验信息需要比较强的证据与理由才被使用,比如更大规模的设计良好的试验的大样本数据分析得出结论,临床医生认为重要的指标等。
如果这个变量是不能删的,留在模型里单纯用参数来解释关系实际应用中是可以的,这种情况下就和显著性无关了,单纯就是为了得到参数来看关系。但是如果想要找更深层的关系,就需要找一下confounder之类的变量了。