• 统计学数理统计
  • 多元线性回归分析如果发现自变量和因变量线性关系不是很强但是又不能去掉这个自变量,该怎么处理?

我最近在复盘之前做的一个多元线性回归分析,因变量是销售额,自变量是在不同平台上做的广告的活动数据,在进行建模之前,不是要确保自变量和因变量之间是线性关系吗,其中有个自变量和销售额的关系从散点图上看有那么些线性关系,虽然不是很强(用scatter.smooth画出来的,近乎一条直线,但是斜率很低,有点平),然后算出它的pearson相关系数为0.2多,但是用cor.test对这个系数进行检验,发现是不显著的,但是这个自变量是公司花钱投的广告产生的数据,肯定是对销售额有影响的,不能去掉这个自变量,这时候应该怎么处理呀?

    因为是多元回归,所以如果只考虑单一变量的话,不就把其他变量解释为噪音了吗?这样的单一变量的解释效果肯定不太好吧,所以不显著也是正常的。我通常的做法是先看所有变量的相关性矩阵和散点图,顺便求一下两两的R square,只是做一个初步的参考,但建模的话肯定还是主要按照其他专业背景知识作为依据的吧,你要是打算扔掉一个变量的话应该去做模型比较呀,即把一个包含此变量的full model和不包含此变量的reduced model进行比较,进而完成取舍。

      我的看法
      对于现实世界建模纳入协变量\相关变量与否从来都是两条线。
      1,依据先验信息直接纳入,
      此先验信息可以是机制性信息,也可以是最终用户认为非常重要的信息。
      直接可在接下来的分析前直接进入模型。

      2,依据收集到的样本信息,进行统计分析选择纳入,
      此纳入就是你正在做的事情,根据你自认为\认可的统计指标,依据所获得的样本数据分析,选择纳入。

      3,一般先验信息需要比较强的证据与理由才被使用,比如更大规模的设计良好的试验的大样本数据分析得出结论,临床医生认为重要的指标等。

        CMCai0104 没有啊,只是线性关系没那么强,不代表没有其他关系的。只是线性回归好解释,而且我的其他自变量都是线性显著的,所以我想尽可能能用线性就用线性。

        Finley 嗯?没有只考虑单一变量呀,我做的是多元线性回归。只是这个自变量和因变量线性关系没那么强,我的其他自变量都是线性显著的,所以我想尽可能能用线性就用线性。

        0521 嗯嗯我明白你的意思,我很确定这个变量是不能去的,因为很重要,不过我是用线性回归分析,比较好解释,我的其他自变量的线性还是蛮显著的,只有这个变量不显著,不过不代表他们没关系,也许有别的关系,但是如果线性不显著就不能用线性回归了。可是我还是想尽量用线性回归,因为好解释,而且其他变量也都挺线性显著的。这个时候如果把这个变量纳入进来的话,不知道可不可以,还是说这种情况下必须转用非线性回归模型。

        Finley 就是不是模型比较的问题,而是如果我把它纳入模型,就违背了线性回归的前提假设,但是我又不能去掉它,所以这种情况是不是只能转而采用非线性的回归分析。还是说也可以将就把它放入模型呢?

          Tingwei 我觉得是可以先放进模型的,就算是要去掉它我觉得应该也是得结合模型比较去掉,个人觉得单一统计量可能不是太有说服力。

          如果这个变量是不能删的,留在模型里单纯用参数来解释关系实际应用中是可以的,这种情况下就和显著性无关了,单纯就是为了得到参数来看关系。但是如果想要找更深层的关系,就需要找一下confounder之类的变量了。

            zywhy9 哦是吗,不过不太明白为什么这种情况下和显著性无关,它毕竟还是会影响到其他变量的系数和显著性的