Tingwei 我最近在复盘之前做的一个多元线性回归分析,因变量是销售额,自变量是在不同平台上做的广告的活动数据,在进行建模之前,不是要确保自变量和因变量之间是线性关系吗,其中有个自变量和销售额的关系从散点图上看有那么些线性关系,虽然不是很强(用scatter.smooth画出来的,近乎一条直线,但是斜率很低,有点平),然后算出它的pearson相关系数为0.2多,但是用cor.test对这个系数进行检验,发现是不显著的,但是这个自变量是公司花钱投的广告产生的数据,肯定是对销售额有影响的,不能去掉这个自变量,这时候应该怎么处理呀?
Finley 因为是多元回归,所以如果只考虑单一变量的话,不就把其他变量解释为噪音了吗?这样的单一变量的解释效果肯定不太好吧,所以不显著也是正常的。我通常的做法是先看所有变量的相关性矩阵和散点图,顺便求一下两两的R square,只是做一个初步的参考,但建模的话肯定还是主要按照其他专业背景知识作为依据的吧,你要是打算扔掉一个变量的话应该去做模型比较呀,即把一个包含此变量的full model和不包含此变量的reduced model进行比较,进而完成取舍。
Tingwei Finley 就是不是模型比较的问题,而是如果我把它纳入模型,就违背了线性回归的前提假设,但是我又不能去掉它,所以这种情况是不是只能转而采用非线性的回归分析。还是说也可以将就把它放入模型呢?
0521 我的看法 对于现实世界建模纳入协变量\相关变量与否从来都是两条线。 1,依据先验信息直接纳入, 此先验信息可以是机制性信息,也可以是最终用户认为非常重要的信息。 直接可在接下来的分析前直接进入模型。 2,依据收集到的样本信息,进行统计分析选择纳入, 此纳入就是你正在做的事情,根据你自认为\认可的统计指标,依据所获得的样本数据分析,选择纳入。 3,一般先验信息需要比较强的证据与理由才被使用,比如更大规模的设计良好的试验的大样本数据分析得出结论,临床医生认为重要的指标等。
Tingwei 0521 嗯嗯我明白你的意思,我很确定这个变量是不能去的,因为很重要,不过我是用线性回归分析,比较好解释,我的其他自变量的线性还是蛮显著的,只有这个变量不显著,不过不代表他们没关系,也许有别的关系,但是如果线性不显著就不能用线性回归了。可是我还是想尽量用线性回归,因为好解释,而且其他变量也都挺线性显著的。这个时候如果把这个变量纳入进来的话,不知道可不可以,还是说这种情况下必须转用非线性回归模型。
zywhy9 如果这个变量是不能删的,留在模型里单纯用参数来解释关系实际应用中是可以的,这种情况下就和显著性无关了,单纯就是为了得到参数来看关系。但是如果想要找更深层的关系,就需要找一下confounder之类的变量了。