已知有六个自变量在用lm()何训练集数据做完线性回归后,有一个变量A,p值大于0.05,此时是否应该舍去这个变量?在用ols_step_both_p()选择完成变量后,结果为除了A之外的五个变量,这个结果是不是印证了A应该舍去?
现在要求根据上一步得出的模型用测试集数据和MSE确定哪些变量应该被包括在模型里。是否应该按照上一步的变量的选择顺序依次将以选择的变量添加到空白模型里,并且依次计算MSE,找到MSE的拐点,然后将MSE拐点对应的模型中的自变量包括在最终模型中?我按照这个方法做,MSE从第二个变量加入后就开始增加,是否说明最终模型应该只包括第一个变量?