最近得到这么一组8行4列的数据
50 3 1 0.0144870260000000
40 6.6 6 0.976534694000000
80 4.2 4 0.618041970000000
30 2 3 0.0128586600000000
60 8 2 0.0114666030000000
50 3 0.5 0.0238351450000000
19 5.4 1 0.437034549000000
40 5.4 3 0.988633181000000
前三列是independent变量,第四列是dependent变量。我试了线性回归模型,多远二次回归模型,纯二次回归模型,逐步判别多元二次回归模型,甚至遗传算法进行变量筛选。都得不到模型具有统计学意义。
:
于是我尝试了下面的做法
(1)计算多元二次回归的所有项的数据,共9个,其实就是x1,x2,x3,x1^2,x2^2,x3^2,x1*x2,x1*x3,x2*x3
此时就相当于九个自变量,一个因变量。
(2)计算这九个的所有组合形式(如[x1,x1*x2,x2*x3]),大概有1000多个组合。
(3)将每一个组合对因变量进行多元线性回归,计算模型的p值
(4)选取最小的p值作为我的模型
通过这样的过程,是可以得到一个有显著性意义的模型。而且,参数估计的结果也非常好。
但是,不知道这样的做法合理不,希望大虾们,给予指点。