最近得到这么一组8行4列的数据

50 3 1 0.0144870260000000

40 6.6 6 0.976534694000000

80 4.2 4 0.618041970000000

30 2 3 0.0128586600000000

60 8 2 0.0114666030000000

50 3 0.5 0.0238351450000000

19 5.4 1 0.437034549000000

40 5.4 3 0.988633181000000

前三列是independent变量,第四列是dependent变量。我试了线性回归模型,多远二次回归模型,纯二次回归模型,逐步判别多元二次回归模型,甚至遗传算法进行变量筛选。都得不到模型具有统计学意义。

:

于是我尝试了下面的做法

(1)计算多元二次回归的所有项的数据,共9个,其实就是x1,x2,x3,x1^2,x2^2,x3^2,x1*x2,x1*x3,x2*x3

此时就相当于九个自变量,一个因变量。

(2)计算这九个的所有组合形式(如[x1,x1*x2,x2*x3]),大概有1000多个组合。

(3)将每一个组合对因变量进行多元线性回归,计算模型的p值

(4)选取最小的p值作为我的模型

通过这样的过程,是可以得到一个有显著性意义的模型。而且,参数估计的结果也非常好。

但是,不知道这样的做法合理不,希望大虾们,给予指点。

No. You are subject to severe overfitting. You need to "NEST" your whole process into a permuation procedure to decide how significant your tweaked p-value is.

回复 第2楼 的 Rtist:抱歉,我不是统计专业的。只能理解你的意思的80%。

不过,我有疑问。在文献上,我也经常看到用二次多项式回归处理数据。他们提供的也仅仅是模型的p值和参数估计的p值,并没有对过拟合进行讨论。而他们的R值往往达到0.999,也是明显的过拟合表现。

我想问的是,抛出过拟合不管,这样的分析对不对?

14 天 后

这个见仁见智了。从预测的角度讲,过度拟合肯定很糟糕。如果你有数据之外的充足的背景知识支持这样做,也未尝不可。

至于文献上,神马宝贝和神马垃圾都会有了。别人再怎么分析,也是分析别人的数据,不是自己的数据。

至于别人分析的对不对这种问题,可以负责任的说,都是错的————统计分析肯定没有完美的(除了模拟的数据),还要看不完美的地方对你的问题有多大影响来判断需不需要纠正。