多元回归残差平方和问题

leffgh

为什么去掉四个极不显著的变量，x2,x4解释的平方和会小那么多呢？而残差平方和原来只有40多，一下子升到115，其余4个变量解释的平方和不是加起来都不到十吗？

si<-lm(y~x1+x2+x3+x4+x5+x6)

> anova(si)

Analysis of Variance Table

Response: single

Df Sum Sq Mean Sq F value Pr(>F)

x1 1 2.499 2.499 1.0474 0.3197

x2 1 124.937 124.937 52.3575 9.929e-07 ***

x3 1 4.336 4.336 1.8170 0.1944

x4 1 76.070 76.070 31.8788 2.345e-05 ***

x5 1 0.145 0.145 0.0608 0.8081

x6 1 5.621 5.621 2.3558 0.1422

Residuals 18 42.952 2.386

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

> si<-lm(single~x2+x4)

> anova(si)

Analysis of Variance Table

Response: single

Df Sum Sq Mean Sq F value Pr(>F)

x2 1 74.649 74.649 14.158 0.001074 **

x4 1 65.912 65.912 12.501 0.001858 **

Residuals 22 115.999 5.273

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

>

数据如下：

no x1 x2 y x3 x4 x5

1 30 251 9 3 6 1

2 43 239 15 12 5 1

3 38 292 17 2 1 6

4 30 262 11 4 3 2

5 40 265 16 3 4 4

6 35 218 13 5 3 2

7 33 232 7 8 1 3

8 26 133 6 8 1 3

9 30 186 9 6 2 2

10 26 229 5 7 0 1

11 27 147 8 5 4 3

12 29 144 10 7 3 1

13 35 197 16 5 4 3

14 24 166 10 2 2 1

15 29 251 9 5 3 4

16 18 92 9 2 2 0

17 26 121 11 5 2 2

18 23 140 11 5 3 0

19 16 92 7 3 0 2

20 24 93 16 2 1 0

21 25 106 9 6 2 0

22 22 69 11 2 1 2

23 22 76 12 3 2 0

24 22 159 10 2 2 0

25 26 150 12 5 2 2

rtist

看不出这是问什么。有什么好奇怪的么？？

fu_neng

是会出现这种情况的, 不显著并不代表其不对残差平方和产生影响.

leffgh

那这时间不显著的要不要纳入方程呢？

rtist

[quote]引用第3楼leffgh于2007-08-28 07:53发表的“”:

那这时间不显著的要不要纳入方程呢？[/quote]

你的目的是什么？

leffgh

写多了一个“间”字

leffgh

当然是尽可能多地解释变异啦

rtist

[quote]引用第6楼leffgh于2007-08-28 08:12发表的“”:

当然是尽可能多地解释变异啦[/quote]

解释已观测到数据的变异还是未观测到的数据的变异？

btw:这里可不能说“当然是”！怎么也谈不上当然！

leffgh

如果是解释已观察到数据的变异怎么做？

如果是未观察到数据的变异又怎么做，我好像想起有个robust regression的，与之有关吗？