r回归模型中r方很小，但t检验和f检验都显著，模型有效嘛？

weijing

r回归模型中r方很小，但t检验和f检验都显著，模型有效嘛？
响应变量是连续变量，自变量一个是连续变量（这个连续变量单独分析结果跟因变量基本毫无关系，但是现实理论上是有关系的），3个虚拟变量，用100万个数据样本做的回归分析，但是r方才0.26，t检验和f检验都显著

请问我需要做些一下什么啊？感觉残差分布也不太像正太分布。是要添加变量嘛？初学者求大佬教教。。。

fenguoerbian

“理论上有关系”，那么具体的关系是什么样呢？是否就是你模型使用的线性关系呢？
你建模的目的到底是什么，是用来拟合，获得对数据的解释性，还是希望用来做预测？你要明确你的目的，再来检视当前的模型是否能够满足你的目的。而不是只看若干指标是否显著。举个极端的例子：
```
n <- 1000000 
x <- rnorm(n, sd = 1)
beta0 <- 0.5
y <- 1 + x * beta0 + rchisq(n, df = 3)
fit1 <- lm(y ~ x)
summary(fit1)
plot(density(fit1$residuals))
```
这样的一个模型，做下来\(R^2\)非常小，残差也不是正态，但t、f检验都很显著。作为“上帝”的我们知道这个线性建模确实是正确的。而另一个模型
```
x <- rnorm(n, mean = 6, sd = 1)
beta1 <- 0.5
y <- 1 + x ^ 2 * beta1 + rnorm(n, sd = 1)
summary(lm(y ~ x))
```
不光各项检验都显著，\(R^2\)也有0.95以上。但作为“上帝”的我们知道这个模型本身是错的。实际应用中还能看到很多各项检验都不显著，结果\(R^2\)却非常高的例子。

skystarxzl

不符合正态分布假设这一点可以对因变量进行Power transformation